Connect with us

Wawancara

Anand Kannappan, CEO & Co-founder of Patronus AI – Interview Series

mm

Anand Kannappan adalah Co-Founder dan CEO dari Patronus AI, platform evaluasi dan keamanan AI otomatis pertama di industri untuk membantu perusahaan menangkap kesalahan LLM secara besar-besaran. Sebelumnya, Anand memimpin upaya penjelasan ML dan eksperimen lanjutan di Meta Reality Labs.

Apa yang awalnya menarik Anda untuk ilmu komputer?

Saya tumbuh dewasa dengan selalu terpesona oleh teknologi dan bagaimana teknologi dapat digunakan untuk memecahkan masalah dunia nyata. Ide tentang dapat menciptakan sesuatu dari awal menggunakan hanya komputer dan kode mempesona saya. Ketika saya lebih dalam mempelajari ilmu komputer, saya menyadari potensi besar yang dimilikinya untuk inovasi dan transformasi di berbagai industri. Dorongan untuk berinovasi dan membuat perbedaan adalah yang awalnya menarik saya ke ilmu komputer.

Apakah Anda dapat membagikan kisah asal-usul di balik Patronus AI?

Asal-usul Patronus AI adalah sebuah perjalanan yang cukup menarik. Ketika OpenAI meluncurkan ChatGPT, itu menjadi produk konsumen yang tumbuh paling cepat, mengumpulkan lebih dari 100 juta pengguna dalam hanya dua bulan. Adopsi besar-besaran ini menyoroti potensi generatif AI, tetapi juga membawa kekhawatiran perusahaan tentang kemungkinan kesalahan dan perilaku tidak terduga dari model bahasa besar (LLM).

Rebecca dan saya telah mengenal satu sama lain selama bertahun-tahun, memiliki latar belakang pendidikan ilmu komputer bersama di University of Chicago. Di Meta, kita berdua menghadapi tantangan dalam mengevaluasi dan menafsirkan output machine learning—Rebecca dari sudut pandang penelitian dan saya dari sudut pandang terapan. Ketika ChatGPT diumumkan, kita berdua melihat potensi transformasional LLM tetapi juga memahami kehati-hatian perusahaan.

Titik baliknya datang ketika bank investasi saudara laki-laki saya, Piper Sandler, memutuskan untuk melarang akses OpenAI secara internal. Ini membuat kita menyadari bahwa meskipun AI telah berkembang secara signifikan, masih ada celah dalam adopsi perusahaan karena kekhawatiran tentang keandalan dan keamanan. Kita mendirikan Patronus AI untuk mengatasi celah ini dan meningkatkan kepercayaan perusahaan terhadap AI generatif dengan menyediakan lapisan evaluasi dan keamanan untuk LLM.

Apakah Anda dapat menjelaskan fungsi inti platform Patronus AI untuk mengevaluasi dan mengamankan LLM?

Misi kita adalah untuk meningkatkan kepercayaan perusahaan terhadap AI generatif. Kita telah mengembangkan platform evaluasi dan keamanan otomatis pertama di industri khusus untuk LLM. Platform kita membantu bisnis mendeteksi kesalahan dalam output LLM secara besar-besaran, memungkinkan mereka untuk mengirimkan produk AI dengan aman dan percaya diri.

Platform kita mengotomatisasi beberapa proses kunci:

  • Penilaian: Kita mengevaluasi kinerja model dalam skenario dunia nyata, fokus pada kriteria penting seperti halusinasi dan keamanan.
  • Generasi Tes: Kita secara otomatis menghasilkan suite tes adversarial secara besar-besaran untuk menilai kemampuan model dengan ketat.
  • Pengukuran: Kita membandingkan model yang berbeda untuk membantu pelanggan mengidentifikasi yang terbaik untuk kasus penggunaan spesifik mereka.

Perusahaan lebih memilih evaluasi yang sering untuk beradaptasi dengan model, data, dan kebutuhan pengguna yang berkembang. Platform kita bertindak sebagai evaluator pihak ketiga tepercaya, memberikan perspektif yang tidak bias kepada perusahaan. Mitra awal kita termasuk perusahaan AI terkemuka seperti MongoDB, Databricks, Cohere, dan Nomic AI, dan kita sedang dalam pembicaraan dengan beberapa perusahaan profil tinggi di industri tradisional untuk melakukan pilot platform kita.

Jenis kesalahan atau “halusinasi” apa yang dideteksi oleh model Lynx Patronus AI dalam output LLM, dan bagaimana hal ini menangani masalah ini untuk bisnis?

LLM memang merupakan alat yang kuat, namun sifat probabilistiknya membuatnya rentan terhadap “halusinasi,” atau kesalahan di mana model menghasilkan informasi yang tidak akurat atau tidak relevan. Halusinasi ini bermasalah, terutama dalam lingkungan bisnis yang memiliki taruhan tinggi di mana akurasi sangat kritis.

Secara tradisional, bisnis telah mengandalkan inspeksi manual untuk mengevaluasi output LLM, proses yang tidak hanya memakan waktu tetapi juga tidak dapat diskalakan. Untuk mempermudah ini, Patronus AI mengembangkan Lynx, model khusus yang meningkatkan kemampuan platform kita dengan mengotomatisasi deteksi halusinasi. Lynx, yang terintegrasi dalam platform kita, menyediakan cakupan tes komprehensif dan jaminan kinerja yang kuat, fokus pada mengidentifikasi kesalahan kritis yang dapat secara signifikan mempengaruhi operasi bisnis, seperti perhitungan keuangan yang tidak benar atau kesalahan dalam tinjauan dokumen hukum.

Dengan Lynx, kita memitigasi keterbatasan evaluasi manual melalui pengujian adversarial yang diotomatisasi, menjelajahi spektrum luas skenario kegagalan potensial. Ini memungkinkan deteksi masalah yang mungkin luput dari evaluator manusia, menawarkan bisnis keandalan yang ditingkatkan dan kepercayaan untuk mengirimkan LLM dalam aplikasi kritis.

FinanceBench digambarkan sebagai benchmark pertama di industri untuk mengevaluasi kinerja LLM pada pertanyaan keuangan. Tantangan apa di sektor keuangan yang memicu pengembangan FinanceBench?

FinanceBench dikembangkan sebagai respons terhadap tantangan unik yang dihadapi sektor keuangan dalam mengadopsi LLM. Aplikasi keuangan memerlukan tingkat akurasi dan keandalan yang tinggi, karena kesalahan dapat menyebabkan kerugian keuangan yang signifikan atau masalah regulasi. Meskipun janji LLM dalam menangani volume besar data keuangan, penelitian kita menunjukkan bahwa model canggih seperti GPT-4 dan Llama 2 bergelut dengan pertanyaan keuangan, sering gagal mengambil informasi yang akurat.

FinanceBench diciptakan sebagai benchmark komprehensif untuk mengevaluasi kinerja LLM dalam konteks keuangan. Ini mencakup 10.000 pasangan pertanyaan dan jawaban berdasarkan dokumen keuangan yang tersedia secara publik, mencakup area seperti penalaran numerik, pengambilan informasi, penalaran logis, dan pengetahuan dunia. Dengan menyediakan benchmark ini, kita bertujuan untuk membantu perusahaan memahami lebih baik keterbatasan model saat ini dan mengidentifikasi area untuk perbaikan.

Analisis awal kita mengungkapkan bahwa banyak LLM gagal memenuhi standar tinggi yang diperlukan untuk aplikasi keuangan, menyoroti kebutuhan untuk penyempurnaan lebih lanjut dan evaluasi yang ditargetkan. Dengan FinanceBench, kita menyediakan alat berharga bagi perusahaan untuk menilai dan meningkatkan kinerja LLM di sektor keuangan.

Penelitian Anda menyoroti bahwa model AI terkemuka, terutama GPT-4 dari OpenAI, menghasilkan konten berhak cipta pada tingkat yang signifikan ketika dipicu dengan cuplikan dari buku populer. Apa yang Anda percaya adalah implikasi jangka panjang dari temuan ini untuk pengembangan AI dan industri teknologi yang lebih luas, terutama mempertimbangkan debat yang sedang berlangsung seputar AI dan hukum hak cipta?

Masalah model AI menghasilkan konten berhak cipta adalah kekhawatiran kompleks dan mendesak dalam industri AI. Penelitian kita menunjukkan bahwa model seperti GPT-4, ketika dipicu dengan cuplikan dari buku populer, sering menghasilkan kembali konten berhak cipta. Ini menimbulkan pertanyaan penting tentang hak cipta dan implikasi hukum dari menggunakan konten yang dihasilkan AI.

Dalam jangka panjang, temuan ini menekankan kebutuhan akan pedoman dan peraturan yang lebih jelas seputar AI dan hak cipta. Industri harus bekerja menuju pengembangan model AI yang menghormati hak cipta sambil mempertahankan kemampuan kreatif mereka. Ini bisa melibatkan penyempurnaan dataset pelatihan untuk menghindari konten berhak cipta atau mengimplementasikan mekanisme yang mendeteksi dan mencegah reproduksi konten yang dilindungi.

Industri teknologi yang lebih luas perlu terlibat dalam diskusi berkelanjutan dengan ahli hukum, pembuat kebijakan, dan pemangku kepentingan untuk menetapkan kerangka yang menyeimbangkan inovasi dengan penghormatan terhadap hukum yang ada. Ketika AI terus berkembang, penting untuk menangani tantangan ini secara proaktif untuk memastikan pengembangan AI yang bertanggung jawab dan etis.

Mengingat tingkat yang mengkhawatirkan dari model AI canggih yang mereproduksi konten berhak cipta, seperti yang dibuktikan oleh studi Anda, langkah apa yang Anda pikir pengembang AI dan industri secara keseluruhan perlu ambil untuk menangani kekhawatiran ini? Selanjutnya, bagaimana Patronus AI berencana untuk berkontribusi pada penciptaan model AI yang lebih bertanggung jawab dan mematuhi hukum dalam cahaya temuan ini?

Menangani masalah model AI yang mereproduksi konten berhak cipta memerlukan pendekatan multi-faset. Pengembang AI dan industri secara keseluruhan perlu memprioritaskan transparansi dan akuntabilitas dalam pengembangan model AI. Ini melibatkan:

  • Pemilihan Data yang Ditingkatkan: Memastikan bahwa dataset pelatihan dipilih dengan hati-hati untuk menghindari konten berhak cipta kecuali lisensi yang tepat diperoleh.
  • Pengembangan Mekanisme Deteksi: Mengimplementasikan sistem yang dapat mengidentifikasi ketika model AI menghasilkan konten berhak cipta potensial dan memberikan pengguna dengan opsi untuk memodifikasi atau menghapus konten tersebut.
  • Penetapan Standar Industri: Berkolaborasi dengan ahli hukum dan pemangku kepentingan industri untuk menciptakan pedoman dan standar untuk pengembangan AI yang menghormati hak cipta.

Di Patronus AI, kita berkomitmen untuk berkontribusi pada pengembangan AI yang bertanggung jawab dengan fokus pada evaluasi dan kepatuhan. Platform kita termasuk produk seperti EnterprisePII, yang membantu bisnis mendeteksi dan mengelola potensi masalah privasi dalam output AI. Dengan menyediakan solusi ini, kita bertujuan untuk memberdayakan bisnis untuk menggunakan AI secara bertanggung jawab dan etis sambil meminimalkan risiko hukum.

Dengan alat seperti EnterprisePII dan FinanceBench, pergeseran apa yang Anda antisipasi dalam cara perusahaan mengirimkan AI, terutama di area sensitif seperti keuangan dan data pribadi?

Alat-alat ini memberikan bisnis kemampuan untuk mengevaluasi dan mengelola output AI lebih efektif, terutama di area sensitif seperti keuangan dan data pribadi.

Di sektor keuangan, FinanceBench memungkinkan perusahaan untuk menilai kinerja LLM dengan tingkat presisi yang tinggi, memastikan bahwa model memenuhi persyaratan ketat aplikasi keuangan. Ini memberdayakan bisnis untuk memanfaatkan AI untuk tugas seperti analisis data dan pengambilan keputusan dengan kepercayaan diri dan keandalan yang lebih besar.

Demikian pula, alat seperti EnterprisePII membantu bisnis mengatasi kompleksitas privasi data. Dengan memberikan wawasan tentang potensi risiko dan menawarkan solusi untuk memitigasi mereka, alat-alat ini memungkinkan perusahaan untuk mengirimkan AI dengan lebih aman dan bertanggung jawab.

Secara keseluruhan, alat-alat ini membuka jalan bagi pendekatan yang lebih terinformasi dan strategis dalam adopsi AI, membantu bisnis memanfaatkan manfaat AI sambil meminimalkan risiko yang terkait.

Bagaimana Patronus AI bekerja dengan perusahaan untuk mengintegrasikan alat-alat ini ke dalam penerapan LLM yang ada dan alur kerja?

Di Patronus AI, kita memahami pentingnya integrasi yang lancar ketika datang ke adopsi AI. Kita bekerja erat dengan klien kita untuk memastikan bahwa alat kita dengan mudah diintegrasikan ke dalam penerapan LLM yang ada dan alur kerja. Ini termasuk memberikan pelanggan dengan:

  • Rencana Integrasi Kustom: Kita berkolaborasi dengan setiap klien untuk mengembangkan rencana integrasi yang disesuaikan dengan kebutuhan dan tujuan spesifik mereka.
  • Dukungan Komprehensif: Tim kita menyediakan dukungan berkelanjutan sepanjang proses integrasi, menawarkan bimbingan dan bantuan untuk memastikan transisi yang mulus.
  • Pelatihan dan Pendidikan: Kita menawarkan sesi pelatihan dan sumber daya pendidikan untuk membantu klien memahami dan memanfaatkan alat kita secara maksimal, memberdayakan mereka untuk mendapatkan manfaat penuh dari investasi AI mereka.

Apa saran yang akan Anda berikan kepada pengembang LLM dan perusahaan yang ingin menggunakan LLM, mengingat kompleksitas memastikan output AI aman, akurat, dan mematuhi berbagai hukum?

Dengan memprioritaskan kolaborasi dan dukungan, kita bertujuan untuk membuat proses integrasi seefisien mungkin, memungkinkan bisnis untuk membuka potensi penuh dari solusi AI kita.

Kompleksitas memastikan bahwa output AI aman, akurat, dan mematuhi berbagai hukum menyajikan tantangan signifikan. Bagi pengembang model bahasa besar (LLM), kunci utamanya adalah memprioritaskan transparansi dan akuntabilitas sepanjang proses pengembangan.

Salah satu aspek dasar adalah kualitas data. Pengembang harus memastikan bahwa dataset pelatihan dipilih dengan hati-hati dan bebas dari konten berhak cipta kecuali jika lisensi yang tepat diperoleh. Ini tidak hanya membantu mencegah masalah hukum potensial tetapi juga memastikan bahwa AI menghasilkan output yang dapat diandalkan. Selain itu, menangani bias dan keadilan sangat penting. Dengan secara aktif bekerja untuk mengidentifikasi dan memitigasi bias, dan dengan mengembangkan data pelatihan yang beragam dan representatif, pengembang dapat mengurangi bias dan memastikan hasil yang adil untuk semua pengguna.

Prosedur evaluasi yang kuat sangat penting. Mengimplementasikan pengujian yang ketat dan menggunakan benchmark seperti FinanceBench dapat membantu menilai kinerja dan keandalan model AI, memastikan bahwa mereka memenuhi persyaratan kasus penggunaan tertentu. Selain itu, pertimbangan etis harus berada di garis depan. Berinteraksi dengan pedoman etis dan kerangka kerja memastikan bahwa sistem AI dikembangkan secara bertanggung jawab dan selaras dengan nilai-nilai masyarakat.

Bagi perusahaan yang ingin memanfaatkan LLM, memahami kemampuan AI sangat penting. Penting untuk menetapkan harapan yang realistis dan memastikan bahwa AI digunakan secara efektif dalam organisasi. Integrasi yang lancar dan dukungan juga sangat penting. Dengan bekerja sama dengan mitra tepercaya, perusahaan dapat mengintegrasikan solusi AI ke dalam alur kerja yang ada dan memastikan tim mereka dilatih dan didukung untuk menggunakan AI secara efektif.

Kepatuhan dan keamanan harus diprioritaskan, dengan fokus pada mematuhi regulasi dan hukum perlindungan data yang relevan. Alat seperti EnterprisePII dapat membantu memantau dan mengelola risiko potensial. Pemantauan berkelanjutan dan evaluasi teratur kinerja AI juga diperlukan untuk mempertahankan akurasi dan keandalan, memungkinkan penyesuaian jika diperlukan.

Terima kasih atas wawancara yang luar biasa, pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Patronus AI.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.