Pemimpin pemikiran

Mengapa AI Perusahaan Gagal di Garis Finis β€” dan Bagaimana Memperbaikinya

mm

Meskipun ada banyak pembicaraan tentang AI, sebagian besar proyek AI perusahaan tidak pernah melewati tahap eksperimen. Menurut penelitian IDC terbaru, 88% proyek AI proof-of-concept (POC) gagal untuk berkembang menjadi produksi penuh. Ini adalah penurunan yang besar, dan tanda yang jelas bahwa sesuatu tidak berfungsi. Banyak proyek ini mendekati garis finis, dengan model yang dilatih yang memenuhi benchmark yang ditetapkan oleh tim, dan kemudian berakhir tidak diluncurkan atau diadopsi oleh pengguna akhir.

Jadi, apa yang salah? Dalam banyak kasus, ini terkait dengan tiga masalah besar:

  1. Tim AI perusahaan bergantung pada alat diagnostik dan benchmark yang tidak menangkap kesenjangan kinerja kunci
  2. Model dilatih untuk benchmark standar bukan untuk memecahkan masalah dunia nyata
  3. Biaya penggunaan model skala besar berakhir terlalu tinggi untuk adopsi perusahaan

Dalam artikel ini, kita akan membongkar setiap kesalahan ini—dan apa yang diperlukan untuk membawa proyek AI melewati garis finis dan ke tangan pengguna dalam skala besar.

Masalah #1: Diagnostik Standar yang Melewatkan Masalah Kinerja Kunci

Alasan utama proyek AI terjungkir setelah tahap proof-of-concept adalah bahwa benchmark dan diagnostik internal sering tidak cukup mendalam untuk menangkap masalah kinerja dan cenderung melewatkan masalah yang mempengaruhi kegunaan, kepercayaan, dan adopsi. Tim mungkin memeriksa semua kotak di atas kertas, tetapi pemeriksaan tersebut tidak selalu mencerminkan bagaimana model akan berperforma di dunia nyata.

Ambil contoh ini: Satu tim AI memiliki model yang lulus setiap tes internal dengan sangat baik. Ini mencapai semua metrik akurasi dan ambang batas keamanan, dan mereka bersiap untuk peluncuran. Namun, ketika mereka memiliki pihak ketiga untuk mengevaluasi model untuk kasus penggunaan yang dimaksudkan untuk mencerminkan bagaimana pengguna sebenarnya akan berinteraksi dengan sistem, mereka menemukan titik buta besar. Model tersebut sembilan kali lebih mungkin untuk memberikan jawaban yang menghindar ketika ditanya pertanyaan dengan cara tertentu. Misalnya, itu akan merespons dengan benar “Siapa presiden AS?” tetapi mengobati “Bisakah kamu memberitahu saya tentang presiden?” sebagai risiko keamanan dan menolak untuk menjawab.

Masalahnya bukan dengan pengetahuan inti model—tetapi dengan bagaimana itu menafsirkan niat berdasarkan kalimat. Tim telah mengoptimalkan keamanan sehingga mereka tidak sengaja memblokir pertanyaan normal dan masuk akal.

Masalah #2: Model yang Dilatih untuk Benchmark yang Tidak Mencerminkan Dunia Nyata

Hambatan umum lainnya untuk AI perusahaan adalah bahwa tim AI melatih model untuk memenuhi benchmark industri standar daripada kebutuhan dunia nyata. Di atas kertas, model mungkin terlihat top-tier, mencetak skor tinggi pada evaluasi standar untuk akurasi, relevansi, atau keamanan. Namun, dalam prakteknya, mungkin berjuang untuk menghasilkan hasil yang konsisten dan berguna tanpa intervensi pengguna yang berat.

Ini terjadi ketika tim mengoptimalkan model untuk berkinerja baik pada tugas-tugas yang sempit dan spesifik. Model tersebut berakhir dengan unggul dalam tugas-tugas tersebut tetapi terjatuh ketika menghadapi input dunia nyata yang kurang terstruktur dan lebih bervariasi. Sebagai hasilnya, pengguna perlu “berbicara bahasa model” melalui rekayasa prompt hanya untuk mendapatkan jawaban yang benar. Jika produk AI Anda bergantung pada pengguna akhir untuk membuat prompt yang tepat, Anda telah memperkenalkan gesekan yang memperlambat adopsi dan melemahkan kegunaannya.

Jenis pelatihan yang berfokus pada benchmark ini juga dapat menyebabkan overfitting. Model menjadi sangat terlatih untuk berkinerja baik pada dataset evaluasi sehingga kehilangan generalisasi. Ini mungkin lulus setiap tes internal tetapi masih gagal ketika diterapkan di lapangan, terutama jika kasus penggunaan sebenarnya berbeda dari yang dilatih.

Jika Anda ingin solusi AI perusahaan yang sukses, model Anda perlu bekerja di dunia nyata—bukan hanya di laboratorium.

Masalah #3: Penggunaan AI yang Meningkat Berarti Biaya Komputasi yang Meningkat

Alasan ketiga banyak POC AI gagal berkembang adalah keuangan: tim sering memperkirakan terlalu rendah biaya menjalankan dan memelihara model dalam produksi. Selama pengembangan, mudah untuk mengabaikan tuntutan komputasi model besar, terutama ketika pengujian dilakukan pada dataset kecil atau dalam lingkungan penggunaan terbatas. Namun, setelah diterapkan, biaya tersebut dapat melambung.

AI perusahaan kelas enterprise memerlukan sumber daya komputasi yang signifikan, tidak hanya untuk melayani respons dalam waktu nyata, tetapi juga untuk pelatihan lanjutan, pemantauan, logging, dan pelatihan ulang. Jika biaya ini tidak diperhitungkan sejak awal, kasus bisnis untuk solusi tersebut dapat runtuh ketika penggunaan dunia nyata dimulai. Apa yang tampak seperti model yang menjanjikan dalam tes terkontrol dapat dengan cepat menjadi tidak berkelanjutan ketika ribuan pengguna mulai mengakses sistem setiap hari.

Mengatasi Hambatan Terakhir untuk AI Perusahaan yang Sukses

Untuk menghindari jebakan umum yang menggagalkan banyak proyek AI perusahaan, tim perlu melampaui playbook biasa. Berikut adalah cara tim AI Anda dapat membangun sesuatu yang benar-benar bekerja—dan berkembang.

Pertama, bawa pihak ketiga untuk mengevaluasi model Anda. Pengujian internal penting, tetapi sering terlalu umum. Pasangan mata segar, dipasangkan dengan kerangka evaluasi khusus yang disesuaikan dengan kasus penggunaan Anda, dapat menemukan masalah yang mungkin dilewatkan tim Anda, terutama ketika datang ke cara pengguna sebenarnya akan berinteraksi dengan sistem.

Kedua, pastikan Anda menguji dengan prompt dunia nyata. Sebagian besar benchmark menguji pada “data bersih” yang tidak mencerminkan dunia nyata, apalagi bagaimana pengguna akhir Anda akan memicu model Anda. Menguji model Anda pada input yang kacau, samar, atau aneh akan membantu menunjukkan bagaimana model Anda sebenarnya akan berperforma setelah diterapkan dan memungkinkan Anda menangkap masalah yang mungkin lainnya jatuh melalui celah dan mempengaruhi adopsi.

Ketiga, tinjau kembali protokol keamanan Anda. Mudah untuk berlebihan dengan pengaman, dan meskipun keamanan penting, itu tidak boleh membuat model Anda frustrasi untuk digunakan. Jika model Anda mati pada pertanyaan sederhana dan tidak berbahaya, Anda menukar kegunaan untuk keamanan yang salah.

Terakhir, awasi biaya komputasi Anda. Jika tujuan adopsi Anda termasuk ribuan pengguna dan jutaan permintaan, biaya tersebut dapat melambung dengan cepat. Salah satu solusi adalah mempertimbangkan model yang lebih kecil. Boosted.ai melakukan hal ini—mereka beralih ke model bahasa kecil khusus dan mengurangi biaya komputasi sebesar 90% sambil meningkatkan kecepatan dan kinerja. Hasil waktu nyata, pengalaman pengguna yang lebih baik, dan tidak perlu perangkat keras yang mahal.

Dengan menangani evaluasi, kegunaan, dan skalabilitas dari awal, tim dapat memberi proyek AI mereka kesempatan nyata untuk kesuksesan jangka panjang. Ini tidak hanya tentang membuatnya bekerja di laboratorium—tetapi tentang membuatnya bekerja di dunia.

Matt Fitzpatrick adalah CEO dari Invisible Technologies, sebuah penyedia platform perangkat lunak AI yang telah melatih 80% penyedia model AI terkemuka di dunia. Invisible menyediakan keahlian untuk membuat AI bekerja di dunia nyata untuk industri, fungsi, atau kasus penggunaan apa pun. Sebelum bergabung dengan perusahaan, Matt adalah Mitra Senior dan pemimpin global QuantumBlack Labs di McKinsey, di mana ia mengawasi 1.000 insinyur, dan mengawasi pengembangan perangkat lunak perusahaan di GenAI dan semua sektor. Ia adalah lulusan Princeton dan Wharton.