Pemimpin pemikiran

Masalah Keandalan AI yang Tidak Ingin Dibicarakan

Published February 17, 2026

Updated April 25, 2026

Ido Gaver, Co-Founder and CEO, Sweep.io

Narasi dominan tentang keandalan AI sederhana: model mengalami halusinasi. Oleh karena itu, agar perusahaan dapat mendapatkan utilitas maksimal dari mereka, model harus ditingkatkan. Lebih banyak parameter. Data pelatihan yang lebih baik. Lebih banyak pembelajaran penguatan. Lebih banyak penyelarasan.

Dan yet, bahkan ketika model frontier tumbuh lebih mampu, debat keandalan menolak untuk menghilang. Pemimpin perusahaan masih ragu untuk membiarkan agen mengambil tindakan yang berarti dalam sistem inti. Dewan masih bertanya: “Apakah kita bisa mempercayainya?”

Tapi halusinasi tidak terutama merupakan masalah model. Mereka adalah masalah konteks. Kami meminta sistem AI untuk beroperasi pada infrastruktur perusahaan tanpa memberikan mereka visibilitas struktural yang diperlukan untuk berpikir dengan aman. Lalu kami menyalahkan model ketika itu menebak.

Celah keandalan yang sebenarnya tidak ada pada bobot sebanyak itu, tetapi pada lapisan informasi.

Seorang Ahli Bedah Tanpa Pencitraan

Bayangkan seorang ahli bedah yang beroperasi tanpa pencitraan. Tidak ada MRI. Tidak ada CT scan. Tidak ada visualisasi waktu nyata dari jaringan sekitar. Hanya pemahaman umum tentang anatomi dan skalpel. Bahkan ahli bedah yang paling terampil akan dipaksa untuk menebak. Untuk mengapproximasi. Untuk mengandalkan penalaran probabilistik.

Itulah yang sedang dilakukan agen AI perusahaan sekarang.

Ketika sistem AI diminta untuk memodifikasi alur kerja, memperbarui aturan ERP, atau memicu otomatisasi di seluruh alat, itu jarang memiliki grafik ketergantungan penuh dari lingkungan. Ini tidak tahu mana “lapangan yang tidak digunakan” yang memberdayakan dasbor hilir. Ini tidak melihat mana otomatisasi yang merujuk pada aturan validasi itu. Ini tidak dapat memprediksi dampak orde kedua dengan andal.

Jadi itu melakukan apa yang dilakukan model bahasa besar yang dilatih: itu memprediksi. Prediksi bukanlah pemahaman. Dan prediksi tanpa konteks struktural terlihat seperti halusinasi.

Kita Terus Mengarahkan Debat yang Salah

Komunitas AI telah terkunci dalam percakapan keandalan yang berfokus pada model. Makalah tentang hukum penskalaan. Penelitian tentang rantai pemikiran prompting. Teknik augmentasi pengambilan. Benchmarks evaluasi.

Semua diperlukan. Semua berharga. Tapi perhatikan apa yang hilang: diskusi tentang topologi sistem perusahaan.

Keandalan dalam konteks perusahaan tidak hanya berarti “model menghasilkan teks yang benar.” Ini berarti “sistem membuat perubahan yang aman, dapat dilacak, dan dapat diprediksi.”

Itu adalah persyaratan yang secara fundamental berbeda.

Ketika OpenAI dan Anthropic menerbitkan evaluasi kinerja model, mereka mengukur akurasi pada tugas penalaran, benchmark pengkodean, atau pengingatan pengetahuan. Ini adalah sinyal yang berguna. Namun, mereka tidak mengukur kemampuan agen AI untuk memodifikasi sistem pendapatan langsung dengan 15 tahun akumulasi utang otomatisasi.

Masalahnya bukan apakah model dapat menulis kode yang sintaksis benar; itu adalah apakah AI memahami lingkungan ke mana kode itu diterapkan.

Sistem Hidup Mengumpulkan Entropi

Sistem perusahaan bukanlah database statis. Mereka adalah sistem hidup. Setiap integrasi baru meninggalkan jejak. Setiap kampanye memperkenalkan lapangan. Setiap “perbaikan cepat” memperkenalkan lapisan otomatisasi tambahan. Dalam waktu, lapisan ini berinteraksi dengan cara yang tidak sepenuhnya dipahami oleh satu orang.

Ini adalah fungsi pertumbuhan. Sistem adaptif kompleks secara alami mengumpulkan entropi. Penelitian dari MIT’s Sloan School telah lama menyoroti bagaimana asimetri informasi di dalam organisasi memperburuk risiko operasional. Sementara itu, Gartner memperkirakan bahwa kualitas data yang buruk menghabiskan biaya rata-rata $12,9 juta per tahun.

Bayangkan memasukkan agen otonom ke dalam lingkungan itu tanpa mengatasi opasitas strukturalnya terlebih dahulu.

Kita tidak boleh terkejut ketika hasilnya terasa tidak dapat diprediksi. Agen tidaklah jahat atau bodoh. Ini buta. Ini membangun dalam kegelapan.

Pengambilan Tidak Cukup

Beberapa akan berargumentasi bahwa generasi yang ditingkatkan dengan pengambilan (RAG) menyelesaikan masalah ini. Berikan model akses ke dokumentasi. Umpan itu dengan deskripsi skema. Hubungkan ke API.

Itu membantu.

Tapi dokumentasi bukanlah topologi.

PDF yang menjelaskan bagaimana alur kerja “seharusnya” beroperasi tidak sama dengan grafik waktu nyata tentang bagaimana itu berinteraksi dengan 17 otomatisasi lainnya.

Kenyataan perusahaan jarang sesuai dengan dokumentasi perusahaan.

Studi 2023 yang diterbitkan di Communications of the ACM menemukan bahwa dokumentasi yang ketinggalan zaman adalah kontributor utama kegagalan pemeliharaan perangkat lunak. Sistem berevolusi lebih cepat dari narasi mereka.

Jadi bahkan ketika kita memberikan agen AI dengan dokumentasi, kita sering memberikan mereka peta sebagian atau ideal.

Lapisan Agen adalah Lapisan Keamanan yang Sebenarnya

Kita cenderung berpikir bahwa keamanan adalah pelatihan penyelarasan, penghalang, tim merah, dan filter kebijakan. Semua penting. Tapi dalam konteks perusahaan, keamanan adalah kontekstual. Ini adalah mengetahui:

Apa yang bergantung pada lapangan ini?
Apa yang merujuk pada objek ini?
Mana laporan hilir yang akan rusak?
Siapa yang memiliki proses ini?
Kapan ini terakhir dimodifikasi?
Apa perubahan historis yang mendahului konfigurasi saat ini?

Tanpa lapisan ini, agen AI secara efektif berimprovisasi di dalam kotak hitam. Dengan lapisan ini, itu dapat mensimulasikan dampak sebelum bertindak. Perbedaan antara halusinasi dan keandalan seringkali visibilitas.

Mengapa Model Dibebankan

Mengapa, maka, debat fokus begitu banyak pada model? Karena model dapat dibaca. Kami dapat mengukur kebingungan. Kami dapat membandingkan skor benchmark. Kami dapat menerbitkan kurva penskalaan. Kami dapat mendebat kualitas data pelatihan.

Topologi informasi dalam perusahaan jauh, jauh lebih berantakan. Ini memerlukan koordinasi fungsional lintas. Ini menuntut disiplin tata kelola. Ini memaksa organisasi untuk menghadapi kompleksitas akumulasi sistem mereka sendiri.

Lebih mudah mengatakan “model tidak siap” daripada mengakui “infrastruktur kami tidak transparan.”

Tapi ketika agen AI berpindah dari generasi konten ke eksekusi operasional, kerangka ini menjadi berbahaya.

Jika kita mengobati keandalan hanya sebagai masalah pemilihan model, kita akan terus mengirim agen ke lingkungan yang tidak dapat mereka rasakan.

Otonomi Memerlukan Konteks

Eksperimen Anthropic yang baru-baru ini dengan tim pengembangan perangkat lunak multi-agen menunjukkan bahwa sistem AI dapat berkoordinasi di seluruh tugas kompleks ketika diberikan konteks terstruktur dan memori persisten. Batas kemampuan sedang berkembang dengan cepat. Tapi otonomi tanpa kesadaran lingkungan ini rapuh.

Mobil swakemudi tidak hanya mengandalkan jaringan neural yang kuat. Ini bergantung pada lidar, kamera, sistem pemetaan, dan penginderaan lingkungan waktu nyata. Model adalah satu lapisan dalam tumpukan persepsi yang lebih luas.

AI perusahaan memerlukan setara dengan lidar. Bukan hanya akses API. Bukan hanya dokumentasi. Tapi pemahaman terstruktur dan dinamis tentang ketergantungan sistem.

Risiko Tersembunyi: Kelebihan Kepercayaan Diri

Ada risiko halus lainnya dalam kerangka saat ini.

Ketika model meningkat, outputnya menjadi lebih fasih, lebih persuasif, lebih berwibawa.

Kefasihan memperkuat kelebihan kepercayaan diri.

Ketika agen dengan percaya diri memodifikasi sistem tanpa konteks penuh, kegagalan tidak segera jelas. Ini mungkin muncul beberapa minggu kemudian sebagai kesalahan pelaporan, celah kepatuhan, atau kesalahan peramalan pendapatan. Karena model tampak kompeten, organisasi mungkin mengoverestimasi keamanan operasionalnya. Mode kegagalan yang sebenarnya adalah kesalahan perhitungan yang masuk akal.

Dan kesalahan perhitungan yang masuk akal berkembang dalam kegelapan.

Mengarahkan Kembali Pertanyaan Keandalan

Bukannya bertanya: “Apakah model cukup baik?” Kami harus bertanya: “Apakah agen memiliki konteks struktural yang cukup untuk bertindak dengan aman?” Bukannya mengukur akurasi benchmark, kami harus mengukur visibilitas lingkungan. Bukannya mendebat jumlah parameter, kami harus mengaudit opasitas sistem.

Batas keandalan AI berikutnya bukan hanya model yang lebih besar. Ini adalah lapisan konteks yang lebih kaya.

Ini termasuk:

Grafik ketergantungan sistem perusahaan
Pelacakan perubahan waktu nyata
Pemetaan kepemilikan
Pengetahuan konfigurasi historis
Simulasi dampak sebelum eksekusi

Tidak ada yang glamor. Tidak ada yang tren di media sosial. Tapi inilah tempat keandalan akan dimenangkan.

Membangun Dengan Lampu Menyala

Pemimpin perusahaan benar untuk menuntut keandalan sebelum memberikan wewenang operasional kepada agen. Tapi jalan ke depan bukanlah menunggu model yang bebas halusinasi yang mitos.

Ini adalah berinvestasi pada infrastruktur visibilitas yang membuat tindakan cerdas memungkinkan.

Kita tidak akan membiarkan administrator junior mengubah sistem produksi tanpa memahami ketergantungan. Kita tidak boleh membiarkan agen AI melakukan itu juga.

Tujuan? Mengurangi titik buta.

Ketika agen beroperasi dengan kesadaran struktural, tingkat halusinasi menurun tidak karena model berubah, tetapi karena permukaan tebakan mengecil.

Prediksi menjadi penalaran. Penalaran menjadi simulasi. Simulasi menjadi eksekusi yang aman.

Perubahan yang Tidak Terhindarkan

Selama lima tahun ke depan, tumpukan AI akan bercabang. Satu lapisan akan fokus pada kemampuan model: kedalaman penalaran, kelancaran multimodal, dan efisiensi biaya. Lapisan lain akan fokus pada topologi informasi/kontekstual: grafik sistem, kecerdasan metadata, dan kerangka tata kelola.

Organisasi yang mengobati keandalan hanya sebagai latihan pemilihan model akan bergelut.

Organisasi yang mengobati keandalan sebagai properti arsitektur akan bergerak lebih cepat dengan risiko yang lebih rendah.

Debat halusinasi akan terlihat kuno dalam retrospeksi. Cerita yang sebenarnya akan tentang visibilitas.

AI tidak secara inheren sembrono.

Ini beroperasi di ruangan gelap.

Sampai kita mengatasi itu, kita tidak membangun sistem cerdas. Kita membangun prediktor kuat di dalam lingkungan yang tidak transparan.

Dan itu berarti, meskipun semua kemajuan, AI masih membangun dalam kegelapan.

Related Topics:AI reliability enterprise AI sweep.io

Ido Gaver, Co-Founder and CEO, Sweep.io

Ido Gaver adalah CEO dan co-founder dari Sweep, di mana ia memimpin penelitian dan strategi produk di persimpangan AI, arsitektur metadata, dan tata kelola perusahaan. Pekerjaannya berfokus pada memungkinkan sistem AI agen untuk beroperasi dengan aman dan kontekstual dalam ekosistem perangkat lunak perusahaan skala besar.