Connect with us

Pemimpin pemikiran

Debat Claude “Nerfing” Bukan Tentang Claude, Melainkan Tentang Apa yang Terjadi Ketika Operasi Anda Berjalan Berdasarkan Keputusan Orang Lain.

mm
A series of glowing hexagonal glass modules containing microchips in a dark server room; one module on the left is cracked and glowing blue, while others remain intact and glowing amber, connected by flowing data cables.

Awal tahun ini, Stella Laurenzo, Direktur Senior AI di AMD, menerbitkan telemetry dari hampir 7.000 sesi Claude Code yang mendokumentasikan sesuatu yang telah dirasakan oleh insinyur tetapi kesulitan mengartikulasikannya: antara Januari dan Maret, kedalaman alasan yang terlihat tampaknya menurun sebesar 73%, panggilan API per tugas membengkak delapan puluh kali lipat, dan model tersebut membaca lebih sedikit file sebelum membuat edit. Angka-angka tersebut menyebar dengan cepat. Interpretasi menyebar lebih cepat.

Anthropic membantah kerangka tersebut. Perusahaan tersebut mengatakan bahwa perubahan tersebut mencerminkan keputusan produk yang disengaja, termasuk mekanisme berpikir adaptif baru dan peralihan ke upaya menengah sebagai default. Analis independen juga telah mempertanyakan sebagian dari metodologi. Debat tersebut masih berlangsung, dan orang-orang yang masuk akal tidak setuju tentang apa yang sebenarnya terjadi.

Tapi inilah bagian yang penting jika Anda menjalankan bisnis di atas sistem ini: apakah ini degradasi atau penyetelan yang disengaja tidak mengubah apa yang dialami oleh operator perusahaan. Mereka tidak bisa memprediksi hal itu. Mereka tidak bisa mengendalikannya. Dan beberapa di antara mereka merasakannya dalam produksi sebelum mereka memahami apa yang terjadi. Itulah cerita yang sebenarnya, dan itu tidak ada hubungannya dengan Anthropic secara khusus.

Ini adalah masalah ketergantungan, bukan masalah model.

Apa yang kita deskripsikan memiliki nama: kerapuhan model. Ini adalah kondisi di mana operasi kritis misi sangat terkait dengan perilaku model tunggal, sehingga setiap perubahan di lapisan model, apakah keputusan penyetelan, default baru, perubahan rute kapasitas, atau penghapusan sunyi, mengenai bisnis secara langsung, tanpa buffer dan tanpa peringatan.

Ini bukan pola baru. GPT-4 mengalami versi ini pada 2023. Claude 3.5 mengalami satu pada 2024. Claude Opus mengalami satu sekarang. Ini akan terjadi lagi dengan model frontier berikutnya, dan yang berikutnya. Bukan karena vendor mana pun bertindak dengan itikad buruk, tetapi karena mengoptimalkan model frontier untuk biaya, latensi, dan skala pada volume global adalah apa yang vendor frontier harus lakukan. Insentif mereka dan insentif perusahaan yang menjalankan operasi produksi di atasnya terkait. Mereka tidak identik. Mereka tidak pernah akan identik.

Kami memulai Qurrent pada 2023 dan memiliki pengetahuan sejarah untuk mengetahui bagaimana siklus perangkat lunak perusahaan bermain: Perusahaan berinvestasi di AI. Demo berhasil. Pilot berhasil. Lalu itu diluncurkan, sesuatu bergeser di lapisan model, dan tiba-tiba pelanggan memiliki masalah. Mereka adalah orang-orang yang memelihara alur kerja, mengejar regressi, menyerap gangguan. Itu tidak pernah masuk akal bagi saya sebagai model yang berkelanjutan untuk operasi perusahaan.

Versi perusahaan dari cerita ini adalah operasional, bukan teknis.

Bagi pengembang, situasi saat ini tidak nyaman. Anggaran token terbakar lebih cepat. Sesi coding macet. Benchmark mengecewakan. Itu adalah masalah nyata, tetapi itu adalah masalah yang dapat dipulihkan.

Bagi perusahaan yang menjalankan operasi keuangan, alur kerja kepatuhan, piutang dan hutang, dan proses back-office yang kompleks, taruhannya berbeda. Alur kerja ini tidak bisa menyerap minggu yang buruk. Kesalahan menumpuk. Volume menumpuk. SLA adalah komitmen kepada pelanggan yang sebenarnya, bukan preferensi internal. Saat model mulai underperforming pada proses yang berisiko tinggi, kerusakan telah menumpuk apakah atau tidak seseorang telah memperhatikannya.

Apa yang sebenarnya terlihat seperti ketahanan dalam produksi.

Di Qurrent, kami membangun tenaga kerja digital untuk menjadi model-agnostik dari awal, bukan sebagai posisi pemasaran tetapi sebagai persyaratan arsitektur. Setiap tugas mengarah ke model yang berperforma terbaik untuk tugas tersebut, dievaluasi terus-menerus. Ketika model yang lebih baik dikirim, pelanggan mendapatkannya secara otomatis. Ketika model saat ini mengalami regressi pada alur kerja tertentu, lapisan orkestrasi mengalihkan pekerjaan tersebut dalam hitungan detik, tanpa intervensi manusia dan tanpa seseorang terbangun karena thread Slack pada pukul 2 pagi.

Di bawah itu, simulasi otomatis berjalan melawan alur kerja produksi sepanjang waktu, mengukur apakah output sesuai dengan perilaku yang diharapkan. Drift terdeteksi di lapisan infrastruktur, sebelum tim operasi merasakannya dan sebelum pelanggan melakukannya. Dan setiap keputusan yang dibuat oleh setiap pekerja digital dicatat dan dapat ditinjau, sebuah kotak kaca penuh, karena Anda tidak bisa mengatur apa yang tidak bisa dilihat.

Ini bukan fitur premium. Ini adalah harga masuk untuk menjalankan AI dalam produksi pada skala perusahaan. Sebagian besar perusahaan sedang belajar bahwa di tengah-tengah siklus berita, yang merupakan cara yang mahal untuk mengetahuinya.

Pertanyaan yang patut ditanyakan pada kuartal ini.

Jika model yang operasi Anda andalkan paling banyak memiliki minggu yang buruk pada kuartal berikutnya, berapa banyak alur kerja Anda yang akan merasakannya? Bagaimana Anda akan mengetahuinya? Dan seberapa cepat Anda bisa mengalihkan rute di sekitarnya?

Jika jawaban untuk pertanyaan kedua adalah “kami akan mendengar dari pelanggan”, operasi tersebut tidak siap produksi. Itu adalah pilot yang berjalan pada skala, dan perbedaan tersebut lebih penting daripada yang dipahami oleh kebanyakan pemimpin sampai itu tidak.

Debat saat ini, dengan cara yang tidak langsung, berguna. Setiap CFO dan COO yang menonton ini terjadi hanya mendapatkan pratinjau gratis tentang apa yang terlihat seperti kerapuhan model di bawah beban operasional yang sebenarnya, tanpa membayarnya sendiri. Respon yang tepat bukanlah beralih ke model lain. Ini adalah membangun operasi yang tidak bergantung pada model tunggal.

Teknologi akan terus berubah. Itu adalah satu-satunya kepastian di pasar ini. Perusahaan yang keluar dari dekade ini dengan kekuatan paling besar tidak akan menjadi mereka yang memilih model yang tepat. Mereka akan menjadi mereka yang operasinya tidak pernah harus peduli.

Colin Wiel, CEO dan Co-Founder dari Qurrent, adalah seorang wirausaha berpengalaman yang telah bekerja mendalam dengan AI sejak tahun 1990-an. Venturnya sebelumnya termasuk Mynd, sebuah platform teknologi untuk investasi sewa keluarga tunggal yang dinamai perusahaan Bay Area yang tumbuh paling cepat pada tahun 2020, dan Waypoint Homes, yang mengumpulkan lebih dari $3,5 miliar dan mengelola 17.000 rumah sebelum go public di NYSE pada tahun 2014. Diakui untuk inovasinya dalam AI, Colin memegang beberapa paten, mendapatkan tempat di Goldman Sachs' 100 Wirausaha Paling Inovatif, dan dinamai Ernst & Young Wirausaha Tahun Ini.