Pemimpin pemikiran
Jalur Kritis Menuju Otomatisasi Pengembangan Model

Batu loncatan penting berikutnya untuk penelitian AI adalah mengotomatisasi pengembangan model. Setiap kemajuan dalam penalaran, bahasa, dan persepsi, dalam beberapa hal, merupakan langkah menuju tujuan tersebut. Namun, jalur menuju otomatisasi model memerlukan pemecahan serangkaian tantangan dasar yang harus dipecahkan terlebih dahulu.
Jembatan menuju tujuan tersebut membentang langsung melalui rekayasa mesin pembelajaran (ML). Salah satu kesalahpahaman umum menyatakan bahwa ML adalah teknologi pendahulu modern AI dan bahwa model dasar telah menggantikannya. Ini salah mengerti hubungan tersebut. Sebagai disiplin akademis, ML mencakup semua aspek pelatihan model, termasuk pelatihan model dasar di pusat momen AI saat ini. Namun, ada perbedaan yang signifikan dalam skala dan kompleksitas data.
Model ML tradisional biasanya dilatih pada dataset yang dirancang dengan hati-hati, spesifik domain yang berisi ribuan atau jutaan contoh. Model dasar, di sisi lain, dilatih pada ribuan dataset secara bersamaan, diambil dari sumber yang sangat berbeda dengan format, provenance, dan kualitas yang tidak konsisten. Perbedaan ini dalam skala data dan heterogenitas merupakan alasan fundamental mengapa manajemen data menjadi lebih sulit dan lebih penting ketika model menjadi lebih kuat.
Hal itu membuat pemahaman data menjadi bottleneck sentral dalam mengotomatisasi pengembangan model. Sistem AI yang dapat menafsirkan data heterogen dan meningkatkan pipa yang dibangun di sekitarnya bisa, pada prinsipnya, meningkatkan proses pelatihannya sendiri dan membantu membangun model yang lebih baik. Sekali AI dapat meningkatkan proses pelatihan, perbaikan akan mengalir ke bawah ke setiap domain di mana AI diterapkan.
Tiga Penghalang yang Menghalangi
Penghalang pertama adalah fragmentasi konteks. Di hampir setiap organisasi, sinyal, eksperimen, definisi fitur, dan pengetahuan institusional yang relevan dengan masalah pemodelan tertentu tersebar di seluruh gudang data, notebook, dan pipa yang tidak pernah dirancang untuk berkomunikasi satu sama lain. Pertimbangkan sistem kesehatan yang membangun model deteksi sepsis. Kriteria klinis yang relevan dengan masalah tersebut, seperti ambang batas vital, nilai lab, dan standar dokumentasi, mungkin hidup di modul yang sama sekali berbeda dari sistem catatan kesehatan elektronik.
Penghalang kedua adalah ambiguitas semantik. Makna tidak melekat pada data tetapi kontekstual dan organisasional. Nama bidang yang sama di dua database yang berbeda mungkin merujuk pada hal-hal yang berbeda. Konsep seperti pendapatan, pengguna aktif, dan churn rutin memiliki definisi yang berlaku dalam satu perusahaan. Bahkan konsep yang tampaknya sederhana seperti “pendapatan” dapat menyebabkan masalah. Tim penjualan mungkin mendefinisikan pendapatan sebagai nilai total kontrak yang ditandatangani pada kuartal ini, sedangkan tim keuangan mendefinisikannya sebagai uang yang sebenarnya diterima. Tim produk memiliki pemahaman yang berbeda, karena mendefinisikan istilah tersebut untuk berarti pendapatan yang diakui yang tersebar di seluruh periode langganan. Ketiganya menarik dari bidang yang secara harfiah dinamai “pendapatan” di sistem mereka masing-masing, tetapi laporan antar tim yang menggabungkan mereka akan mencampur tiga angka yang tidak kompatibel secara diam-diam.
Penghalang ketiga dan paling sistemik adalah ketiadaan memori institusional yang didokumentasikan. Pelacakan provenance, pemecahan inkonsistensi, dan pemeliharaan sinyal kualitas di seluruh sumber tersebut adalah masalah yang belum terpecahkan bahkan untuk tim manusia. Tanpa memori institusional tentang apa yang telah dicoba dan bagaimana baiknya pendekatan tersebut bekerja, setiap mekanisme otomatisasi model akan terus menemukan jalan buntu yang sama, membuang waktu dan sumber daya.
Pertimbangkan tim ilmu data di perusahaan ritel yang membangun model peramalan permintaan. Selama tiga tahun, sebelas analis telah menemukan secara independen bahwa data cuaca mentah merusak kinerja model selama pekan liburan, bahwa umpan inventori penyuplai tertentu mengandung lag sistematis, dan bahwa pendekatan standar untuk menangani acara promosi menyebabkan kebocoran target. Ketika analis asli pindah ke tim lain atau meninggalkan perusahaan, pengetahuan itu hilang bersama mereka. Tanpa catatan institusional tentang apa yang telah dicoba, apa yang gagal dan mengapa, mekanisme otomatisasi model tidak dapat membangun pada pengalaman yang terkumpul. Ini hanya memulai dari nol, berulang kali, membuang waktu secara tidak perlu.
Apa yang Dibutuhkan Solusi Nyata
Sejarah otomatisasi ML adalah sejarah solusi parsial. AutoML menangani masalah penyempurnaan hiperparameter yang sempit tetapi tidak dapat menangani ketidakcocokan tujuan atau bernalar tentang niat organisasi. MLOps membuat pipa produksi lebih kuat dan lebih mudah dipantau, tetapi alat MLOps menjalankan strategi rather daripada mendefinisikannya. Agen pengkodean yang lebih baru mewakili langkah maju yang sebenarnya, tetapi mereka telah mewarisi blind spot yang sama. Mereka menghasilkan kode dengan baik sambil beroperasi tanpa konteks organisasi atau memori institusional.
Sistem yang mampu melakukan rekayasa ML otonom yang sebenarnya akan memerlukan kemampuan yang tidak disediakan oleh alat yang ada dalam kombinasi. Ini akan memerlukan pemetaan tujuan bisnis ke objek model, yang merupakan terjemahan yang tidak dapat disimpulkan dari data saja. Ini akan memerlukan penemuan data relevan di seluruh sistem yang terfragmentasi dengan skema yang tidak konsisten, sambil secara otomatis mematuhi konstrain kepatuhan, tata kelola, dan keamanan, bukan memerlukan manusia untuk mengelolanya sebagai proses terpisah. Ini akan memerlukan memori institusional untuk menampilkan pekerjaan yang ada, memahami mengapa eksperimen sebelumnya ditinggalkan, dan membangun pada apa yang rekan kerja sudah ketahui.
Jejak audit yang ketat yang melacak provenance di seluruh versi data, definisi fitur, dan komit kode akan memerlukan mekanisme inti untuk menghubungkan sistem dengan apa yang sebenarnya terjadi. Dan sistem seperti itu akan memerlukan desain human-in-the-loop yang berpikir. Bukan pilihan biner antara otomatisasi penuh dan kontrol manual penuh, tetapi dukungan untuk tingkat interaksi yang bervariasi tergantung pada tugas, taruhan, dan keyakinan sistem pada setiap titik keputusan. Otomatisasi yang melewati penilaian manusia pada momen kritis bukanlah fitur dari AI yang dirancang dengan baik; sebaliknya, itu adalah mode kegagalan.
Apa yang belum terpecahkan oleh laboratorium mana pun adalah bagaimana menciptakan pemahaman semantik tentang data organisasi yang memahami apa yang dimaksud dengan data dalam konteks institusional tertentu. MCP memecahkan masalah konektivitas. Ini belum memecahkan masalah makna. Itu tetap menjadi batas penelitian terbuka.
Apa yang Menjadi Mungkin
Implikasi ekonomi dari memecahkan masalah ini sangat signifikan. Pengembangan ML khusus saat ini memerlukan praktisi spesialis dan minggu-minggu iterasi, bahkan untuk masalah yang terdefinisi dengan baik. Sistem yang bisa menavigasi alur kerja penuh secara otonom dari definisi masalah melalui penemuan data, pengembangan model, dan evaluasi model akan menggeser persamaan tersebut secara dramatis, mengompresi timeline dan membuka kasus penggunaan yang bernilai tinggi yang saat ini terlalu intensif sumber daya untuk dikejar. Proyek yang sebelumnya memerlukan tim dengan keahlian ML yang dalam bekerja selama berminggu-minggu sekarang dapat diselesaikan dalam beberapa hari tanpa harus menggunakan waktu ahli ML yang langka.
Tantangan fragmentasi konteks, ambiguitas semantik, dan memori institusional yang hilang tidak unik untuk ML perusahaan. Mereka muncul di bawah konstrain yang berbeda dalam konstruksi pipa pelatihan model dasar, di mana ribuan dataset heterogen harus diagregat, disaring, dan diperbarui secara iteratif. Sementara pengaturan kedua berbeda dalam struktur dan tujuan, keduanya dibatasi oleh bottleneck yang sama: ketiadaan sistem yang dapat secara andal memulihkan konteks, melacak provenance, dan membangun pada pekerjaan sebelumnya di seluruh iterasi. Mengotomatisasi pengembangan model di perusahaan adalah langkah kritis menuju sistem AI yang dapat meningkatkan dirinya sendiri.













