Terhubung dengan kami

Pemimpin Pikiran

Kebenaran Tentang Data Sintetis: Mengapa Keahlian Manusia Sangat Penting untuk Keberhasilan LLM

mm

Pengembang LLM semakin beralih ke data sintetis untuk mempercepat pengembangan dan mengurangi biaya. Peneliti di balik beberapa model papan atas, seperti LLama 3, Qwen 2, dan DeepSeek R1, telah menyebutkan penggunaan data sintetis untuk melatih model mereka dalam makalah penelitian. Dari luar, ini tampak seperti solusi yang sempurna: sumber informasi tak terbatas untuk mempercepat pengembangan dan memangkas biaya. Namun, solusi ini disertai biaya tersembunyi yang tidak dapat diabaikan oleh para pemimpin bisnis.

Secara sederhana, data sintetis dihasilkan oleh model AI untuk membuat kumpulan data buatan untuk pelatihan, penyempurnaan, dan evaluasi LLM dan agen AI. Dibandingkan dengan anotasi manusia tradisional, hal ini memungkinkan alur data untuk diskalakan dengan cepat, yang penting dalam lanskap pengembangan AI yang bergerak cepat dan kompetitif.

Perusahaan mungkin memiliki alasan lain untuk menggunakan data “palsu”, seperti melindungi informasi sensitif atau rahasia dalam bidang keuangan atau perawatan kesehatan dengan membuat versi anonim. Data sintetis juga merupakan pengganti yang baik ketika data kepemilikan tidak tersedia, seperti sebelum meluncurkan produk atau ketika data tersebut milik klien eksternal.

Namun, apakah data sintetis merevolusi pengembangan AI? Jawaban singkatnya adalah ya: data sintetis memiliki potensi besar, tetapi juga dapat mengekspos LLM dan agen terhadap kerentanan kritis tanpa pengawasan manusia yang ketat. Produsen LLM dan pengembang agen AI mungkin menemukan bahwa model AI yang dilatih pada data sintetis yang tidak diperiksa secara memadai dapat menghasilkan keluaran yang tidak akurat atau bias, menimbulkan krisis reputasi, dan mengakibatkan ketidakpatuhan terhadap standar industri dan etika. Berinvestasi dalam pengawasan manusia untuk menyempurnakan data sintetis merupakan investasi langsung dalam melindungi keuntungan, menjaga kepercayaan pemangku kepentingan, dan memastikan adopsi AI yang bertanggung jawab.

Dengan masukan manusia, data sintetis dapat diubah menjadi data pelatihan berkualitas tinggi. Ada tiga alasan penting untuk menyempurnakan data yang dihasilkan sebelum menggunakannya untuk melatih AI: untuk mengisi kesenjangan dalam pengetahuan model sumber, untuk meningkatkan kualitas data dan mengurangi ukuran sampel, dan untuk menyelaraskan dengan nilai-nilai manusia.

Kita perlu menangkap pengetahuan yang unik

Data sintetis utamanya dihasilkan oleh LLM yang dilatih pada sumber internet yang tersedia untuk umum, sehingga menciptakan keterbatasan yang melekat. Konten publik jarang menangkap pengetahuan praktis dan langsung yang digunakan dalam pekerjaan di dunia nyata. Aktivitas seperti merancang kampanye pemasaran, menyiapkan prakiraan keuangan, atau melakukan analisis pasar biasanya bersifat pribadi dan tidak didokumentasikan secara daring. Selain itu, sumber cenderung mencerminkan bahasa dan budaya yang berpusat di AS, sehingga membatasi representasi global.

Untuk mengatasi keterbatasan ini, kita dapat melibatkan para ahli untuk membuat sampel data di area yang kita duga tidak dapat dicakup oleh model pembuatan data sintetis. Kembali ke contoh perusahaan, jika kita ingin model akhir kita menangani prakiraan keuangan dan analisis pasar secara efektif, data pelatihan perlu menyertakan tugas-tugas realistis dari bidang-bidang ini. Penting untuk mengidentifikasi kesenjangan ini dan melengkapi data sintetis dengan sampel yang dibuat oleh para ahli.

Para ahli sering kali dilibatkan di awal proyek untuk menentukan cakupan pekerjaan. Ini termasuk membuat taksonomi, yang menguraikan area pengetahuan spesifik tempat model perlu bekerja. Misalnya, dalam perawatan kesehatan, pengobatan umum dapat dibagi menjadi beberapa subtopik seperti nutrisi, kesehatan kardiovaskular, alergi, dan banyak lagi. Model yang berfokus pada kesehatan harus dilatih di semua subarea yang diharapkan tercakup. Setelah taksonomi ditentukan oleh para ahli perawatan kesehatan, LLM dapat digunakan untuk menghasilkan titik data dengan pertanyaan dan jawaban umum dengan cepat dan dalam skala besar. Para ahli manusia masih diperlukan untuk meninjau, mengoreksi, dan meningkatkan konten ini untuk memastikannya tidak hanya akurat tetapi juga aman dan sesuai konteks. Proses jaminan kualitas ini diperlukan dalam aplikasi berisiko tinggi, seperti perawatan kesehatan, untuk memastikan keakuratan data dan mengurangi potensi bahaya.

Kualitas lebih penting daripada kuantitas: mendorong efisiensi model dengan sampel yang lebih sedikit dan lebih baik

Ketika para pakar domain membuat data untuk melatih LLM dan agen AI, mereka membuat taksonomi untuk set data, menulis perintah, menyusun jawaban ideal, atau mensimulasikan tugas tertentu. Semua langkah dirancang dengan cermat agar sesuai dengan tujuan model, dan kualitasnya dijamin oleh para pakar di bidang terkait.

Pembuatan data sintetis tidak sepenuhnya mereplikasi proses ini. Proses ini bergantung pada kekuatan model dasar yang digunakan untuk membuat data, dan kualitas yang dihasilkan sering kali tidak setara dengan data yang dikurasi manusia. Ini berarti bahwa data sintetis sering kali memerlukan volume yang jauh lebih besar untuk mencapai hasil yang memuaskan, sehingga meningkatkan biaya komputasi dan waktu pengembangan.

Dalam domain yang kompleks, ada nuansa yang hanya dapat dikenali oleh pakar manusia, terutama dengan outlier atau kasus ekstrem. Data yang dikurasi manusia secara konsisten memberikan kinerja model yang lebih baik, bahkan dengan kumpulan data yang jauh lebih kecil. Dengan mengintegrasikan keahlian manusia secara strategis ke dalam proses pembuatan data, kita dapat mengurangi jumlah sampel yang dibutuhkan agar model dapat bekerja secara efektif.

Berdasarkan pengalaman kami, cara terbaik untuk mengatasi tantangan ini adalah dengan melibatkan pakar subjek dalam membangun kumpulan data sintetis. Ketika para pakar merancang aturan untuk pembuatan data, menentukan taksonomi data, dan meninjau atau mengoreksi data yang dihasilkan, kualitas akhir data akan jauh lebih tinggi. Pendekatan ini telah memungkinkan klien kami untuk mencapai hasil yang kuat dengan menggunakan lebih sedikit sampel data, yang mengarah ke jalur produksi yang lebih cepat dan lebih efisien.

Membangun kepercayaan: peran manusia yang tak tergantikan dalam keselamatan dan penyelarasan AI

Sistem otomatis tidak dapat mengantisipasi semua kerentanan atau memastikan keselarasan dengan nilai-nilai kemanusiaan, terutama dalam kasus-kasus ekstrem dan skenario yang ambigu. Peninjau manusia yang ahli memainkan peran penting dalam mengidentifikasi risiko yang muncul dan memastikan hasil yang etis sebelum penerapan. Ini adalah lapisan perlindungan yang, setidaknya untuk saat ini, tidak dapat sepenuhnya disediakan oleh AI sendiri.

Oleh karena itu, untuk membangun kumpulan data tim merah yang kuat, data sintetis saja tidak akan cukup. Penting untuk melibatkan pakar keamanan di awal proses. Mereka dapat membantu memetakan jenis serangan potensial dan memandu struktur kumpulan data. LLM kemudian dapat digunakan untuk menghasilkan sejumlah besar contoh. Setelah itu, para pakar diperlukan untuk memverifikasi dan menyempurnakan data guna memastikannya realistis, berkualitas tinggi, dan berguna untuk menguji sistem AI. Misalnya, LLM dapat menghasilkan ribuan perintah peretasan standar, tetapi pakar keamanan manusia dapat membuat serangan 'rekayasa sosial' baru yang mengeksploitasi bias psikologis yang bernuansa—ancaman kreatif yang sulit diciptakan sendiri oleh sistem otomatis.

Telah terjadi kemajuan signifikan dalam penyelarasan LLM menggunakan umpan balik otomatis. Dalam makalah ini "RLAIF vs. RLHF: Meningkatkan Pembelajaran Penguatan dari Umpan Balik Manusia dengan Umpan Balik AI, " Para peneliti menunjukkan bahwa penyelarasan berbasis AI dapat bekerja sebanding dengan umpan balik manusia dalam banyak kasus. Namun, meskipun umpan balik AI meningkat seiring dengan peningkatan model, pengalaman kami menunjukkan bahwa RLAIF masih mengalami kesulitan dalam domain yang kompleks dan dengan kasus-kasus ekstrem atau outlier, area-area di mana kinerja dapat menjadi sangat penting tergantung pada aplikasinya. Pakar manusia lebih efektif dalam menangani nuansa dan konteks tugas, sehingga mereka lebih andal untuk penyelarasan.

Agen AI juga mendapatkan manfaat dari pengujian otomatis untuk mengatasi berbagai risiko keselamatan. Lingkungan pengujian virtual menggunakan data yang dihasilkan untuk mensimulasikan perilaku agen seperti berinteraksi dengan alat daring dan melakukan tindakan di situs web. Untuk memaksimalkan cakupan pengujian dalam skenario realistis, keahlian manusia merupakan bagian penting untuk merancang kasus pengujian, memverifikasi hasil evaluasi otomatis, dan melaporkan kerentanan.

Masa depan data sintetis

Data sintetis merupakan teknik yang sangat berharga untuk mengembangkan model bahasa yang besar, terutama saat penskalaan dan penyebaran cepat sangat penting dalam lanskap yang serba cepat saat ini. Meskipun tidak ada kekurangan mendasar dalam data sintetis itu sendiri, data tersebut memerlukan penyempurnaan untuk mencapai potensi penuhnya dan memberikan nilai paling besar. Pendekatan hibrida yang menggabungkan pembuatan data otomatis dengan keahlian manusia merupakan metode yang sangat efektif untuk mengembangkan model yang mumpuni dan andal, karena kinerja model akhir lebih bergantung pada kualitas data daripada volume total. Proses terintegrasi ini, yang menggunakan AI untuk penskalaan dan pakar manusia untuk validasi, menghasilkan model yang lebih mumpuni dengan penyelarasan keamanan yang lebih baik, yang penting untuk membangun kepercayaan pengguna dan memastikan penyebaran yang bertanggung jawab.

Ilya Kochik adalah Wakil Presiden Pengembangan Bisnis di Toloka, mitra data manusia untuk laboratorium penelitian GenAI terkemuka, tempat ia mengkhususkan diri dalam tugas-tugas mutakhir untuk model-model terdepan dan sistem agensi. Berbasis di London, latar belakangnya meliputi peran kepemimpinan dan teknis di Google, QuantumBlack (AI by McKinsey), dan Bain & Company.