Connect with us

Pemimpin pemikiran

Kebenaran tentang Data Sintetis: Mengapa Keahlian Manusia sangat Kritis untuk Kesuksesan LLM

mm

Pengembang LLM semakin banyak menggunakan data sintetis untuk mempercepat pengembangan dan mengurangi biaya. Peneliti di balik beberapa model top-tier, seperti LLama 3, Qwen 2, dan DeepSeek R1, telah menyebutkan menggunakan data sintetis untuk melatih model mereka dalam makalah penelitian. Dari luar, tampak seperti solusi yang sempurna: sumber informasi yang tidak terbatas untuk mempercepat pengembangan dan mengurangi biaya. Namun, solusi ini memiliki biaya tersembunyi yang tidak dapat diabaikan oleh pemimpin bisnis.

Dalam istilah sederhana, data sintetis dihasilkan oleh model AI untuk membuat dataset artifisial untuk melatih, memperbarui, dan mengevaluasi LLM dan agen AI. Dibandingkan dengan anotasi manusia tradisional, ini memungkinkan pipa data untuk berkembang dengan cepat, yang sangat penting dalam lanskap pengembangan AI yang cepat dan kompetitif.

Perusahaan mungkin memiliki alasan lain untuk menggunakan “data palsu”, seperti melindungi informasi sensitif atau rahasia dalam pengaturan keuangan atau kesehatan dengan menghasilkan versi anonim. Data sintetis juga merupakan pengganti yang baik ketika data propietary tidak tersedia, seperti sebelum meluncurkan produk atau ketika data milik klien eksternal.

Tapi, apakah data sintetis merevolusi pengembangan AI? Jawaban singkatnya adalah ya yang memenuhi syarat: ini memiliki potensi besar, tetapi juga dapat mengungkapkan LLM dan agen ke kerentanan kritis tanpa pengawasan manusia yang ketat. Produsen LLM dan pengembang agen AI mungkin menemukan bahwa model AI yang dilatih pada data sintetis yang tidak divalidasi dengan baik dapat menghasilkan output yang tidak akurat atau bias, menciptakan krisis reputasi, dan mengakibatkan non-kompatibilitas dengan standar industri dan etika. Berinvestasi dalam pengawasan manusia untuk memperbarui data sintetis adalah investasi langsung dalam melindungi garis bawah, mempertahankan kepercayaan pemangku kepentingan, dan memastikan adopsi AI yang bertanggung jawab.

Dengan input manusia, data sintetis dapat diubah menjadi data pelatihan berkualitas tinggi. Ada tiga alasan kritis untuk memperbarui data yang dihasilkan sebelum digunakan untuk melatih AI: untuk mengisi kesenjangan dalam pengetahuan model sumber, untuk memperbaiki kualitas data dan mengurangi ukuran sampel, dan untuk selaras dengan nilai-nilai manusia.

Kita perlu menangkap pengetahuan unik

Data sintetis sebagian besar dihasilkan oleh LLM yang dilatih pada sumber internet yang tersedia secara publik, menciptakan keterbatasan bawaan. Konten publik jarang menangkap pengetahuan praktis, tangan-on yang digunakan dalam pekerjaan dunia nyata. Aktivitas seperti merancang kampanye pemasaran, mempersiapkan prakiraan keuangan, atau melakukan analisis pasar biasanya bersifat pribadi dan tidak didokumentasikan secara online. Selain itu, sumber-sumber tersebut cenderung mencerminkan bahasa dan budaya yang berpusat pada AS, membatasi representasi global.

Untuk mengatasi keterbatasan ini, kita dapat melibatkan ahli untuk membuat sampel data di area yang kita curigai model generasi data sintetis tidak dapat mencakup. Kembali ke contoh perusahaan, jika kita ingin model akhir kita menangani prakiraan keuangan dan analisis pasar secara efektif, data pelatihan perlu mencakup tugas-tugas realistis dari bidang-bidang tersebut. Penting untuk mengidentifikasi kesenjangan ini dan melengkapi data sintetis dengan sampel yang dibuat oleh ahli.

Ahli sering terlibat pada awal proyek untuk mendefinisikan ruang lingkup pekerjaan. Ini termasuk membuat taksonomi, yang menguraikan area pengetahuan spesifik di mana model perlu berkinerja. Misalnya, dalam kesehatan, kedokteran umum dapat dibagi menjadi subtopik seperti gizi, kesehatan jantung, alergi, dan lain-lain. Model yang berfokus pada kesehatan harus dilatih dalam semua subarea yang diharapkan untuk ditangani. Setelah taksonomi didefinisikan oleh ahli kesehatan, LLM dapat digunakan untuk menghasilkan datapoint dengan pertanyaan dan jawaban yang khas dengan cepat dan dalam skala besar. Ahli manusia masih diperlukan untuk meninjau, memperbaiki, dan meningkatkan konten ini untuk memastikan bahwa konten tersebut tidak hanya akurat tetapi juga aman dan kontekstual yang tepat. Proses jaminan kualitas ini diperlukan dalam aplikasi risiko tinggi, seperti kesehatan, untuk memastikan akurasi data dan mengurangi potensi bahaya.

Kualitas over kuantitas: mengarahkan efisiensi model dengan sampel yang lebih sedikit dan lebih baik

Ketika ahli domain membuat data untuk melatih LLM dan agen AI, mereka membuat taksonomi untuk dataset, menulis prompt, menghasilkan jawaban ideal, atau mensimulasikan tugas tertentu. Semua langkah ini dirancang dengan hati-hati untuk sesuai dengan tujuan model, dan kualitasnya dipastikan oleh ahli subjek yang sesuai dalam bidang yang sesuai.

Penghasilan data sintetis tidak sepenuhnya mereplikasi proses ini. Ini bergantung pada kekuatan model yang mendasarinya yang digunakan untuk membuat data, dan kualitas yang dihasilkan seringkali tidak sebanding dengan data yang dikurasi oleh manusia. Ini berarti bahwa data sintetis sering memerlukan volume yang jauh lebih besar untuk mencapai hasil yang memuaskan, meningkatkan biaya komputasi dan waktu pengembangan.

Dalam domain yang kompleks, ada nuansa yang hanya dapat ditemukan oleh ahli manusia, terutama dengan outlier atau kasus tepi. Data yang dikurasi oleh manusia secara konsisten memberikan kinerja model yang lebih baik, bahkan dengan dataset yang jauh lebih kecil. Dengan mengintegrasikan keahlian manusia secara strategis ke dalam proses pembuatan data, kita dapat mengurangi jumlah sampel yang diperlukan untuk model berkinerja efektif.

Dalam pengalaman kami, cara terbaik untuk menangani tantangan ini adalah dengan melibatkan ahli subjek dalam membangun dataset sintetis. Ketika ahli mendesain aturan untuk penghasilan data, mendefinisikan taksonomi data, dan meninjau atau memperbaiki data yang dihasilkan, kualitas akhir dari data jauh lebih tinggi. Pendekatan ini telah memungkinkan klien kami untuk mencapai hasil yang kuat dengan menggunakan sampel data yang lebih sedikit, mengarah ke jalur yang lebih cepat dan lebih efisien ke produksi.

Membangun kepercayaan: peran tak tergantikan manusia dalam keselamatan AI dan keselarasan

Sistem otomatis tidak dapat memprediksi semua kerentanan atau memastikan keselarasan dengan nilai-nilai manusia, terutama dalam kasus tepi dan skenario yang ambigu. Ahli manusia yang meninjau memainkan peran kritis dalam mengidentifikasi risiko yang muncul dan memastikan hasil etis sebelum penerapan. Ini adalah lapisan perlindungan yang AI, setidaknya untuk saat ini, tidak dapat sepenuhnya disediakan oleh dirinya sendiri.

Oleh karena itu, untuk membangun dataset red teaming yang kuat, data sintetis saja tidak cukup. Penting untuk melibatkan ahli keamanan pada awal proses. Mereka dapat membantu memetakan jenis serangan potensial dan mengarahkan struktur dataset. LLM kemudian dapat digunakan untuk menghasilkan contoh dalam volume tinggi. Setelah itu, ahli diperlukan untuk memverifikasi dan memperbarui data untuk memastikan bahwa data tersebut realistis, berkualitas tinggi, dan berguna untuk menguji sistem AI. Misalnya, LLM dapat menghasilkan ribuan prompt hacking standar, tetapi ahli keamanan manusia dapat menciptakan serangan “rekayasa sosial” yang mengeksploitasi bias psikologis yang halus – ancaman kreatif yang sistem otomatis kesulitan menciptakan sendiri.

Telah ada kemajuan signifikan dalam mengalignkan LLM menggunakan umpan balik otomatis. Dalam makalah RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” peneliti menunjukkan bahwa umpan balik AI dapat berperforma sebanding dengan umpan balik manusia dalam banyak kasus. Namun, sementara umpan balik AI membaik seiring dengan perbaikan model, pengalaman kami menunjukkan bahwa RLAIF masih bergelut dalam domain yang kompleks dan dengan kasus tepi atau outlier, area di mana kinerja dapat sangat kritis tergantung pada aplikasi. Ahli manusia lebih efektif dalam menangani nuansa tugas dan konteks, membuat mereka lebih dapat diandalkan untuk keselarasan.

Agen AI juga mendapat manfaat dari pengujian otomatis untuk mengatasi berbagai risiko keamanan. Lingkungan pengujian virtual menggunakan data yang dihasilkan untuk mensimulasikan perilaku agen seperti berinteraksi dengan alat online dan melakukan tindakan pada situs web. Untuk memaksimalkan cakupan pengujian dalam skenario realistis, keahlian manusia sangat penting untuk merancang kasus uji, memverifikasi hasil evaluasi otomatis, dan melaporkan kerentanan.

Masa depan data sintetis

Data sintetis adalah teknik yang sangat berharga untuk mengembangkan model bahasa besar, terutama ketika penskalaan dan penerapan cepat sangat kritis dalam lanskap yang cepat saat ini. Sementara tidak ada kelemahan fundamental dalam data sintetis itu sendiri, ini memerlukan pemurnian untuk mencapai potensi penuh dan memberikan nilai maksimal. Pendekatan hibrida yang menggabungkan generasi data otomatis dengan keahlian manusia adalah metode yang sangat efektif untuk mengembangkan model yang mampu dan dapat diandalkan, karena kinerja model akhir lebih bergantung pada kualitas data daripada volume total. Proses terintegrasi ini, menggunakan AI untuk skala dan ahli manusia untuk validasi, menghasilkan model yang lebih mampu dengan keselamatan yang ditingkatkan dan keselarasan, yang sangat penting untuk membangun kepercayaan pengguna dan memastikan penerapan AI yang bertanggung jawab.

Ilya Kochik adalah Wakil Presiden Pengembangan Bisnis di Toloka, mitra data manusia untuk laboratorium penelitian GenAI terkemuka, di mana ia mengkhususkan diri dalam tugas-tugas paling mutakhir untuk model-model pionir dan sistem agen. Berbasis di London, latar belakangnya termasuk peran kepemimpinan dan teknis di Google, QuantumBlack (AI oleh McKinsey), dan Bain & Company.