Лідери думок
Правда про синтетичні дані: чому людська експертиза критична для успіху LLM

Розробники LLM все частіше звертаються до синтетичних даних, щоб прискорити розробку та зменшити витрати. Дослідники, які стоять за кількома топовими моделями, такими як LLama 3, Qwen 2 та DeepSeek R1, згадували про використання синтетичних даних для навчання своїх моделей у наукових роботах. З зовні здається, що це ідеальне рішення: безмежний джерело інформації для прискорення розробки та скорочення витрат. Але це рішення має прихований витрат, який бізнес-лідери не можуть ігнорувати.
У простих словах, синтетичні дані генеруються моделями штучного інтелекту для створення штучних наборів даних для навчання, налаштування та оцінки LLM та агентів штучного інтелекту. У порівнянні з традиційною анотацією людьми, це дозволяє масштабувати потік даних швидко, що є важливим у швидкозмінному та конкурентному ландшафті розробки штучного інтелекту.
Корпоративні підприємства можуть мати інші причини використовувати “фальшиві” дані, наприклад, захист конфіденційних даних у фінансових або медичних закладах шляхом генерації анонімізованих версій. Синтетичні дані також можуть бути хорошою заміною, коли пропріетарні дані недоступні, наприклад, до запуску продукту або коли дані належать зовнішнім клієнтам.
Але чи революціонізує синтетичний даних розвиток штучного інтелекту? Коротка відповідь – кваліфіковане так: він має великий потенціал, але також може викрити LLM та агентів до критичних уразливостей без суворого людського нагляду. Виробники LLM та розробники агентів штучного інтелекту можуть виявитися в ситуації, коли моделі штучного інтелекту, навчені на недостатньо перевірених синтетичних даних, можуть генерувати неточні або упереджені виходи, створювати репутаційні кризи та привести до невідповідності з промисловими та етичними стандартами. Інвестиції в людський нагляд для уточнення синтетичних даних – це прямі інвестиції в захист дна лінії, підтримку довіри зацікавлених сторін та забезпечення відповідальної адопції штучного інтелекту.
З людським внеском синтетичні дані можуть бути перетворені на високоякісні навчальні дані. Є три критичні причини для уточнення згенерованих даних до їх використання для навчання штучного інтелекту: для заповнення пробілів у знаннях джерельної моделі, для покращення якості даних та зменшення розміру вибірки, а також для відповідності людським цінностям.
Ми повинні захопити унікальні знання
Синтетичні дані в основному генеруються LLM, які навчаються на публічно доступних інтернет-джерелах, створюючи вбудовану обмеження. Публічний контент рідко захоплює практичне, ручне знання, яке використовується в реальному світі. Діяльності, такі як розробка маркетингової кампанії, підготовка фінансового прогнозу або проведення ринку аналізу, зазвичай приватні та не задокументовані в Інтернеті. Крім того, джерела tend відбивають U.S.-центрировану мову та культуру, обмежуючи глобальне представництво.
Для подолання цих обмежень ми можемо залучити експертів для створення даних у сфері, яку ми підозрюємо, що модель генерації синтетичних даних не може покрити. Повертаючись до корпоративного прикладу, якщо ми хочемо, щоб наша остаточна модель ефективно обробляла фінансові прогнози та ринковий аналіз, навчальні дані повинні містити реалістичні завдання з цих сфер. Це важливо – визначити ці пробіли та доповнити синтетичні дані зразками, створеними експертами.
Експерти часто залучаються на ранній стадії проекту для визначення обсягу роботи. Це включає створення таксономії, яка описує конкретні області знань, де модель повинна виконувати. Наприклад, у сфері охорони здоров’я загальна медицина може бути розділена на підtemи, такі як харчування, серцеве здоров’я, алергії та ін. Модель, орієнтована на охорону здоров’я, повинна бути навчена у всіх підобластях, які вона повинна покрити. Після визначення таксономії експертами охорони здоров’я LLM можуть бути використані для генерації даних з типовими питаннями та відповідями швидко та у великих масштабах. Людські експерти все ще потрібні для перегляду, виправлення та покращення цього контенту, щоб забезпечити, що він не тільки точний, але також безпечний та контекстно відповідний. Цей процес забезпечення якості необхідний у високоризикових застосуваннях, таких як охорона здоров’я, для забезпечення точності даних та мінімізації потенційного шкоди.
Якість над кількістю: забезпечення ефективності моделі з меншими, кращими зразками
Коли експерти галузі створюють дані для навчання LLM та агентів штучного інтелекту, вони створюють таксономії для наборів даних, пишуть промпти, створюють ідеальні відповіді або симулюють конкретне завдання. Усі ці кроки ретельно спроектовані для відповідності меті моделі, а якість забезпечується експертами у відповідній сфері.
Генерація синтетичних даних не повністю реплікує цей процес. Вона покладаєся на сильні сторони моделі, яка використовується для створення даних, а результатом є якість, яка часто не дорівнює людським кураторським даним. Це означає, що синтетичні дані часто вимагають значно більших об’ємів для досягнення задовільних результатів, що підвищує обчислювальні витрати та час розробки.
У складних областях є нюанси, які тільки людські експерти можуть помітити, особливо з аутлайерами або краєвими випадками. Людські кураторські дані постійно забезпечують кращу продуктивність моделі, навіть з значно меншими наборами даних. Стратезично інтегруючи людську експертизу у процес створення даних, ми можемо зменшити кількість зразків, необхідних для ефективної роботи моделі.
У нашому досвіді найкращий спосіб подолання цієї проблеми – залучити експертів галузі до будівництва синтетичних наборів даних. Коли експерти проектують правила генерації даних, визначають таксономії даних та переглядають або виправляють згенеровані дані, остаточна якість даних значно вища. Цей підхід дозволив нашим клієнтам досягти сильних результатів, використовуючи менше даних зразків, що призвело до швидшого та більш ефективного шляху до виробництва.
Будівництво довіри: незамінна роль людей у безпеці штучного інтелекту та відповідності
Автоматизовані системи не можуть передбачити всі уразливості або забезпечити відповідність людським цінностям, особливо у краєвих випадках та двозначних сценаріях. Людські експерти відіграють важливу роль у визначенні нових ризиків та забезпечення етичних результатів до розгортання. Це є шаром захисту, який штучний інтелект, принаймні зараз, не може повністю забезпечити самостійно.
Отже, для будівництва сильної команди тестування синтетичних даних недостатньо. Важливо залучити експертів безпеки на ранній стадії процесу. Вони можуть допомогти відобразити типи потенційних атак та структуру набору даних. LLM можуть бути використані для генерації великої кількості прикладів. Після цього експерти потрібні для верифікації та уточнення даних, щоб забезпечити, що вони реалістичні, високоякісні та корисні для тестування систем штучного інтелекту. Наприклад, LLM можуть згенерувати тисячі стандартних хакерських промптів, але людський експерт з безпеки може створити нові “соціальні інженерні” атаки, які використовують нюансовані психологічні упередження – творчу загрозу, яку автоматизовані системи важко винайти самостійно.
Було досягнуто значного прогресу у відповідності LLM за допомогою автоматичної зворотної зв’язку. У роботі “RLAIF vs. RLHF: Масштабування навчання з людською зворотною зв’язкою з допомогою зворотної зв’язку штучного інтелекту,” дослідники показують, що зворотна зв’язка, заснована на штучному інтелекті, може виконувати порівняно з людською зворотною зв’язкою у багатьох випадках. Однак, хоча зворотна зв’язка, заснована на штучному інтелекті, покращується з покращенням моделей, наш досвід показує, що RLAIF все ще бореться у складних областях та з краєвими випадками або аутлайерами, областями, де продуктивність може бути критичною залежно від застосування. Людські експерти більш ефективні у обробці нюансів завдань та контексту, роблячи їх більш надійними для відповідності.
Агенти штучного інтелекту також користуються автоматизованим тестуванням для подолання широкого спектра ризиків безпеки. Віртуальні тести використовують згенеровані дані для симуляції поведінки агентів, таких як взаємодія з онлайн-інструментами та виконання дій на веб-сайтах. Для максимізації тестового покриття у реалістичних сценаріях людська експертиза інтегральна для проектування тестових випадків, верифікації результатів автоматичних оцінок та звітності про уразливості.
Майбутнє синтетичних даних
Синтетичні дані – це дуже цінна техніка для розробки великих мовних моделей, особливо коли масштабування та швидке розгортання критичні у сучасному швидкозмінному ландшафті. Хоча немає фундаментальних недоліків у синтетичних даних самих по собі, їм потрібно уточнення, щоб досягти повного потенціалу та доставити найбільшу цінність. Гібридний підхід, який поєднує автоматичну генерацію даних з людською експертизою, є дуже ефективним методом для розробки здатних та надійних моделей, оскільки остаточна продуктивність моделі залежить більше від якості даних, ніж від загального обсягу. Цей інтегрований процес, який використовує штучний інтелект для масштабу та людських експертів для валідації, створює більш здатні моделі з покращеною безпекою та відповідністю, що є важливим для будівництва довіри користувачів та забезпечення відповідальної адопції штучного інтелекту.












