Лідери думок

Вирішення поточних проблем у великих мовних моделях та очікування того, що буде далі

Published January 2, 2025

Updated April 27, 2026

Uday Kamath, Chief Analytics Officer at Smarsh

Сьогодні існує десятки публічно доступних великих мовних моделей (LLM), таких як GPT-3, GPT-4, LaMDA або Bard, а їх кількість постійно зростає з виходом нових моделей. LLM революціонізували штучний інтелект, повністю змінивши спосіб нашого взаємодії з технологіями у різних галузях. Ці моделі дозволяють нам вивчати багато наборів даних людської мови та відкрили нові шляхи для інновацій, творчості та ефективності.

Однак з великою силою приходить велика складність. Існують вбудовані виклики та етичні питання, пов’язані з LLM, які потрібно вирішити, перш ніж ми зможемо використовувати їх на повну потужність. Наприклад, недавнє дослідження Стенфордського університету виявило расову та гендерну упередженість при спостереженні за ChatGPT-4 щодо того, як воно поводиться з певними запитами, які включають імена та прізвища, що можуть вказувати на расу чи стать. У цьому дослідженні програмі було запропоновано порада щодо того, скільки потрібно платити за використаний велосипед, який продавався особою на ім’я Джамал Вашингтон, що дало значно нижчу суму порівняно з тим, коли продавцем був Логан Бекер. Коли такі відкриття продовжують з’являтися, потреба вирішити проблеми LLM тільки зростає.

Як пом’якшити поширені проблеми LLM

Упередженість

Однією з найбільш обговорюваних проблем серед LLM є упередженість та справедливість. У недавньому дослідженні експерти протестували чотири недавно опубліковані LLM та виявили, що всі вони виражали упереджені припущення про чоловіків та жінок, зокрема ті, які відповідають сприйняттям людей, а не тим, що ґрунтується на фактах. У цьому контексті упередженість відноситься до нерівного поводження чи результатів серед різних соціальних груп, найбільш ймовірно через історичні чи структурні дисбаланси влади.

У LLM упередженість викликана вибором даних, демографічними характеристиками творців та мовною або культурною упередженістю. Упередженість вибору даних відбувається, коли тексти, вибрані для навчання LLM, не представляють повну різноманітність мови, використовуваної в Інтернеті. LLM, навчені на обширних, але обмежених, наборах даних, можуть успадкувати упередженість, яка вже існує в цих текстах. З демографічними характеристиками творців певні демографічні групи підкреслюються частіше, ніж інші, що демонструє необхідність більшої різноманітності та інклюзивності у створенні контенту для зменшення упередженості. Наприклад, Вікіпедія, поширений джерело навчальних даних, демонструє помітний демографічний дисбаланс серед своїх редакторів з переважаючою більшістю чоловіків (84%). Це подібно до упередженості, знайденої для мови та культури. Багато джерел, на яких тренуються LLM, відхилені, орієнтовані на англійську мову, що лише іноді перекладає точно на інші мови та культури.

Важливо, щоб LLM були навчені на фільтрованих даних, а також щоб були встановлені заходи для пригнічення тем, які не є вірними представленнями даних. Одним із способів зробити це є використання технік на основі збільшення даних. Ви можете додати приклади з недопредставлених груп до навчальних даних, тим самим розширюючи різноманітність набору даних. Інша тактика пом’якшення – фільтрація даних та перезважування, яке в основному зосереджується на точному націленні конкретних, недопредставлених прикладів у існуючому наборі даних.

Галюцинації

У контексті LLM галюцинації – це явище, характеризоване виробництвом тексту, який, хоча й граматично правильний та здається сприйнятливим, відхиляється від фактичної точності чи наміру джерельного матеріалу. Насправді недавні повідомлення виявили, що позов щодо закону Міннесоти безпосередньо впливає на галюцинації LLM. Афідевіт, поданий на підтримку закону, виявився містити неіснуючі джерела, які могли бути галюциновані ChatGPT або іншою LLM. Ці галюцинації можуть легко зменшити надійність LLM.

Існують три основні форми галюцинацій:

Галюцинація, що суперечить вводу: Це відбувається, коли вихід LLM відхиляється від вводу користувача, який зазвичай включає інструкції завдання та фактичний вміст, який потрібно обробити.
Галюцинація, що суперечить контексту: LLM можуть генерувати внутрішньо несумісні відповіді в сценаріях, що涉ують розширений діалог або кілька обмінів. Це свідчить про потенційну недостатність здатності моделі відстежувати контекст чи підтримувати узгодженість протягом різних взаємодій.
Галюцинація, що суперечить фактам: Ця форма галюцинації виникає, коли LLM виробляє вміст, який суперечить встановленим фактам. Походження таких помилок різноманітні та можуть виникати на різних стадіях життєвого циклу LLM.

Багато факторів сприяли цьому явищу, таких як дефіцит знань, який пояснює, як LLM можуть не мати знань чи здатності правильно засвоювати інформацію під час попереднього навчання. Крім того, упередженість у навчальних даних або послідовна стратегія генерації LLM, прозвана “галюцинаційним снігболінгом”, може створювати галюцинації.

Є способи пом’якшити галюцинації, хоча вони завжди будуть характеристикою LLM. Корисні стратегії пом’якшення галюцинацій – пом’якшення під час попереднього навчання (ручного уточнення даних за допомогою фільтраційних технік) або тонкого налаштування (курування навчальних даних). Однак пом’якшення під час висновку є найкращим рішенням через його ефективність та контрольованість.

Приватність

З ростом Інтернету збільшена доступність особистої інформації та інших приватних даних стала широко визнаною проблемою. Дослідження показало, що 80% американських споживачів стурбовані тим, що їхні дані використовуються для навчання моделей штучного інтелекту. Оскільки найбільш відомі LLM джерелуються з веб-сайтів, нам потрібно розглянути, як це створює ризики приватності та залишається в основному нерозв’язаною проблемою для LLM.

Найпростішим способом запобігти розповсюдженню особистої інформації LLM є видалення її з навчальних даних. Однак, враховуючи величезну кількість даних, залучених до LLM, майже неможливо гарантувати, що вся приватна інформація буде ліквідована. Інший поширений варіант для організацій, які покладаються на зовнішні моделі, – вибрати відкриту LLM замість служби, chẳng hạn як ChatGPT.

З цим підходом копію моделі можна розгорнути внутрішньо. Промпти користувачів залишаються безпечними всередині мережі організації, а не піддаються впливу зовнішніх служб. Хоча це суттєво зменшує ризик витоку конфіденційних даних, це також додає суттєву складність. Ураховуючи труднощі повної гарантії захисту приватних даних, все ж важливо, щоб розробники застосунків розглядали, як ці моделі можуть поставити їхніх користувачів під ризик.

Наступний рубіж для LLM

Когда ми продовжимо розвиватися та формувати подальші еволюції LLM шляхом пом’якшення поточних ризиків, ми повинні очікувати прориву агентів LLM, яких ми вже бачимо у компаній, таких як H з Runner H, починаючи випускати. Перехід від чистих мовних моделей до агентських архітектур представляє зміну у дизайні систем штучного інтелекту; галузь буде рухатися далі від вбудованих обмежень чат-інтерфейсів та простої генерації з підтримкою відновлення. Ці нові агентські рамки матимуть розвинені плани модулів, які розкладають складні об’єкти на атомарні підзадачі, підтримують епізодичну пам’ять для контекстного висновування та використовують спеціалізовані інструменти через добре визначені API. Це створює більш надійний підхід до автоматизації завдань.

Крім LLM, буде більша увага до навчання менших мовних моделей через їхню ефективність, доступність та легкість розгортання. Наприклад, домен-специфічні мовні моделі спеціалізуються на певних галузях чи сферах. Ці моделі тонко налаштовуються домен-специфічними даними та термінологією, що робить їх ідеальними для складних та регульованих середовищ, таких як медичне чи юридичне поле, де точність є суттєвою. Цей цілеспрямований підхід зменшує ймовірність помилок та галюцинацій, які загальні моделі можуть виробляти при зустрічі зі спеціалізованим вмістом.

Когда ми продовжимо досліджувати нові рубежі в LLM, важливо розширювати межі інновацій та вирішувати та пом’якшувати потенційні ризики, пов’язані з їхнім розвитком та розгортанням. Лише ідентифікуючи та активно вирішуючи проблеми, пов’язані з упередженістю, галюцинаціями та приватністю, ми можемо створити більш надійну основу для LLM, щоб вони могли процвітати у різних галузях.

Uday Kamath, Chief Analytics Officer at Smarsh

Uday Kamath є головним аналітичним офіцером у Smarsh, світовим лідером у сфері комунікаційних даних та розвідки. Його роль охоплює керівництво науки про дані та дослідження у сфері розмовного штучного інтелекту. З більш ніж 25-річним досвідом у сфері аналітичного розвитку та докторським ступенем у галузі масштабованого машинного навчання, значний внесок Камата охоплює численні журнали, конференції, книги та патенти. Він також є активним членом ради радників для підприємств, включаючи комерційні компанії, такі як Falkonry, та академічні установи, такі як Центр партнерства людини та машини у GMU.

Unite.AI

Вирішення поточних проблем у великих мовних моделях та очікування того, що буде далі

Як пом’якшити поширені проблеми LLM

Упередженість

Галюцинації

Приватність

Наступний рубіж для LLM

You may like