Штучний інтелект
Найкращі моделі штучного інтелекту губляться в довгих документах

Нове дослідження вчених з LMU Munich, Munich Center for Machine Learning та Adobe Research викрило слабкість у моделях мови штучного інтелекту: вони мають труднощі з розумінням довгих документів способами, які можуть вас здивувати. Результати дослідження показують, що навіть найрозвинутіші моделі штучного інтелекту мають проблеми з підключенням інформації, коли вони не можуть покладатися на просте співпадіння слів.
Прихована проблема з навичками читання штучного інтелекту
Помістіть себе в ситуацію, коли вам потрібно знайти певну деталь у довгій науковій роботі. Ви можете пробігти очима через неї, створюючи розумові зв’язки між різними розділами, щоб зібрати необхідну інформацію. Багато моделей штучного інтелекту, як виявилося, працюють зовсім інакше. Натомість вони часто сильно покладаються на пошук точних співпадінь слів, подібно до використання Ctrl+F на вашому комп’ютері.
Команда дослідників розробила новий бенчмарк під назвою NOLIMA (No Literal Matching), щоб протестувати різні моделі штучного інтелекту. Результати показали, що коли моделі штучного інтелекту працюють з текстами довші за 2 000 слів, їхня продуктивність різко падає. До моменту, коли вони досягають 32 000 слів – приблизно довжини короткої книги – більшість моделей працюють лише на половину своєї звичайної здатності. Це включало тестування великих моделей, таких як GPT-4o, Gemini 1.5 Pro, і Llama 3.3 70B.
Розгляньте медичного дослідника, який використовує штучний інтелект для аналізу медичних карток пацієнтів, або юридичну команду, яка використовує штучний інтелект для перегляду документів справи. Якщо штучний інтелект пропускає важливі зв’язки через те, що відповідна інформація використовує інші слова, ніж пошукова запит, наслідки можуть бути суттєвими.
Чому співпадіння слів недостатньо
Поточні моделі штучного інтелекту обробляють текст за допомогою чогось на зразок механізму уваги. Ця система допомагає штучному інтелекту зосередитися на різних частинах тексту, щоб зрозуміти відносини між словами та ідеями. Коли робота відбувається з короткими текстами, це працює досить добре. Однак дослідження показує, що цей механізм ставиться в тупик, коли тексти стають довшими, особливо коли він не може покладатися на точне співпадіння слів.
Тест NOLIMA викрив цю обмеження, запитавши у моделей штучного інтелекту питання, на які відповіді вимагали розуміння контексту, а не пошук співпадінь слів. Результати були показовими. Хоча моделі працювали добре з короткими текстами, їхня здатність створювати ці зв’язки падала суттєво, коли довжина тексту збільшувалася. Навіть спеціалізовані моделі, розроблені для завдань зі rozumіння, набирали менше 50% точності при роботі з довгими документами.
Без опори на співпадіння слів моделі штучного інтелекту мали труднощі з:
- Зв’язуванням пов’язаних концепцій, які використовують різні терміни
- Проведенням багатокрокових шляхів rozumіння
- Пошуком відповідної інформації, коли вона з’являється після ключового контексту
- Ігноруванням вводячих у оману співпадінь слів у неважливих розділах
Цифри розповідають історію
Результати дослідження малюють яскраву картину того, як моделі штучного інтелекту справляються з довгими текстами. GPT-4o показала найкращу продуктивність, зберігаючи ефективність до близько 8 000 токенів (приблизно 6 000 слів). Однак навіть цей найкращий виконавець показав суттєвий спад з довшими текстами. Більшість інших моделей, включаючи Gemini 1.5 Pro і Llama 3.3 70B, пережили різкий спад продуктивності між 2 000 і 8 000 токенами.
Спад продуктивності став ще більш вираженим, коли завдання вимагали кількох кроків rozumіння. Наприклад, якщо модель повинна була зробити два логічних зв’язки – як зрозуміти, що персонаж жив поблизу пам’ятки, і що пам’ятка знаходиться в певному місті – рівень успіху суттєво знизився. Дослідження показало, що такий багатокроковий розуміння став особливо складним у текстах довші за 16 000 токенів, навіть при використанні технік, розроблених для покращення rozumіння, таких як Chain-of-Thought prompting.
Що робить ці результати особливо помітними, так це те, що вони викриють заяви про здатність моделей штучного інтелекту справлятися з довгими контекстами. Хоча багато моделей рекламують підтримку великих контекстних вікон, бенчмарк NOLIMA показує, що ефективне розуміння падає значно раніше, ніж досягає цих теоретичних обмежень.

Джерело: Modarressi et al.
Коли штучний інтелект не бачить лісу за деревами
Ці обмеження мають серйозні наслідки для того, як ми використовуємо штучний інтелект у реальних застосуваннях. Розгляньте юридичну систему штучного інтелекту, яка шукає у законодавстві. Вона може пропустити відповідні прецеденти просто через те, що вони використовують інші терміни, ніж пошукова запит. Система може натомість зосередитися на менш важливих справах, які просто мають спільні слова з пошуковими термінами.
Вплив на пошук і аналіз документів особливо занепокоюючий. Поточні системи штучного інтелекту часто покладаються на техніку під назвою Retrieval-Augmented Generation (RAG). Навіть коли ці системи успішно витягують документ, який містить потрібну інформацію, штучний інтелект може не визнати її актуальність, якщо формулювання відрізняється від запиту. Натомість штучний інтелект може схилитися до менш актуальних документів, які мають поверхневі подібності з пошуковими термінами.
Для користувачів штучного інтелекту ці результати свідчать про кілька важливих моментів:
По-перше, коротші запити і документи, ймовірно, дадуть більш надійні результати. Коли робота відбувається з довгими текстами, розділення їх на менші, зосереджені розділи може допомогти зберегти продуктивність штучного інтелекту.
По-друге, користувачі повинні бути особливо обережними, коли просять штучний інтелект зробити зв’язки між різними частинами довгого документа. Дослідження показує, що моделі штучного інтелекту мають найбільші труднощі, коли їм потрібно скласти інформацію з різних розділів, особливо коли зв’язок не очевидний через спільну лексику.
По-третє, ці обмеження підкреслюють подальшу важливість людського нагляду. Хоча інструменти штучного інтелекту можуть бути дуже корисними для багатьох завдань, вони не повинні розглядатися як повна заміна людського аналізу складних документів. Людська здатність зберегти контекст і створити концептуальні зв’язки через довгі тексти залишається вищою за поточні можливості штучного інтелекту.
Результати дослідження служать нагадуванням про те, що попри швидкий розвиток технологій штучного інтелекту, ці системи все ще обробляють інформацію дуже по-іншому, ніж люди. Розуміння цих обмежень є важливим для ефективного використання інструментів штучного інтелекту та розуміння, коли людська оцінка залишається необхідною.
Що далі
Розуміння обмежень поточних моделей штучного інтелекту щодо обробки довгих текстів відкриває важливі питання про майбутнє розвитку штучного інтелекту. Дослідження, яке стоїть за бенчмарком NOLIMA, показало, що наш підхід до обробки текстів штучним інтелекту може потребувати суттєвого вдосконалення, особливо щодо того, як моделі обробляють інформацію через довші пасажі.
Поточні рішення показали лише частковий успіх. Техніка Chain-of-Thought prompting, яка спонукає моделі штучного інтелекту розбивати свій розуміння на кроки, дещо покращує продуктивність. Наприклад, при використанні цієї техніки Llama 3.3 70B показала кращу здатність справлятися з довгими контекстами. Однак цей підхід все ще не достатній, коли справа доходить до текстів довші за 16 000 токенів, що свідчить про те, що нам потрібні більш фундаментальні рішення.
Механізм уваги, який утворює основу того, як поточні моделі штучного інтелекту обробляють текст, потребує переосмислення. Це можна порівняти з спробою вести розмову в переповненій кімнаті – чим довша розмова, тим складніше слідкувати за всіма важливими моментами, які були згадані раніше. Наші поточні моделі штучного інтелекту стикаються з подібною проблемою, але у значно більшому масштабі.
Оглядаючи майбутнє, дослідники досліджують кілька перспективних напрямків. Один із підходів полягає у розробці нових способів організації та пріоритезації інформації в довгих текстах, переходячи від простого співпадіння слів до розуміння глибших концептуальних зв’язків. Це може працювати подібно до того, як люди створюють розумові карти інформації, зв’язуючи ідеї на основі їхнього значення, а не лише спільної лексики.
Інший напрям розвитку зосереджується на покращенні того, як моделі штучного інтелекту справляються з тим, що дослідники називають “латентними стрибками” – логічними кроками, необхідними для зв’язку різних частин інформації. Поточні моделі мають труднощі з цими зв’язками, особливо в довгих текстах, але нові архітектури можуть допомогти звузити цю прогалину.
Для тих, хто працює з інструментами штучного інтелекту сьогодні, ці результати свідчать про кілька практичних підходів:
Розгляньте можливість розділення довгих документів на значимі розділи при роботі з інструментами штучного інтелекту. Це допомагає створити логічні розділи, які зберігають важливий контекст. Наприклад, якщо ви аналізуєте наукову роботу, ви можете тримати розділи методології та результатів разом, оскільки вони часто містять пов’язану інформацію.
Коли ви просите штучний інтелект проаналізувати довгі тексти, будьте конкретними щодо зв’язків, які ви хочете, щоб він зробив. Натомість ніж ставити широкі питання, спрямовуйте штучний інтелект до конкретних відносин, які вас цікавлять. Це допомагає компенсувати поточні обмеження моделі у створенні цих зв’язків самостійно.
Можливо, найважливіше – тримайте реалістичні очікування щодо можливостей штучного інтелекту з довгими текстами. Хоча ці інструменти можуть бути дуже корисними для багатьох завдань, вони не повинні розглядатися як повна заміна людського аналізу складних документів. Людська здатність зберегти контекст і створити концептуальні зв’язки через довгі тексти залишається вищою за поточні можливості штучного інтелекту.
Дорога вперед для розвитку штучного інтелекту в цій галузі є як складною, так і цікавою. Коли ми краще розуміємо ці обмеження, ми можемо працювати над системами штучного інтелекту, які真正но розуміють довгі тексти, а не просто обробляють їх. До тих пір, використання інструментів штучного інтелекту ефективно означає роботу з їхніми поточними обмеженнями, цінуючи їхні сильні сторони.












