Погляд Anderson

ChatGPT-5 і Gemini 2.5 створюють галюцинації в 40% запитів у стилі новинної редакції

mm
A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

Нове дослідження виявило, що ChatGPT-5 і Google Gemini створюють галюцинації в 40% запитів у стилі новинної редакції, часто вигадуючи впевнені заяви, які не підтримуються верифікованими фактами. Google NotebookLM показав кращий результат – лише 13% – рівень, який усе одно призвів би до звільнення будь-якого журналіста у світі. Дослідження показало, що моделі часто спотворювали джерела, перетворюючи думки на факти та позбавляючи їх атрибуції, що робить їх ризикованими інструментами для журналістики. Автори закликають до створення кращих, спеціалізованих інструментів для цих завдань.

 

Багатомодельні мови швидко увійшли у журналістику в останні часи, в умовах, коли робочі середовища вже скорочували витрати, бюджети та штат з часів цифрової журналістики зруйнували двісті років традицій у процесі, який розпочався на початку 2000-х років.

Фактично, територія вже була готова, оскільки ЗМІ звикли до скорочення робочих місць через “інновації” принаймні з бурхливого введення цифрового верстання у 1980-х роках, а також раніше з викликами від радіо та телебачення.

Неперерваний шлях ІІ до новинних редакцій та ЗМІ не був без невдач, проте; у контексті, де 55% компаній тепер каються за заміну людей на ІІ, та де Gartner прогнозує, що організації суттєво скоротять свої графіки впровадження ІІ протягом двох років, ряд новинних організацій повернули журналістів, яких замінили на ІІ, оскільки серйозні та часто гідні докору недоліки альтернатив машинного навчання стали очевидними.

Помилятися – не тільки людська ознака

Хоча галюцинації довели велику проблему для галузей, де точна цитата є суттєвою (з помітною публічною увагою до випадків невдач ІІ у сфері права, досліджень та журналістики), нове американське дослідження виявило, що машинне навчання у журналістиці стикається з більш широкими проблемами, ніж очікувалося.

Автори дослідження оцінили ChatGPT, Google Gemini та більш орієнтований на цитати NotebookLM на завдання у стилі репортажу: використання корпусу з 300 документів, зосереджених на судових справах та політиці TikTok у США.

Дослідники варіювали специфіку запиту та кількість документів, наданих моделям, потім проаналізували результати за допомогою таксономії, розробленої для захоплення типу та ступеня галюцинацій.

У всіх виходах 30% містили принаймні одну галюцинацію, тоді як ChatGPT та Gemini показали 40% рівень галюцинацій – трохи більше ніж у три рази вищий, ніж 13% рівень помилок NotebookLM.

Теорія та метод

Точна причина галюцинацій* є спірною; хоча майже всі теорії погоджуються, що якість даних та/або розподіли є вкладаючим фактором під час навчання, було навіть пропоновано, що 100% виходу ІІ є суттєво галюцинацією (окрім того, що деякі з цих галюцинацій збігаються з реальністю).

Автори спостерігають: галюцинації виникають з здатності ІІ генерувати текст, який слідує за загальними моделями без розуміння того, що є правдою. Це характеристика призводить до правдоподібних відповідей, які не відображають реальність – наприклад, ІІ-вигадане законодавство, яке з’являється в аргументах.

Tik Tok

Щоб дізнатися, які підходи можуть бути корисними для журналістів, дослідження провело оцінки, розроблені для відображення реальних робочих процесів та стандартів новинних редакцій, з галюцинаціями, розглянутими в контексті типових завдань репортажу.

Фронтові моделі були протестовані за допомогою загальних стратегій запиту та налаштувань документа, так що як частота, так і тип помилок галюцинацій могли бути виміряні – разом з тим, що ці помилки фактично означають для інтеграції ІІ у новинні редакції.

Аналіз був зосереджений на типі документа-орієнтованого запиту, типового для дослідницької та розслідувальної журналістики. Автори намагалися створити корпус, призначений для відображення типового проекту новинної редакції середнього рівня, проте достатнього для захоплення складності реальних звітів; з цією метою вони обрали тривале юридичне зусилля щодо заборони TikTok у США.

Конкуренти

Три інструменти були протестовані, кожен з яких відображає інший підхід до документа-орієнтованого запиту: ChatGPT-5 був оцінений за допомогою функції Projects, яка обмежувала завантаження до 100 документів; Google Gemini 2.5 Pro міг обробляти повний корпус з 300 документів у контексті (за допомогою свого контекстного вікна з одним мільйоном токенів для безпосереднього прийому всіх 923 000 токенів); Google NotebookLM, який пропонує функцію витягнення цитат, був протестований за допомогою спеціальних блокнотів для кожного зразка.

Дані та тести

У початковому тесті на поширеність галюцинацій 12 із 40 моделей виходів містили принаймні одну галюцинацію, з помітною варіацією між інструментами. ChatGPT та Gemini кожний створили галюцинації в 40% своїх виходів, тоді як NotebookLM створив галюцинації лише в 13% випадків:

З цих результатів автори коментують: це вказує на те, що, хоча більшість відповідей по всіх інструментах не містять галюцинацій, вибір інструменту все ж робить різницю для одного й того самого корпусу документів та набору запитів.

Висновок

Хто б не експериментував з трьома моделями, дослідженими в новій статті, знає, що кожна з них має свої слабкості та сильні сторони. Хоча NotebookLM працює значно краще за цитатами, ніж ChatGPT чи Gemini, можна вважати, що він був створений саме для цієї функціональності, та все ж таки показує рівень помилок, який би звільнив більшість журналістів, дослідників чи юристів, з повторюваними інцидентами.

Крім того, NotebookLM, позиціонуючи себе як дослідницький фреймворк, не має багатьох удосконалень UX, які роблять інші дві платформи легшим письмовим досвідом.

Однак, принаймні NotebookLM видається здатним фактично читати завантажені документи, а не впадати у вкрай руйнівну звичку ChatGPT – здогадуватися, що може сказати завантажений документ, заснований на тому, що він знає про загальний розподіл подібних документів. Це може бути важкою боротьбою, щоб змусити будь-яку версію ChatGPT зробити повний текстовий огляд завантаженого матеріалу, а не покладатися на метадані чи自己的 припущення/галюцинації.

Для галузей, де походження та стандарти цитування є критичними, такими як право, журналістика та наукові дослідження, здається, немає жодних натівно-навчених можливостей у поточних лідируючих ІІ, які можуть покращити їхню обмежену здатність точно витягувати та обробляти інформацію, яку користувач спрямовує їм.

Як воно стоїть, і поки не з’являться допоміжні системи, які можуть пропонувати кращий інтерфейс до ІІ, ніж простий системний запит або MCP-налаштування, все, що ці системи виводять для цих критично важливих секторів, усе ще потребує перевірки тим дорогим, незручним і загалом докучливим людям.

 

* Google Cloud пропонує досить цікаву та повну інформацію на цю тему тут.

Моя конвертація внутрішніх цитат авторів у гіперпосилання.

Перша публікація – середа, 1 жовтня 2025 року. Виправлено четвер, 2 жовтня, для виправлення помилки в TL:DR та виправлення стилістичної помилки в першому абзаці.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]