Погляд Anderson
ChatGPT-5 і Gemini 2.5 мають галюцинації в 40% перевірених запитів редакції

Нове дослідження показало, що ChatGPT-5 і Google Gemini мають галюцинації в 40% запитів у стилі редакції, часто вигадуючи впевнені заяви, не підтверджені верифікованими фактами. Google’s NotebookLM працює краще, з показником лише 13% – рівень, який усе одно звільнив би будь-якого журналіста у світі. Дослідження показало, що моделі часто спотворюють джерела, перетворюючи думки на факти та позбавляючи їх атрибуції, роблячи їх ризикованими інструментами для журналістики. Автори закликають до створення кращих, спеціалізованих інструментів для цих завдань.
Багатомовні моделі迅ько були прийняті в журналістику в останні часи, в робочому середовищі, яке в будь-якому випадку скорочувало витрати, бюджети та штат з часів цифрової журналістики зруйнувало дві століття традицій в процесі, який розпочався на початку 2000-х років.
Фактично, територія вже була родючою, оскільки ЗМІ звикли до скорочення робочих місць через “інновації” принаймні з бурхливого введення цифрового набору тексту в 1980-х роках, а також раніше з появою радіо та телебачення.
Наполегливий шлях ІІ до редагування та ЗМІ не обійшовся без невдач, проте; у контексті, в якому 55% компаній тепер каються за заміну людей на ІІ, і де Gartner прогнозує, що організації сильно скоротять свої графіки прийняття ІІ протягом двох років, ряд ЗМІ повернули журналістів, замінених ІІ, оскільки серйозні та часто гідні сміху недоліки альтернатив на основі машинного навчання стали очевидними.
Помилятися не тільки люди
Хоча галюцинації довели себе величезною проблемою для галузей, де точна цитата є суттєвою (із помітною публічною увагою до випадків невдач ІІ в секторах правосуддя, досліджень та журналістики), нове дослідження США показало, що машинне навчання в журналістиці стикається з більшістю проблем, ніж очікувалося.
Автори дослідження оцінили ChatGPT, Google Gemini та більш цитатно-орієнтований NotebookLM на завдання у стилі репортажу: використання корпусу з 300 документів, зосереджених на юридичних справах та політиці TikTok у США.
Дослідники варіювали специфіку запитів та кількість документів, наданих моделям, а потім аналізували результати, використовуючи taksonomію, розроблену для захоплення типу та ступеня галюцинацій.
У всіх виведеннях 30% містили принаймні одну галюцинацію, тоді як ChatGPT та Gemini кожна показала 40% рівень галюцинацій – трохи більше ніж у три рази вищий, ніж 13% помилковий рівень NotebookLM.
Тільки перекладений вміст.












