Искусственный интеллект

Как Синтетические Данные Влияют на Заллюцинации ИИ?

Published February 8, 2025

Updated April 3, 2026

Zac Amos

Хотя синтетические данные являются мощным инструментом, они могут уменьшить заллюцинации искусственного интеллекта только в определенных обстоятельствах. Почти во всех остальных случаях они будут усиливать их. Почему это так? Что это означает для тех, кто вложил в них средства?

Как Синтетические Данные Отличаются от Реальных Данных?

Синтетические данные – это информация, генерируемая ИИ. Вместо сбора из реальных событий или наблюдений, она производится искусственно. Однако она достаточно похожа на оригинал, чтобы производить точный, релевантный вывод. Идея заключается именно в этом.

Чтобы создать искусственную базу данных, инженеры ИИ обучают генеративный алгоритм на реальной реляционной базе данных. Когда его запрашивают, он производит вторую базу данных, которая достаточно точно отражает первую, но не содержит никакой подлинной информации. Хотя общие тенденции и математические свойства остаются целыми, есть достаточно шума, чтобы скрыть исходные отношения.

Искусственно сгенерированная база данных выходит за рамки деидентификации, реплицируя основную логику отношений между полями, а не просто заменяя поля эквивалентными альтернативами. Поскольку она не содержит никаких идентифицирующих деталей, компании могут использовать ее, чтобы обойти правила конфиденциальности и авторского права. Более важно, что они могут свободно делиться ею или распространять без страха нарушения.

Однако фальшивая информация чаще используется для дополнения. Бизнес может использовать ее, чтобы обогатить или расширить размеры выборки, которые слишком малы, сделав их достаточно большими, чтобы эффективно обучать системы ИИ.

Уменьшают Ли Синтетические Данные Заллюцинации ИИ?

Иногда алгоритмы ссылаются на несуществующие события или делают логически невозможные предложения. Эти заллюцинации часто бессмысленны, вводят в заблуждение или неверны. Например, большая языковая модель может написать статью о том, как одомашнивать львов или стать врачом в возрасте 6 лет. Однако они не все так экстремальны, что может сделать их распознавание сложным.

Если искусственные данные правильно отобраны, они могут смягчить эти инциденты. Релевантная, аутентичная база данных для обучения является основой для любой модели, поэтому логично, что чем больше деталей у кого-то есть, тем более точным будет вывод модели. Дополнительная база данных позволяет масштабировать, даже для нишевых приложений с ограниченной публичной информацией.

Дебиасинг – это еще один способ, которым синтетическая база данных может уменьшить заллюцинации ИИ. Согласно MIT Sloan School of Management, она может помочь решить проблему предвзятости, потому что она не ограничена исходным размером выборки. Профессионалы могут использовать реалистичные детали, чтобы заполнить пробелы, где определенные подпопуляции недо- или переоценены.

Как Искусственные Данные Ухудшают Заллюцинации

Поскольку интеллектуальные алгоритмы не могут рассуждать или контекстуализировать информацию, они склонны к заллюцинациям. Генеративные модели – особенно большая языковая модель – особенно уязвимы. По некоторым параметрам, искусственные факты усугубляют проблему.

Усиление Предвзятости

Как и люди, ИИ может учиться и воспроизводить предвзятости. Если искусственная база данных переоценивает некоторые группы, а недооценивает другие – что, к сожалению, легко сделать случайно – ее логика принятия решений будет искажена, негативно влияя на точность вывода.

Аналогичная проблема может возникнуть, когда компании используют фальшивые данные, чтобы устранить реальные предвзятости, потому что они могут больше не отражать реальность. Например, поскольку более 99% случаев рака молочной железы发生 у женщин, использование дополнительной информации для балансировки представительства может исказить диагностику.

Пересекающиеся Заллюцинации

Пересекающаяся идентичность – это социологический каркас, который описывает, как демографические показатели, такие как возраст, пол, раса, профессия и класс, пересекаются. Он анализирует, как уникальные комбинации социальных идентичностей различных групп приводят к уникальным комбинациям дискриминации и привилегий.

Когда генеративная модель запрашивается, чтобы произвести искусственные детали на основе того, на чем она была обучена, она может сгенерировать комбинации, которые не существовали в исходной или логически невозможны.

Эрика Джонсон, профессор гендера и общества в Университете Линкёпинга, работала с ученым в области машинного обучения, чтобы продемонстрировать это явление. Они использовали генеративную сеть для создания синтетических версий данных переписи населения США 1990 года.

Сразу же они заметили одну проблему. Искусственная версия имела категории, озаглавленные “жена и одинокая” и “мужья, никогда не вступавшие в брак”, обе из которых были пересекающимися заллюцинациями.

Без надлежащего отбора реплицированная база данных всегда будет переоценивать доминирующие подпопуляции в наборах данных, а недооценивать – или даже исключать – недооцененные группы. Крайние случаи и аутлиеры могут быть полностью проигнорированы в пользу доминирующих тенденций.

Коллапс Модели

Чрезмерная зависимость от искусственных закономерностей и тенденций приводит к коллапсу модели – когда производительность алгоритма резко ухудшается, поскольку он становится менее адаптируемым к реальным наблюдениям и событиям.

Это явление особенно заметно в следующем поколении генеративного ИИ. Повторное использование искусственной версии для их обучения приводит к самоуничтожающему циклу. Одно исследование показало, что их качество и воспоминание прогрессивно ухудшаются без достаточного количества недавних, реальных цифр в каждом поколении.

Переобучение

Переобучение – это чрезмерная зависимость от обучающих данных. Алгоритм работает хорошо изначально, но будет галлюцинировать, когда ему будут представлены новые точки данных. Синтетическая информация может усугубить эту проблему, если она не точно отражает реальность.

Последствия Продолжительного Использования Синтетических Данных

Рынок синтетических данных расцветает. Компании в этой нишевой отрасли привлекли около 328 миллионов долларов в 2022 году, по сравнению с 53 миллионами долларов в 2020 году – это увеличение на 518% всего за 18 месяцев. Стоит отметить, что это только публично известное финансирование, что означает, что фактическая сумма может быть еще выше. Можно с уверенностью сказать, что фирмы невероятно инвестируют в это решение.

Если фирмы продолжат использовать искусственную базу данных без надлежащего отбора и дебиасинга, производительность их модели будет прогрессивно ухудшаться, испортив их инвестиции в ИИ. Результаты могут быть более серьезными, в зависимости от применения. Например, в здравоохранении всплеск галлюцинаций может привести к неправильным диагнозам или неправильным планам лечения, что приведет к худшим результатам для пациентов.

Решение Не Состоит в Возвращении к Реальным Данным

Системы ИИ нуждаются в миллионах, если не миллиардах, изображений, текста и видео для обучения, большая часть которых собирается из публичных веб-сайтов и компилируется в огромные, открытые наборы данных. К сожалению, алгоритмы потребляют эту информацию быстрее, чем люди могут ее генерировать. Что происходит, когда они учат все?

Бизнес-лидеры обеспокоены тем, что они столкнутся со “стеной данных” – моментом, когда вся публичная информация в Интернете будет исчерпана. Она может приближаться быстрее, чем они думают.

Хотя количество простого текста на средней веб-странице и количество пользователей Интернета увеличиваются на 2-4% в год, алгоритмы заканчиваются высококачественными данными. Только 10-40% можно использовать для обучения без ущерба для производительности. Если тенденции продолжатся, запас публичной информации, сгенерированной человеком, может закончиться к 2026 году.

Вероятно, что сектор ИИ столкнется со “стеной данных” даже раньше. Бум генеративного ИИ в последние годы усилил напряженность вокруг владения информацией и нарушения авторских прав. Больше владельцев веб-сайтов используют Robots Exclusion Protocol – стандарт, который использует файл robots.txt для блокировки веб-краулеров – или делают ясным, что их сайт недоступен.

Исследование 2024 года, опубликованное группой исследователей под руководством MIT, показало, что ограничения на набор данных Colossal Cleaned Common Crawl (C4) – крупномасштабный веб-кроул-корпус – растут. Более 28% самых активных, критических источников в C4 были полностью ограничены. Кроме того, 45% C4 теперь помечено как недоступно условиями обслуживания.

Если фирмы будут уважать эти ограничения, свежесть, релевантность и точность реальных публичных фактов будут снижаться, заставляя их полагаться на искусственные базы данных. Они могут не иметь много выбора, если суды решат, что любая альтернатива является нарушением авторских прав.

Будущее Синтетических Данных и Заллюцинаций ИИ

По мере того, как законы об авторских правах модернизируются и больше владельцев веб-сайтов скрывают свой контент от веб-краулеров, генерация искусственных баз данных станет все более популярной. Организации должны подготовиться к угрозе галлюцинаций.

Related Topics:ai hallucination synthetic data

Zac Amos

Zac Amos - это технический писатель, который фокусируется на искусственном интеллекте. Он также является редактором рубрики в ReHack, где вы можете прочитать больше его работ.