Искусственный интеллект
Модели генеративного письма на основе ИИ часто «копируют и вставляют» исходные данные

Американскому драматургу и предпринимателю Уилсону Мизнеру часто цитируют его высказывание: «Когда вы крадете у одного автора, это плагиат; если вы крадете у многих, это исследование».
Точно так же предположение о Новое поколение систем творческого письма на основе ИИ заключается в том, что огромное количество данных скормленных им на этапе обучения, привели к подлинному абстракция концепций и идей высокого уровня; что эти системы имеют в своем распоряжении концентрированную мудрость тысяч авторов, на основе которой ИИ может создавать инновационные и оригинальные тексты; и что те, кто использует такие системы, могут быть уверены, что они не занимаются непреднамеренным плагиатом через посредника.
Это предположение оспаривается в новой статье исследовательского консорциума (включая исследовательские подразделения ИИ Facebook и Microsoft), который обнаружил, что модели машинного обучения, генерирующие языковые модели, такие как серия GPT «иногда копируйте даже очень длинные отрывки» в их предположительно оригинальный результат, без указания авторства.
Авторы отмечают, что в некоторых случаях GPT-2 будет дублировать более 1,000 слов из обучающего набора в своих выходных данных.
Команда статье называется Насколько языковые модели копируют данные обучения? Оценка лингвистической новизны при генерации текста с помощью RAVEN, и является результатом сотрудничества между Университетом Джона Хопкинса, Microsoft Research, Нью-Йоркским университетом и Facebook AI Research.
RAVEN
В исследовании используется новый подход под названием RAVEN (RAtingVERbalNovelty), аббревиатура, которая была забавно вымучена, чтобы отобразить птичьего злодея из классического стихотворения:
Эта аббревиатура относится к «Ворону» Эдгара Аллана По, в котором рассказчик встречает таинственного ворона, который постоянно кричит: «Никогда больше!» Рассказчик не может сказать, просто ли ворон повторяет то, что он услышал от человека, или же он строит свои собственные высказывания (возможно, комбинируя “никогда не научится делать” и больше) — та же самая базовая двусмысленность, которую рассматривает наша статья.
Результаты новой статьи получены на фоне стремительного роста популярности систем ИИ для написания контента, стремящихся заменить «простые» задачи редактирования и даже создавать полноценный контент. Одна из таких систем получил $ 21 миллионов в серии финансирования в начале этой недели.
Исследователи отмечают, что 'GPT-2 иногда дублирует тренировочные отрывки, которые более 1,000 слов." (выделено ими), и что генеративные языковые системы распространяют лингвистические ошибки в исходных данных.
Языковыми моделями, изучаемыми в RAVEN, были выпуски серии GPT до GPT-2 (у авторов в то время не было доступа к GPT-3), Transformer, Transformer-XL и LSTM.
Новинка
В документе отмечается, что GPT-2 использует перегибы в стиле Буша 2, такие как «Швейцарский», и производные, такие как «ИКЕА-ность», создавая такие новые слова (они не появляются в данных обучения GPT-2) на лингвистических принципах, полученных из пространств более высоких измерений, установленных во время обучения.
Результаты также показывают, что «74% предложений, сгенерированных Transformer-XL, имеют синтаксическую структуру, которой нет ни в одном обучающем предложении», что, как утверждают авторы, указывает на то, «Нейронные языковые модели не просто запоминают; вместо этого они используют продуктивные процессы, которые позволяют им комбинировать знакомые части новыми способами».
Так что технически обобщение и абстракция должен производить инновационный и новый текст.
Дублирование данных может быть проблемой
В статье выдвигается теория о том, что длинные и дословные цитаты, создаваемые системами генерации естественного языка (NLG), могут быть целиком «встроены» в модель ИИ, поскольку исходный текст многократно повторяется в наборах данных, которые не были должным образом дедуплицированы.
Хотя еще один исследовательский проект обнаружил, что полное дублирование текста может произойти, даже если исходный текст только появляется консолидировать в наборе данных авторы отмечают, что проект имеет концептуальную архитектуру, отличную от обычных систем искусственного интеллекта, генерирующих контент.
Авторы также отмечают, что изменение компонента декодирования в системах генерации языков может повысить новизну, но в тестах обнаружено, что это происходит за счет качества вывода.
Дальнейшие проблемы возникают по мере того, как наборы данных, которые подпитывают алгоритмы генерации контента, становятся все больше. Помимо усугубления проблем, связанных с доступностью и жизнеспособностью предварительной обработки данных, а также обеспечением качества и дедупликацией данных, остается много основных ошибок в исходных данных, которые затем распространяются в контенте, выводимом ИИ.
Авторы отмечают*:
«Недавнее увеличение размеров тренировочных наборов делает особенно важной проверку на новизну, потому что масштабы этих тренировочных наборов могут сломать наши интуитивные представления о том, что можно ожидать естественным образом. Например, некоторые заметные работы в язык приобретение основан на предположении, что правильные формы прошедшего времени неправильных глаголов (например, стал, научился) не появляются в опыте учащегося, поэтому, если учащийся произносит такие слова, они должны быть новыми для учащегося.
«Однако оказывается, что для всех 92 основных неправильных глаголов английского языка в обучающем наборе GPT-2 встречается неправильная правильная форма».
Требуется дополнительная обработка данных
В статье утверждается, что необходимо уделять больше внимания новизне при формулировании систем генеративного языка, уделяя особое внимание обеспечению того, чтобы «скрытая» тестовая часть данных (часть исходных данных, которая отводится для проверки того, насколько хорошо окончательный алгоритм оценил основной массив обученных данных) соответствовала задаче.
«В машинном обучении критически важно оценивать модели на скрытом тестовом наборе. В связи с открытым характером генерации текста, сгенерированный моделью текст может быть скопирован из обучающего набора, и в этом случае он не будет скрыт, поэтому использование этих данных для оценки модели (например, на предмет связности или грамматической правильности) некорректно».
Авторы также утверждают, что при создании языковых моделей требуется больше внимания из-за Эффект Элизысиндром, выявленный в 1966 г. «восприимчивость людей к чтению гораздо большего понимания, чем это оправдано, в строках символов — особенно слов — связанных вместе компьютерами».
* Мое преобразование встроенных цитат в гиперссылки












