Connect with us

Монетизация исследований для обучения ИИ: риски и лучшие практики

Искусственный интеллект

Монетизация исследований для обучения ИИ: риски и лучшие практики

mm

По мере роста спроса на генеративный ИИ растет и голод за высококачественными данными для обучения этих систем. Издатели научных публикаций начали монетизировать свою исследовательскую деятельность, чтобы предоставить обучающие данные для крупных языковых моделей (LLM). Хотя это развитие создает новый поток доходов для издателей и наделяет генеративный ИИ возможностями для научных открытий, оно вызывает критические вопросы о целостности и надежности используемых исследований. Это вызывает важный вопрос: можно ли доверять наборам данных, которые продаются, и какие последствия имеет эта практика для научного сообщества и моделей генеративного ИИ?

Рост монетизированных исследовательских сделок

Крупные академические издатели, включая Wiley, Taylor & Francis и других, сообщили о значительных доходах от лицензирования своего контента технологическим компаниям, разрабатывающим генеративные модели ИИ. Например, Wiley раскрыла более 40 миллионов долларов дохода от таких сделок в этом году alone​. Эти соглашения позволяют компаниям ИИ получить доступ к разнообразным и обширным научным наборам данных, что, предположительно, улучшает качество их инструментов ИИ.

Аргументация издателей проста: лицензирование обеспечивает лучшие модели ИИ, принося пользу обществу и вознаграждая авторов роялти. Эта бизнес-модель выгодна как для технологических компаний, так и для издателей. Однако растущая тенденция монетизации научных знаний несет в себе риски, особенно когда сомнительные исследования проникают в эти наборы данных для обучения ИИ.

Тень поддельных исследований

Научное сообщество не чуждо проблемам мошеннических исследований. Исследования показывают, что многие опубликованные результаты являются ошибочными, предвзятыми или просто ненадежными. Опрос 2020 года показал, что почти половина исследователей сообщили о проблемах, таких как селективное отчетность данных или плохо спланированные полевые исследования. В 2023 году более 10 000 статей были отозваны из-за фальсифицированных или ненадежных результатов, число которых продолжает расти ежегодно. Эксперты считают, что эта цифра представляет собой верхушку айсберга, с бесчисленными сомнительными исследованиями, циркулирующими в научных базах данных​.

Кризис в основном был вызван “фабриками исследовательских работ“, тенью организаций, которые производят фальшивые исследования, часто в ответ на академическое давление в регионах, таких как Китай, Индия и Восточная Европа. Оценивается, что около 2% подач заявок в журналы во всем мире исходят от фабрик исследовательских работ. Эти фальшивые статьи могут напоминать легитимные исследования, но они наполнены вымышленными данными и безосновательными выводами. Волнительно, что такие статьи проходят через рецензирование и попадают в уважаемые журналы, компрометируя надежность научных прозрений​. Например, во время пандемии COVID-19 ошибочные исследования об ивермектине ложно предполагали его эффективность в качестве лечения, сея путаницу и задерживая эффективные общественные меры здравоохранения. Этот пример подчеркивает потенциальный вред от распространения ненадежных исследований, где ошибочные результаты могут иметь значительное влияние.

Последствия для обучения ИИ и доверия

Последствия глубоки, когда LLM обучаются на базах данных, содержащих фальшивые или низкокачественные исследования. Модели ИИ используют закономерности и отношения внутри своих обучающих данных для генерации выводов. Если входные данные повреждены, выводы могут увековечить неточности или даже усилить их. Этот риск особенно высок в областях, таких как медицина, где неправильные выводы ИИ могут иметь опасные для жизни последствия.
Кроме того, проблема угрожает общественному доверию к академии и ИИ. По мере того, как издатели продолжают заключать соглашения, они должны решать проблемы качества данных, которые продаются. Неудача в этом может нанести ущерб репутации научного сообщества и подорвать потенциальные общественные выгоды ИИ.

Обеспечение достоверных данных для ИИ

Снижение рисков ошибочных исследований, нарушающих обучение ИИ, требует совместных усилий издателей, компаний ИИ, разработчиков, исследователей и более широкого сообщества. Издатели должны улучшить процесс рецензирования, чтобы поймать ненадежные исследования до того, как они попадут в обучающие наборы данных. Предложение лучших наград для рецензентов и установление более высоких стандартов может помочь. Открытый процесс рецензирования имеет решающее значение здесь. Он приносит больше прозрачности и подотчетности, помогая построить доверие к исследованиям.
Компании ИИ должны быть более осторожными при выборе партнеров для получения исследований для обучения ИИ. Выбор издателей и журналов с хорошей репутацией за высококачественные, хорошо просмотренные исследования является ключом. В этом контексте стоит внимательно посмотреть на послужной список издателя — например, как часто они отзывают статьи или насколько они открыты в отношении своего процесса рецензирования. Быть избирательным улучшает надежность данных и строит доверие в сообществах ИИ и исследований.

Разработчики ИИ должны взять на себя ответственность за данные, которые они используют. Это означает работу с экспертами, тщательную проверку исследований и сравнение результатов из нескольких исследований. Инструменты ИИ сами по себе также могут быть разработаны для выявления подозрительных данных и снижения рисков распространения сомнительных исследований.

Прозрачность также является важным фактором. Издатели и компании ИИ должны открыто делиться подробностями о том, как используется исследование и куда идут роялти. Инструменты, такие как Отслеживатель лицензионных соглашений генеративного ИИ, показывают перспективы, но нуждаются в более широком внедрении. Исследователи также должны иметь возможность высказаться о том, как используется их работа. Политики опт-ин, такие как те, которые у Cambridge University Press, предлагают авторам контроль над их вкладом. Это строит доверие, обеспечивает справедливость и делает авторов активными участниками этого процесса.

Кроме того, открытый доступ к высококачественным исследованиям должен быть поощрен для обеспечения инклюзивности и справедливости в разработке ИИ. Правительства, некоммерческие организации и игроки отрасли могут финансировать инициативы по открытому доступу, снижая зависимость от коммерческих издателей для критически важных обучающих наборов данных. Кроме того, отрасль ИИ нуждается в четких правилах для этичного получения данных. Сосредоточившись на надежных, хорошо просмотренных исследованиях, мы можем построить лучшие инструменты ИИ, защитить научную целостность и сохранить общественное доверие к науке и технологиям.

Основная мысль

Монетизация исследований для обучения ИИ представляет как возможности, так и проблемы. Хотя лицензирование академического контента позволяет разработать более мощные модели ИИ, оно также вызывает проблемы о целостности и надежности используемых данных. Ошибочные исследования, включая те, которые из “фабрик исследовательских работ”, могут испортить обучающие наборы данных ИИ, что может привести к неточностям, которые могут подорвать общественное доверие и потенциальные выгоды ИИ. Чтобы обеспечить, что модели ИИ строятся на достоверных данных, издатели, компании ИИ и разработчики должны работать вместе, чтобы улучшить процессы рецензирования, увеличить прозрачность и отдать приоритет высококачественным, хорошо проверенным исследованиям. Делая это, мы можем защитить будущее ИИ и сохранить целостность научного сообщества.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.