Зв'язатися з нами

Монетизація досліджень для навчання ШІ: ризики та найкращі практики

Штучний Інтелект

Монетизація досліджень для навчання ШІ: ризики та найкращі практики

mm

опублікований

 on

Із зростанням попиту на генеративний штучний інтелект зростає потреба у високоякісних даних для навчання цих систем. Наукові видавці почали монетизувати свій дослідницький контент, щоб надавати навчальні дані для великих мовних моделей (LLM). Незважаючи на те, що ця розробка створює новий потік доходу для видавців і розширює можливості генеративного штучного інтелекту для наукових відкриттів, вона піднімає критичні питання щодо цілісності та надійності використаних досліджень. У зв’язку з цим виникає важливе запитання: чи надійні набори даних, що продаються, і які наслідки ця практика має для наукової спільноти та генеративних моделей ШІ?

Зростання монетизованих дослідницьких угод

Великі академічні видавництва, зокрема Wiley, Taylor & Francis та інші повідомляє значні доходи від ліцензування свого контенту технологічним компаніям, які розробляють генеративні моделі ШІ. Наприклад, тільки цього року Wiley оприлюднив понад 40 мільйонів доларів прибутку від таких угод. Ці угоди дають компаніям, які займаються штучним інтелектом, доступ до різноманітних і великих наборів наукових даних, імовірно покращуючи якість своїх інструментів штучного інтелекту.

Пропозиція від видавців проста: ліцензування забезпечує кращі моделі штучного інтелекту, приносячи користь суспільству, водночас винагороджуючи авторів роялті. Ця бізнес-модель вигідна як технологічним компаніям, так і видавцям. Однак зростаюча тенденція до монетизації наукових знань має ризики, головним чином, коли сумнівні дослідження проникають у ці навчальні набори даних ШІ.

Тінь фальшивих досліджень

Науковій спільноті не чужі проблеми шахрайських досліджень. Дослідження показують, що багато опублікованих висновків є помилковими, упередженими або просто ненадійними. Опитування 2020 року показало, що майже половина дослідників повідомили про такі проблеми, як вибіркове звітування даних або погано сплановані польові дослідження. У 2023 році понад 10,000 папери були відкликані через фальсифіковані або недостовірні результати, кількість яких продовжує зростати щорічно. Експерти вважають, що ця цифра є вершиною айсберга, оскільки в наукових базах даних циркулює незліченна кількість сумнівних досліджень.

Основною причиною кризи є «паперові фабрики”, тіньові організації, які створюють сфабриковані дослідження, часто у відповідь на академічний тиск у таких регіонах, як Китай, Індія та Східна Європа. Підраховано, що близько 2% журналів у всьому світі надходять з паперових фабрик. Ці фіктивні документи можуть нагадувати законне дослідження, але вони пронизані фіктивними даними та безпідставними висновками. Викликає занепокоєння те, що такі статті проходять через рецензування та потрапляють у авторитетні журнали, що ставить під загрозу надійність наукових висновків. Наприклад, під час пандемії COVID-19, помилкові дослідження щодо івермектину помилково припустили його ефективність як лікування, сіючи плутанину та затримуючи ефективні заходи охорони здоров’я. Цей приклад підкреслює потенційну шкоду від поширення ненадійних досліджень, де помилкові результати можуть мати значний вплив.

Наслідки для навчання ШІ та довіри

Наслідки глибокі, коли LLM навчаються на базах даних, що містять шахрайські або низькоякісні дослідження. Моделі штучного інтелекту використовують шаблони та зв’язки в своїх навчальних даних для отримання результатів. Якщо вхідні дані пошкоджені, вихідні дані можуть зберегти неточності або навіть посилити їх. Цей ризик особливо високий у таких галузях, як медицина, де неправильні висновки, отримані ШІ, можуть мати небезпечні для життя наслідки.
Крім того, ця проблема ставить під загрозу довіру громадськості до наукових кіл та ШІ. Оскільки видавці продовжують укладати угоди, вони повинні вирішити проблеми щодо якості даних, що продаються. Якщо цього не зробити, це може завдати шкоди репутації наукового співтовариства та підірвати потенційні переваги ШІ для суспільства.

Забезпечення надійних даних для ШІ

Зменшення ризиків помилкових досліджень, які перешкоджають навчанню ШІ, вимагає спільних зусиль видавців, компаній ШІ, розробників, дослідників і ширшої спільноти. Видавці повинні вдосконалити процес рецензування, щоб виявляти ненадійні дослідження, перш ніж вони потраплять у навчальні набори даних. Пропонування кращих винагород рецензентам і встановлення вищих стандартів може допомогти. Тут критично важливий відкритий процес перевірки. Це забезпечує більшу прозорість і підзвітність, допомагаючи зміцнити довіру до досліджень.
Компанії зі штучним інтелектом повинні бути більш обережними щодо того, з ким вони працюють, коли шукають дослідження для навчання ШІ. Вибір видавців і журналів з хорошою репутацією високоякісних досліджень із хорошими рецензіями є ключовим. У цьому контексті варто уважно подивитися на послужний список видавця, наприклад, як часто вони відкликають документи чи наскільки вони відкриті щодо процесу рецензування. Вибірковість покращує надійність даних і зміцнює довіру між ШІ та дослідницькими спільнотами.

Розробники ШІ повинні нести відповідальність за дані, які вони використовують. Це означає роботу з експертами, ретельну перевірку досліджень і порівняння результатів кількох досліджень. Самі інструменти ШІ також можуть бути розроблені для виявлення підозрілих даних і зниження ризиків подальшого поширення сумнівних досліджень.

Прозорість також є важливим фактором. Видавці та компанії штучного інтелекту повинні відкрито ділитися подробицями про те, як використовуються дослідження та куди йдуть роялті. Такі інструменти, як Відстеження ліцензійної угоди Generative AI обіцяють, але потребують ширшого впровадження. Дослідники також мають вирішувати, як використовується їхня робота. Політика згоди, як ті з Cambridge University Press, пропонують авторам контролювати їхні внески. Це створює довіру, забезпечує справедливість і змушує авторів активно брати участь у цьому процесі.

Крім того, слід заохочувати відкритий доступ до високоякісних досліджень інклюзивність і справедливість у розробці ШІ. Уряди, некомерційні організації та учасники галузі можуть фінансувати ініціативи відкритого доступу, зменшуючи залежність від комерційних видавців для критичних навчальних наборів даних. Крім того, галузь штучного інтелекту потребує чітких правил для етичних джерел отримання даних. Зосереджуючись на надійних, ретельно перевірених дослідженнях, ми можемо створювати кращі інструменти штучного інтелекту, захищати наукову цілісність і підтримувати довіру громадськості до науки та технологій.

Bottom Line

Монетизація досліджень для навчання ШІ створює як можливості, так і проблеми. Хоча ліцензування академічного контенту дозволяє розробляти більш потужні моделі ШІ, це також викликає занепокоєння щодо цілісності та надійності використовуваних даних. Помилки досліджень, у тому числі на «паперових фабриках», можуть зіпсувати навчальні набори даних штучного інтелекту, що призведе до неточностей, які можуть підірвати довіру суспільства та потенційні переваги ШІ. Щоб переконатися, що моделі штучного інтелекту побудовані на надійних даних, видавці, компанії штучного інтелекту та розробники повинні працювати разом, щоб покращити процеси експертної оцінки, підвищити прозорість і віддати пріоритет високоякісним, добре перевіреним дослідженням. Роблячи це, ми можемо захистити майбутнє штучного інтелекту та підтримувати цілісність наукової спільноти.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.