Штучний Інтелект
За межами бенчмарків: чому оцінювання ШІ потребує перевірки реальності

Якщо ви стежите за штучним інтелектом останнім часом, ви, ймовірно, бачили заголовки, що повідомляють про проривні досягнення моделей ШІ, які досягають рекордних показників. Від завдань розпізнавання зображень ImageNet до досягнення надлюдських результатів у перекладі та діагностиці медичних зображень, бенчмарки вже давно є золотим стандартом для вимірювання продуктивності ШІ. Однак, якими б вражаючими не були ці цифри, вони не завжди відображають складність реальних застосувань. Модель, яка бездоганно працює в бенчмарку, все одно може зазнати невдачі під час випробування в реальних умовах. У цій статті ми заглибимося в те, чому традиційні бенчмарки не відображають справжньої цінності ШІ, та дослідимо альтернативні методи оцінки, які краще відображають динамічні, етичні та практичні виклики розгортання ШІ в реальному світі.
Привабливість бенчмарків
Роками бенчмарки були основою оцінки ШІ. Вони пропонують статичні набори даних, призначені для вимірювання конкретних завдань, таких як розпізнавання об'єктів або машинний переклад. IMAGEnet, наприклад, є широко використовуваним еталоном для тестування класифікації об'єктів, тоді як СИНІЙ та ЧЕРВОНИЙ оцінити якість машинно-генерованого тексту, порівнюючи його з довідковими текстами, написаними людиною. Ці стандартизовані тести дозволяють дослідникам порівнювати прогрес і створювати здорову конкуренцію в цій галузі. Орієнтири відіграли ключову роль у просуванні значних досягнень у цій галузі. Наприклад, конкурс ImageNet грав відіграє вирішальну роль у революції глибокого навчання, демонструючи значні покращення точності.
Однак, бенчмарки часто спрощують реальність. Оскільки моделі ШІ зазвичай навчаються покращувати виконання одного чітко визначеного завдання за фіксованих умов, це може призвести до надмірної оптимізації. Щоб досягти високих результатів, моделі можуть спиратися на шаблони наборів даних, які не витримують перевищення бенчмарку. Відомий приклад – це модель зору, навчена розрізняти вовків від лайок. Замість того, щоб вивчати відмінні риси тварин, модель спиралася на наявність сніжного фону, який зазвичай асоціюється з вовками в навчальних даних. Як результат, коли моделі було представлено лайку на снігу, вона впевнено помилково позначила її як вовка. Це демонструє, як надмірне налаштування під еталон може призвести до помилкових моделей. Закон Гудхарта стверджує: «Коли показник стає ціллю, він перестає бути хорошим показником». Таким чином, коли показники бенчмарків стають ціллю, моделі штучного інтелекту ілюструють закон Гудхарта: вони показують вражаючі результати в таблицях лідерів, але мають труднощі з вирішенням реальних викликів.
Людські очікування проти показників метрик
Одним з найбільших обмежень бенчмарків є те, що вони часто не відображають те, що дійсно важливо для людей. Розглянемо машинний переклад. Модель може отримати високі бали за метрикою BLEU, яка вимірює перекриття між машинно-згенерованими перекладами та перекладами, що містять посилання. Хоча метрика може оцінити, наскільки правдоподібним є переклад з точки зору перекриття на рівні слів, вона не враховує плавність перекладу чи значення. Переклад може отримати низькі бали, незважаючи на те, що він більш природний або навіть точніший, просто тому, що в ньому використовується формулювання, відмінне від посилання. Однак користувачі-люди дбають про значення та плавність перекладів, а не лише про точну відповідність посиланням. Та сама проблема стосується й реферування тексту: високий бал ROUGE не гарантує, що реферат є зв'язним або фіксує ключові моменти, яких очікує читач-людина.
Для генеративних моделей штучного інтелекту це питання стає ще складнішим. Наприклад, моделі великих мов програмування (LLM) зазвичай оцінюються за допомогою бенчмарку. MMLU щоб перевірити їхню здатність відповідати на запитання з кількох предметних областей. Хоча бенчмарк може допомогти перевірити ефективність LLM для відповідей на запитання, він не гарантує надійності. Ці моделі все ще можуть «галюцинація«», що представляють хибні, але правдоподібні факти. Цей розрив нелегко виявити за допомогою контрольних показників, які зосереджені на правильних відповідях без оцінки правдивості, контексту чи узгодженості. В одному широко розрекламованому випадок, помічник зі штучним інтелектом, якого використовували для складання юридичного резюме, посилався на цілком фальшиві судові справи. Штучний інтелект може виглядати переконливо на папері, але не виправдав основних людських очікувань щодо правдивості.
Проблеми статичних бенчмарків у динамічних контекстах
-
Адаптація до мінливого середовища
Статичні бенчмарки оцінюють продуктивність ШІ в контрольованих умовах, але реальні сценарії непередбачувані. Наприклад, розмовний ШІ може досягати успіху в сценарних питаннях з одним поворотом у бенчмарку, але мати труднощі в багатоетапному діалозі, який включає подальші дії, сленг або друкарські помилки. Аналогічно, безпілотні автомобілі часто добре показують себе в тестах на виявлення об'єктів за ідеальних умов, але невдача за незвичайних обставин, таких як погане освітлення, несприятлива погода або неочікувані перешкоди. Наприклад, знак зупинки, змінений наліпками, може збентежений система зору автомобіля, що призводить до неправильної інтерпретації. Ці приклади показують, що статичні контрольні показники не є надійними для вимірювання складності реального світу.
-
Етичні та соціальні міркування
Традиційні бенчмарки часто не в змозі оцінити етичну ефективність ШІ. Модель розпізнавання зображень може досягти високої точності, але невірно ідентифікувати осіб з певних етнічних груп через упереджені дані навчання. Так само мовні моделі можуть отримувати високі оцінки за граматику та швидкість мовлення, водночас створюючи упереджений або шкідливий контент. Ці проблеми, які не відображаються в показниках бенчмарків, мають значні наслідки в реальних застосуваннях.
-
Неможливість вловити нюансовані аспекти
Бенчмарки чудово підходять для перевірки поверхневих навичок, наприклад, чи може модель генерувати граматично правильний текст або реалістичне зображення. Але вони часто мають проблеми з глибшими якостями, такими як здоровий глузд або контекстуальна доречність. Наприклад, модель може досягти успіху в бенчмарку, створивши ідеальне речення, але якщо це речення фактично неправильне, вона марна. Штучний інтелект повинен розуміти коли та як сказати щось, а не просто що сказати. Бенчмарки рідко перевіряють такий рівень інтелекту, який є критично важливим для таких програм, як чат-боти або створення контенту.
-
Контекстуальна адаптація
Моделі штучного інтелекту часто мають труднощі з адаптацією до нових контекстів, особливо коли стикаються з даними поза межами навчального набору. Бенчмарки зазвичай розробляються з даними, подібними до тих, на яких навчалася модель. Це означає, що вони не повністю перевіряють, наскільки добре модель може обробляти нові або неочікувані вхідні дані — критична вимога в реальних застосунках. Наприклад, чат-бот може перевершити тестові запитання, але мати труднощі, коли користувачі ставлять нерелевантні речі, такі як сленг або нішеві теми.
-
Міркування та умовивід
Хоча бенчмарки можуть вимірювати розпізнавання образів або генерацію контенту, вони часто не відповідають вимогам вищого рівня міркування та висновків. Штучному інтелекту потрібно робити більше, ніж просто імітувати образи. Він повинен розуміти наслідки, встановлювати логічні зв'язки та робити висновки з нової інформації. Наприклад, модель може генерувати фактично правильну відповідь, але не пов'язувати її логічно з ширшою розмовою. Поточні бенчмарки можуть не повністю враховувати ці розширені когнітивні навички, залишаючи нам неповне уявлення про можливості ШІ.
За межами бенчмарків: новий підхід до оцінювання ШІ
Щоб подолати розрив між показниками, встановленими за показниками, та успіхом у реальному світі, з'являється новий підхід до оцінки ШІ. Ось деякі стратегії, що набирають обертів:
- Зворотній зв'язок від людини: Замість того, щоб покладатися виключно на автоматизовані показники, залучіть до процесу оцінювачів-людей. Це може означати, що експерти або кінцеві користувачі оцінюватимуть результати ШІ на предмет якості, корисності та доречності. Люди можуть краще оцінювати такі аспекти, як тон, релевантність та етичні міркування, порівняно з контрольними показниками.
- Тестування розгортання в реальних умовах: Системи штучного інтелекту слід тестувати в середовищах, максимально наближених до реальних. Наприклад, безпілотні автомобілі можна було б випробувати на змодельованих дорогах з непередбачуваними дорожніми умовами, тоді як чат-боти можна було б використовувати в реальних умовах для обробки різноманітних розмов. Це гарантує, що моделі будуть оцінені в умовах, з якими вони фактично зіткнуться.
- Тестування на стійкість та стрес: Вкрай важливо тестувати системи штучного інтелекту в незвичайних або суперечливих умовах. Це може включати тестування моделі розпізнавання зображень зі спотвореними або зашумленими зображеннями або оцінку мовної моделі з довгими, складними діалогами. Розуміючи, як ШІ поводиться в стресових ситуаціях, ми можемо краще підготувати його до реальних викликів.
- Багатовимірні показники оцінювання: Замість того, щоб покладатися на один бенчмарк, оцінюйте ШІ за низкою показників, включаючи точність, справедливість, надійність та етичні міркування. Такий цілісний підхід забезпечує більш повне розуміння сильних та слабких сторін моделі ШІ.
- Тести, специфічні для предметної області: Оцінювання слід адаптувати до конкретної сфери, в якій буде розгортатися ШІ. Наприклад, медичний ШІ слід тестувати на тематичних дослідженнях, розроблених медичними фахівцями, тоді як ШІ для фінансових ринків слід оцінювати на предмет його стабільності під час економічних коливань.
Bottom Line
Хоча бенчмарки мають передові дослідження в галузі штучного інтелекту, вони не враховують реальну продуктивність. Оскільки штучний інтелект переходить з лабораторій до практичних застосувань, оцінювання штучного інтелекту має бути орієнтованим на людину та цілісним. Тестування в реальних умовах, врахування відгуків людей та пріоритетність справедливості та надійності є критично важливими. Мета полягає не в тому, щоб очолити таблиці лідерів, а в розробці штучного інтелекту, який є надійним, адаптивним та цінним у динамічному, складному світі.