Штучний Інтелект
Зростання мультимодального штучного інтелекту: чи справді ці моделі інтелектуальні?

Після успіху програм магістратури з ліцензування (LLM), індустрія штучного інтелекту (ШІ) зараз розвивається завдяки мультимодальним системам. У 2023 році ринок мультимодального ШІ досяг 1.2 мільярда доларів США, з прогнозами швидкого зростання понад 30% щорічно до 2032 року. На відміну від традиційних LLM, які обробляють лише текст, мультимодальний ШІ може одночасно обробляти текст, зображення, аудіо та відео. Наприклад, коли завантажується документ, що містить як текст, так і діаграми, мультимодальний ШІ може синтезувати інформацію з обох джерел для створення більш комплексних аналізів. Ця здатність інтегрувати кілька модальностей ближча до людського пізнання, ніж попередні системи ШІ. Хоча мультимодальний ШІ продемонстрував надзвичайний потенціал для таких галузей, як охорона здоров'я, освіта та креативні сфери, він ставить фундаментальне питання, яке ставить під сумнів наше розуміння цього розвитку: чи справді ці мультимодальні моделі осягають світ, чи вони просто реміксують кілька модальностей?
Виклик зіставлення шаблонів
Нещодавні досягнення в галузі мультимодального штучного інтелекту викликали жваві дискусії у спільноті розробників штучного інтелекту. Критики стверджують, що, незважаючи на ці досягнення, мультимодальний ШІ по суті залишається системою розпізнавання образів. Він може обробляти величезні навчальні набори даних для визначення статистичних зв'язків між різними типами вхідних та вихідних даних, але може не мати справжнього розуміння зв'язків між різними модальностями. Коли мультимодальний ШІ описує зображення, він може зіставляти візуальні образи з текстовими описами, які він бачив тисячі разів раніше, а не по-справжньому розуміти те, що він бачить. Ця перспектива зіставлення образів передбачає, що мультимодальні моделі можуть інтерполювати в межах своїх навчальних даних, але мають труднощі зі справжньою екстраполяцією або міркуваннями.
Цю точку зору підтверджують численні приклади, коли системи штучного інтелекту зазнають невдачі, що свідчить про їхні обмеження. Вони можуть правильно ідентифікувати об'єкти на незліченних зображеннях, але не розуміти основних фізичних взаємозв'язків або логічних міркувань, які були б очевидними для дитини. Вони можуть вільно генерувати текст на складні теми, але їм може бракувати справжнього розуміння основних концепцій.
Архітектура мультимодального штучного інтелекту
Щоб оцінити, чи справді мультимодальний ШІ розуміє інформацію, ми повинні дослідити, як ці системи насправді працюють. Більшість мультимодальних моделей спираються на поєднання кількох спеціалізованих унімодальних компонентів. Така архітектура розкриває важливі аспекти природи мультимодального розуміння. Ці системи не обробляють інформацію так, як це роблять люди, з інтегрованим сенсорним досвідом, який з часом формує кумулятивне розуміння. Натомість вони поєднують окремі потоки обробки, які були навчені на різних типах даних та узгоджені за допомогою різних методів.
Процес вирівнювання є критично важливим, але недосконалим. Коли мультимодальний штучний інтелект обробляє зображення та текст одночасно, він повинен знайти способи пов'язати візуальні ознаки з лінгвістичними поняттями. Цей зв'язок виникає через ознайомлення з мільйонами прикладів, а не через справжнє розуміння того, як зір та мова змістовно пов'язані.
Це піднімає фундаментальне питання: чи може цей архітектурний підхід колись призвести до справжнього розуміння, чи він завжди залишатиметься складною формою зіставлення зі зразками? Деякі дослідники стверджують, що розуміння виникає зі складності, і що достатньо розвинене зіставлення зі зразками стає невідрізним від розуміння. Інші стверджують, що справжнє розуміння вимагає чогось принципово відмінного від сучасних архітектур штучного інтелекту.
Гіпотеза реміксів
Мабуть, найточніший спосіб описати можливості мультимодального штучного інтелекту – це крізь призму реміксування. Ці системи працюють, поєднуючи існуючі елементи новими способами. Вони створюють зв'язки між типами контенту, які раніше, можливо, не були явно пов'язані. Ця здатність є потужною та цінною, але вона може не свідчити про справжнє розуміння.
Коли мультимодальний штучний інтелект створює ілюстрацію на основі текстового опису, він по суті реміксує візуальні шаблони з навчальних даних у відповідь на лінгвістичні підказки. Результат може бути креативним і несподіваним, але він є результатом складної рекомбінації, а не оригінальної думки чи розуміння.
Ця можливість реміксування пояснює як сильні сторони, так і обмеження сучасного мультимодального штучного інтелекту. Ці системи можуть створювати контент, який виглядає інноваційним, оскільки вони поєднують елементи з дуже різних областей способами, про які люди могли б навіть не подумати. Однак вони не можуть по-справжньому впроваджувати інновації поза межами шаблонів, присутніх у їхніх навчальних даних.
Гіпотеза реміксів також пояснює, чому ці системи іноді дають збій. Вони можуть генерувати авторитетний текст на теми, які вони ніколи по-справжньому не розуміли, або створювати зображення, що порушують основні фізичні закони, оскільки вони поєднують візуальні патерни без справжнього розуміння основної реальності.
Тестування меж розуміння ШІ
недавній дослідження намагався дослідити межі розуміння ШІ за допомогою різних експериментальних підходів. Цікаво, що при виконанні простих завдань моделі стандартної мови часто перевершують складніші моделі, орієнтовані на міркування. Зі зростанням складності спеціалізовані моделі міркувань отримують перевагу, генеруючи детальні розумові процеси, перш ніж дати відповідь.
Ці результати свідчать про те, що зв'язок між складністю та розумінням у ШІ не є однозначним. Прості завдання можуть добре виконуватися за допомогою зіставлення зі зразками, тоді як складніші завдання вимагають чогось ближчого до справжнього мислення. Однак навіть моделі, орієнтовані на мислення, можуть реалізовувати складне зіставлення зі зразками, а не справжнє розуміння.
Тестування розуміння мультимодальних моделей за допомогою штучного інтелекту стикається з унікальними викликами. На відміну від текстових систем, мультимодальні моделі повинні демонструвати розуміння різних типів вхідних даних одночасно. Це створює можливості для більш складного тестування, але також вносить нові складнощі в оцінку.
Один підхід передбачає тестування крос-модальних міркувань, де ШІ повинен використовувати інформацію з однієї модальності, щоб відповідати на запитання щодо іншої. Інший передбачає тестування узгодженості відповідей між різними представленнями тієї ж базової інформації. Ці тести часто виявляють прогалини в розумінні, які не очевидні в оцінках однієї модальності.
Філософські наслідки
Питання про те, чи справді мультимодальний ШІ розуміє, також пов'язане з фундаментальними філософськими питаннями щодо самої природи розуміння. Що означає щось зрозуміти? Чи є розуміння суто функціональним, чи воно вимагає суб'єктивного досвіду та свідомості?
З функціоналістської точки зору, якщо система штучного інтелекту може обробляти інформацію, робити відповідні реакції та поводитися таким чином, що демонструє розуміння, тоді можна сказати, що вона розуміє у змістовному сенсі. Внутрішні механізми мають менше значення, ніж зовнішні можливості.
Однак критики стверджують, що розуміння вимагає більше, ніж просто функціональних здібностей. Вони стверджують, що справжнє розуміння включає сенс, навмисність та ґрунтування на досвіді, чого бракує сучасним системам штучного інтелекту. Ці системи можуть ефективно маніпулювати символами, так і не зрозумівши по-справжньому, що ці символи представляють.
Питання про те, чи справді мультимодальний ШІ розуміє дані, чи просто переробляє їх, — це не просто академічна дискусія; воно має значні практичні наслідки для розробки та впровадження ШІ. Відповідь на це питання впливає на те, як нам слід використовувати мультимодальні системи ШІ, чого нам слід від них очікувати та як нам слід готуватися до їхнього майбутнього розвитку.
Практична реальність
Хоча філософські дебати щодо розуміння ШІ тривають, практична реальність полягає в тому, що мультимодальні системи ШІ вже трансформують те, як ми працюємо, створюємо та взаємодіємо з інформацією. Чи справді ці системи розуміють у філософському сенсі, може бути менш важливим, ніж їхні практичні можливості та обмеження.
Ключовим для користувачів і розробників є розуміння того, що ці системи можуть і не можуть робити в їхньому нинішньому вигляді. Вони чудово розпізнають образи, генерують контент і мають міжмодальний переклад. Їм важко з новими міркуваннями, розумінням на основі здорового глузду та підтримкою узгодженості в складних взаємодіях.
Це розуміння має допомогти нам інтегрувати мультимодальний штучний інтелект у наші робочі процеси та процеси прийняття рішень. Ці системи є потужними інструментами, які можуть розширити людські можливості, але вони можуть не підходити для завдань, що вимагають справжнього розуміння та міркування.
Bottom Line
Мультимодальні системи штучного інтелекту, попри свою вражаючу здатність обробляти та синтезувати різні типи даних, можуть насправді не «розуміти» інформацію, яку вони обробляють. Ці системи чудово розпізнають образи та реміксують контент, але їм бракує справжнього мислення та розуміння, заснованого на здоровому глузді. Ця відмінність важлива для того, як ми розробляємо, розгортаємо та взаємодіємо з цими системами. Розуміння їхніх обмежень допомагає нам використовувати їх ефективніше, уникаючи надмірної залежності від можливостей, якими вони не володіють.