Зв'язатися з нами

Еволюція ландшафту генеративного штучного інтелекту: дослідження суміші експертів, мультимодальність та пошуки AGI

Штучний загальний інтелект

Еволюція ландшафту генеративного штучного інтелекту: дослідження суміші експертів, мультимодальність та пошуки AGI

mm

У 2023 році галузь штучного інтелекту (ШІ) значно зросла. Generative AI, який зосереджується на створенні реалістичного контенту, як-от зображень, аудіо, відео та тексту, був в авангарді цих досягнень. Такі моделі, як DALL-E 3, Stable Diffusion і ChatGPT, продемонстрували нові творчі можливості, але також викликали занепокоєння щодо етики, упередженості та неправильного використання.

Оскільки генеративний штучний інтелект продовжує розвиватися швидкими темпами, поєднання експертів (MoE), мультимодального навчання та прагнень до штучного загального інтелекту (AGI), схоже, сформує наступні межі досліджень і застосувань. Ця стаття надасть комплексний огляд поточного стану та майбутньої траєкторії генеративного ШІ, аналізуючи, як інновації, такі як Gemini від Google, і очікувані проекти, такі як Q* від OpenAI, змінюють ландшафт. Він досліджуватиме реальні наслідки в охороні здоров’я, фінансах, освіті та інших сферах, одночасно висвітлюючи нові виклики, пов’язані з якістю досліджень і узгодженням ШІ з людськими цінностями.

Випуск ChatGPT наприкінці 2022 року викликав новий ажіотаж і занепокоєння навколо штучного інтелекту, від його вражаючої майстерності природної мови до його потенціалу поширення дезінформації. Тим часом нова модель Gemini від Google демонструє суттєво покращену здатність розмовляти порівняно з попередниками, такими як LaMDA, завдяки таким досягненням, як постійна увага. За чутками такі проекти, як Q* від OpenAI, натякають на поєднання розмовного ШІ з навчанням з підкріпленням.

Ці інновації сигналізують про зміну пріоритету в бік мультимодальних, універсальних генеративних моделей. Конкуренція також продовжує загострюватись між такими компаніями, як Google, Meta, Anthropic і Cohere, які намагаються розширити кордони у відповідальній розробці ШІ.

Еволюція досліджень ШІ

У міру зростання можливостей дослідницькі тенденції та пріоритети також змінилися, часто відповідаючи технологічним етапам. Розвиток глибинного навчання відродив інтерес до нейронних мереж, тоді як обробка природної мови зросла завдяки моделям рівня ChatGPT. Тим часом увага до етики залишається постійним пріоритетом серед стрімкого прогресу.

Репозиторії препринтів, як-от arXiv, також спостерігали експоненціальне зростання кількості поданих матеріалів зі штучним інтелектом, що дозволило швидше розповсюдити інформацію, але зменшило експертну оцінку та збільшило ризик неперевірених помилок або упереджень. Взаємодія між дослідженнями та впливом реального світу залишається складною, що вимагає більш скоординованих зусиль, щоб спрямувати прогрес.

Міністерство економіки та мультимодальні системи – наступна хвиля генеративного ШІ

Щоб забезпечити більш універсальний, складний штучний інтелект у різноманітних програмах, два підходи набувають популярності – це суміш експертів (MoE) і мультимодальне навчання.

Архітектури MoE поєднують кілька спеціалізованих «експертів» нейронних мереж, оптимізованих для різних завдань або типів даних. Google Gemini використовує MoE, щоб освоїти як довгі розмови, так і стислі відповіді на запитання. MoE дозволяє обробляти ширший діапазон вхідних даних без збільшення розміру моделі.

Мультимодальні системи, такі як Google Gemini, встановлюють нові стандарти, обробляючи різноманітні модальності, окрім тексту. Однак реалізація потенціалу мультимодального штучного інтелекту вимагає подолання основних технічних перешкод і етичних проблем.

Gemini: перевизначення орієнтирів мультимодальності

Gemini — мультимодальний розмовний штучний інтелект, розроблений для розуміння зв’язків між текстом, зображеннями, аудіо та відео. Його подвійна структура кодера, крос-модальна увага та мультимодальне декодування забезпечують складне контекстне розуміння. Вважається, що Gemini перевершує системи з одним кодувальником у зв’язуванні текстових концепцій із візуальними областями. Завдяки інтеграції структурованих знань і спеціалізованого навчання Gemini перевершує своїх попередників, таких як GPT-3 і GPT-4, у:

  • Широта оброблених модальностей, включаючи аудіо та відео
  • Ефективність у таких тестах, як розуміння мови для багатозадачності
  • Генерація коду різними мовами програмування
  • Масштабованість завдяки адаптованим версіям, таким як Gemini Ultra та Nano
  • Прозорість через обґрунтування результатів

Технічні перешкоди в мультимодальних системах

Реалізація надійного мультимодального штучного інтелекту потребує вирішення проблем різноманітності даних, масштабованості, оцінки та інтерпретації. Незбалансовані набори даних і невідповідності анотацій призводять до упередженості. Обробка кількох потоків даних навантажує обчислювальні ресурси, вимагаючи оптимізованої архітектури моделі. Для інтеграції суперечливих мультимодальних вхідних даних необхідні вдосконалення механізмів і алгоритмів уваги. Проблеми з масштабованістю залишаються через значні обчислювальні витрати. Уточнення метрик оцінювання за допомогою комплексних тестів має вирішальне значення. Підвищення довіри користувачів за допомогою зрозумілого ШІ також залишається життєво важливим. Усунення цих технічних перешкод стане ключовим для розблокування можливостей мультимодального ШІ.

Передові методи навчання, такі як самоконтрольоване навчання, метанавчання та тонке налаштування, є передовими у дослідженнях ШІ, підвищуючи автономність, ефективність і універсальність моделей ШІ.

Самоконтрольоване навчання: автономія в модельному навчанні

Самоконтрольоване навчання наголошує на автономному навчанні моделі з використанням немаркованих даних, таким чином зменшуючи зусилля з маркування вручну та зміщення моделі. Він включає генеративні моделі, такі як автокодери та GAN, для навчання розподілу даних і реконструкції вхідних даних, а також використовує контрастні методи, такі як SimCLR і MoCo, щоб розрізнити пари позитивних і негативних зразків. Стратегії самопрогнозування, натхненні НЛП і вдосконалені останніми Vision Transformers, відіграють важливу роль у самоконтрольованому навчанні, демонструючи свій потенціал у розвитку можливостей автономного навчання ШІ.

Метанавчання

Метанавчання, або «навчання вчитися», зосереджується на забезпеченні моделей ШІ здатністю швидко адаптуватися до нових завдань, використовуючи обмежені вибірки даних. Ця техніка має вирішальне значення в ситуаціях з обмеженою доступністю даних, гарантуючи, що моделі можуть швидко адаптуватися та виконувати різноманітні завдання. Він наголошує на короткочасному узагальненні, що дозволяє штучному інтелекту виконувати широкий спектр завдань з мінімальними даними, підкреслюючи його важливість у розробці універсальних і адаптованих систем ШІ.

Точне налаштування: налаштування ШІ для конкретних потреб

Тонка настройка передбачає адаптацію попередньо навчених моделей до конкретних доменів або уподобань користувача. Його два основні підходи включають наскрізне тонке налаштування, яке регулює всі ваги кодера та класифікатора, і тонке налаштування вилучення функцій, де ваги кодувальника заморожуються для подальшої класифікації. Ця техніка забезпечує ефективну адаптацію генеративних моделей до конкретних потреб користувачів або вимог домену, покращуючи їхню застосовність у різних контекстах.

Вирівнювання людських цінностей: узгодження ШІ з етикою

Вирівнювання людських цінностей зосереджується на узгодженні моделей ШІ з людською етикою та цінностями, гарантуючи, що їхні рішення відображають суспільні норми та етичні стандарти. Цей аспект має вирішальне значення в сценаріях, коли штучний інтелект тісно взаємодіє з людьми, наприклад, у сфері охорони здоров’я та особистих помічників, щоб переконатися, що системи штучного інтелекту приймають рішення, які є етичними та соціально відповідальними.

Розробка AGI

AGI зосереджується на розробці штучного інтелекту з можливістю цілісного розуміння та комплексного міркування, узгодженого з когнітивними здібностями людини. Це довгострокове прагнення постійно розширює межі досліджень і розробок ШІ. AGI Safety and Containment спрямована на усунення потенційних ризиків, пов’язаних із передовими системами ШІ, наголошуючи на необхідності суворих протоколів безпеки та етичної відповідності людським цінностям і суспільним нормам.

Інноваційне МО

Архітектура моделі Mixture of Experts (MoE) представляє значний прогрес у мовних моделях на основі трансформаторів, пропонуючи неперевершену масштабованість і ефективність. Моделі MoE, такі як Switch Transformer і Mixtral, швидко переосмислюють масштаб моделі та продуктивність у різних мовних завданнях.

Основна концепція

Моделі MoE використовують керовану розрідженістю архітектуру з кількома експертними мережами та механізмом стробування, який можна навчити, оптимізуючи обчислювальні ресурси та адаптуючи до складності завдань. Вони демонструють суттєві переваги в швидкості попереднього навчання, але стикаються з проблемами в тонкому налаштуванні та потребують значної пам’яті для висновків.

Моделі MoE відомі своєю чудовою швидкістю попереднього навчання з інноваціями, такими як DeepSpeed-MoE, які оптимізують висновок для досягнення кращої затримки та економічності. Останні досягнення ефективно усунули вузьке місце зв’язку між усіма, підвищивши ефективність навчання та висновків.

Збірка будівельних блоків для загального штучного інтелекту

AGI представляє гіпотетичну можливість ШІ відповідати або перевищувати людський інтелект у будь-якому домені. У той час як сучасний штучний інтелект відмінно справляється з вузькими завданнями, AGI залишається далеким і суперечливим з огляду на потенційні ризики.

Однак поступовий прогрес у таких сферах, як навчання з перенесенням, навчання багатозадачності, уміння розмовляти та абстракція, наближає до високого бачення AGI. Спекулятивний проект OpenAI Q* має на меті інтегрувати навчання з підкріпленням у LLM як ще один крок вперед.

Етичні межі та ризики маніпулювання моделями ШІ

Втеча з в’язниці дозволяє зловмисникам обійти етичні межі, встановлені під час процесу тонкого налаштування ШІ. Це призводить до створення шкідливого вмісту, як-от дезінформації, ворожих висловлювань, фішингових електронних листів і зловмисного коду, що створює ризик для окремих осіб, організацій і суспільства в цілому. Наприклад, зламана модель може створювати контент, який пропагує суперечливі наративи або підтримує діяльність кіберзлочинців. (Вивчайте більше)

Хоча ще не було повідомлень про кібератаки з використанням джейлбрейка, кілька перевірених концепцій джейлбрейків доступні в Інтернеті та продаються в темній мережі. Ці інструменти надають підказки, призначені для маніпулювання такими моделями ШІ, як ChatGPT, потенційно дозволяючи хакерам витікати конфіденційну інформацію через чат-боти компанії. Поширення цих інструментів на таких платформах, як форуми кіберзлочинності, підкреслює терміновість вирішення цієї загрози. (Детальніше)

Зменшення ризиків втечі з в'язниці

Щоб протистояти цим загрозам, необхідний багатогранний підхід:

  1. Надійне тонке налаштування: включення різноманітних даних у процес тонкого налаштування покращує стійкість моделі до маніпуляцій з боку суперників.
  2. Змагальний тренінг: Навчання із застосуванням змагальних прикладів покращує здатність моделі розпізнавати маніпульовані дані та протистояти їм.
  3. Регулярне оцінювання: Постійний моніторинг результатів допомагає виявляти відхилення від етичних принципів.
  4. Людський нагляд: залучення рецензентів додає додатковий рівень безпеки.

Загрози на основі штучного інтелекту: використання галюцинацій

Галюцинації штучного інтелекту, коли моделі генерують результати, не засновані на їхніх навчальних даних, можна використати як зброю. Наприклад, зловмисники маніпулювали ChatGPT, щоб рекомендувати неіснуючі пакети, що призвело до поширення шкідливого програмного забезпечення. Це підкреслює необхідність постійної пильності та надійних контрзаходів проти такої експлуатації. (Досліджуйте далі)

Незважаючи на те, що етика пошуку AGI залишається важкою, її бажане прагнення продовжує впливати на генеративні напрямки досліджень штучного інтелекту – незалежно від того, чи нагадують нинішні моделі сходинки чи обхідні шляхи до штучного інтелекту людського рівня.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.