Штучний загальний інтелект
Еволюція ландшафту генеративного штучного інтелекту: дослідження суміші експертів, мультимодальність та пошуки AGI

У 2023 році галузь штучного інтелекту (ШІ) значно зросла. Generative AI, який зосереджується на створенні реалістичного контенту, як-от зображень, аудіо, відео та тексту, був в авангарді цих досягнень. Такі моделі, як DALL-E 3, Stable Diffusion і ChatGPT, продемонстрували нові творчі можливості, але також викликали занепокоєння щодо етики, упередженості та неправильного використання.
Оскільки генеративний штучний інтелект продовжує розвиватися швидкими темпами, поєднання експертів (MoE), мультимодального навчання та прагнень до штучного загального інтелекту (AGI), схоже, сформує наступні межі досліджень і застосувань. Ця стаття надасть комплексний огляд поточного стану та майбутньої траєкторії генеративного ШІ, аналізуючи, як інновації, такі як Gemini від Google, і очікувані проекти, такі як Q* від OpenAI, змінюють ландшафт. Він досліджуватиме реальні наслідки в охороні здоров’я, фінансах, освіті та інших сферах, одночасно висвітлюючи нові виклики, пов’язані з якістю досліджень і узгодженням ШІ з людськими цінностями.
Випуск ChatGPT наприкінці 2022 року викликав новий ажіотаж і занепокоєння навколо штучного інтелекту, від його вражаючої майстерності природної мови до його потенціалу поширення дезінформації. Тим часом нова модель Gemini від Google демонструє суттєво покращену здатність розмовляти порівняно з попередниками, такими як LaMDA, завдяки таким досягненням, як постійна увага. За чутками такі проекти, як Q* від OpenAI, натякають на поєднання розмовного ШІ з навчанням з підкріпленням.
Ці інновації сигналізують про зміну пріоритету в бік мультимодальних, універсальних генеративних моделей. Конкуренція також продовжує загострюватись між такими компаніями, як Google, Meta, Anthropic і Cohere, які намагаються розширити кордони у відповідальній розробці ШІ.
Еволюція досліджень ШІ
У міру зростання можливостей дослідницькі тенденції та пріоритети також змінилися, часто відповідаючи технологічним етапам. Розвиток глибинного навчання відродив інтерес до нейронних мереж, тоді як обробка природної мови зросла завдяки моделям рівня ChatGPT. Тим часом увага до етики залишається постійним пріоритетом серед стрімкого прогресу.
Репозиторії препринтів, як-от arXiv, також спостерігали експоненціальне зростання кількості поданих матеріалів зі штучним інтелектом, що дозволило швидше розповсюдити інформацію, але зменшило експертну оцінку та збільшило ризик неперевірених помилок або упереджень. Взаємодія між дослідженнями та впливом реального світу залишається складною, що вимагає більш скоординованих зусиль, щоб спрямувати прогрес.
Міністерство економіки та мультимодальні системи – наступна хвиля генеративного ШІ
Щоб забезпечити більш універсальний, складний штучний інтелект у різноманітних програмах, два підходи набувають популярності – це суміш експертів (MoE) і мультимодальне навчання.
Архітектури MoE поєднують кілька спеціалізованих «експертів» нейронних мереж, оптимізованих для різних завдань або типів даних. Google Gemini використовує MoE, щоб освоїти як довгі розмови, так і стислі відповіді на запитання. MoE дозволяє обробляти ширший діапазон вхідних даних без збільшення розміру моделі.
Мультимодальні системи, такі як Google Gemini, встановлюють нові стандарти, обробляючи різноманітні модальності, окрім тексту. Однак реалізація потенціалу мультимодального штучного інтелекту вимагає подолання основних технічних перешкод і етичних проблем.
Gemini: перевизначення орієнтирів мультимодальності
Gemini — мультимодальний розмовний штучний інтелект, розроблений для розуміння зв’язків між текстом, зображеннями, аудіо та відео. Його подвійна структура кодера, крос-модальна увага та мультимодальне декодування забезпечують складне контекстне розуміння. Вважається, що Gemini перевершує системи з одним кодувальником у зв’язуванні текстових концепцій із візуальними областями. Завдяки інтеграції структурованих знань і спеціалізованого навчання Gemini перевершує своїх попередників, таких як GPT-3 і GPT-4, у:
- Широта оброблених модальностей, включаючи аудіо та відео
- Ефективність у таких тестах, як розуміння мови для багатозадачності
- Генерація коду різними мовами програмування
- Масштабованість завдяки адаптованим версіям, таким як Gemini Ultra та Nano
- Прозорість через обґрунтування результатів
Технічні перешкоди в мультимодальних системах
Реалізація надійного мультимодального штучного інтелекту потребує вирішення проблем різноманітності даних, масштабованості, оцінки та інтерпретації. Незбалансовані набори даних і невідповідності анотацій призводять до упередженості. Обробка кількох потоків даних навантажує обчислювальні ресурси, вимагаючи оптимізованої архітектури моделі. Для інтеграції суперечливих мультимодальних вхідних даних необхідні вдосконалення механізмів і алгоритмів уваги. Проблеми з масштабованістю залишаються через значні обчислювальні витрати. Уточнення метрик оцінювання за допомогою комплексних тестів має вирішальне значення. Підвищення довіри користувачів за допомогою зрозумілого ШІ також залишається життєво важливим. Усунення цих технічних перешкод стане ключовим для розблокування можливостей мультимодального ШІ.
Збірка будівельних блоків для загального штучного інтелекту
AGI представляє гіпотетичну можливість ШІ відповідати або перевищувати людський інтелект у будь-якому домені. У той час як сучасний штучний інтелект відмінно справляється з вузькими завданнями, AGI залишається далеким і суперечливим з огляду на потенційні ризики.
Однак поступовий прогрес у таких сферах, як навчання з перенесенням, навчання багатозадачності, уміння розмовляти та абстракція, наближає до високого бачення AGI. Спекулятивний проект OpenAI Q* має на меті інтегрувати навчання з підкріпленням у LLM як ще один крок вперед.
Етичні межі та ризики маніпулювання моделями ШІ
Втеча з в’язниці дозволяє зловмисникам обійти етичні межі, встановлені під час процесу тонкого налаштування ШІ. Це призводить до створення шкідливого вмісту, як-от дезінформації, ворожих висловлювань, фішингових електронних листів і зловмисного коду, що створює ризик для окремих осіб, організацій і суспільства в цілому. Наприклад, зламана модель може створювати контент, який пропагує суперечливі наративи або підтримує діяльність кіберзлочинців. (Вивчайте більше)
Хоча ще не було повідомлень про кібератаки з використанням джейлбрейка, кілька перевірених концепцій джейлбрейків доступні в Інтернеті та продаються в темній мережі. Ці інструменти надають підказки, призначені для маніпулювання такими моделями ШІ, як ChatGPT, потенційно дозволяючи хакерам витікати конфіденційну інформацію через чат-боти компанії. Поширення цих інструментів на таких платформах, як форуми кіберзлочинності, підкреслює терміновість вирішення цієї загрози. (Детальніше)
Зменшення ризиків втечі з в'язниці
Щоб протистояти цим загрозам, необхідний багатогранний підхід:
- Надійне тонке налаштування: включення різноманітних даних у процес тонкого налаштування покращує стійкість моделі до маніпуляцій з боку суперників.
- Змагальний тренінг: Навчання із застосуванням змагальних прикладів покращує здатність моделі розпізнавати маніпульовані дані та протистояти їм.
- Регулярне оцінювання: Постійний моніторинг результатів допомагає виявляти відхилення від етичних принципів.
- Людський нагляд: залучення рецензентів додає додатковий рівень безпеки.
Загрози на основі штучного інтелекту: використання галюцинацій
Галюцинації штучного інтелекту, коли моделі генерують результати, не засновані на їхніх навчальних даних, можна використати як зброю. Наприклад, зловмисники маніпулювали ChatGPT, щоб рекомендувати неіснуючі пакети, що призвело до поширення шкідливого програмного забезпечення. Це підкреслює необхідність постійної пильності та надійних контрзаходів проти такої експлуатації. (Досліджуйте далі)
Незважаючи на те, що етика пошуку AGI залишається важкою, її бажане прагнення продовжує впливати на генеративні напрямки досліджень штучного інтелекту – незалежно від того, чи нагадують нинішні моделі сходинки чи обхідні шляхи до штучного інтелекту людського рівня.