AGI
Еволюційний ландшафт генеративного ІІ: огляд суміші експертів, мультимодальності та пошуку AGI

Область штучного інтелекту (ІІ) пережила значний рост у 2023 році. Генеративний ІІ, який зосереджується на створенні реалістичного контенту, такого як зображення, аудіо, відео та текст, був на передньому плані цих досягнень. Моделі, такі як DALL-E 3, Stable Diffusion і ChatGPT, продемонстрували нові творчі можливості, але також викликали занепокоєння щодо етики, упереджень та зловживання.
Поскольку генеративний ІІ продовжує розвиватися швидкими темпами, суміші експертів (MoE), мультимодальна навчання та прагнення до штучного загального інтелекту (AGI) виглядають як майбутні напрямки досліджень та застосувань. Ця стаття надасть комплексний огляд поточного стану та майбутньої траєкторії генеративного ІІ, аналізуючи, як інновації, такі як Google’s Gemini та очікувані проекти, такі як OpenAI’s Q*, трансформують ландшафт. Вона буде вивчати реальні наслідки в галузі охорони здоров’я, фінансів, освіти та інших областей, а також висвітлювати нові виклики щодо якості досліджень та узгодженості ІІ з людськими цінностями.
Випуск ChatGPT у кінці 2022 року особливо викликав оживлені дискусії та занепокоєння щодо ІІ, від його вражаючих можливостей обробки природної мови до його потенціалу поширення дезінформації. Тоді як нова модель Google’s Gemini демонструє суттєво покращену здатність до розмови порівняно з попередниками, такими як LaMDA, завдяки вдосконаленням, таким як спайк-і-слаб-увага. Проекти, такі як OpenAI’s Q*, намітили шлях до поєднання розмовного ІІ з навчання з підкріпленням.
Ці інновації сигналізують про зміщення пріоритетів до мультимодальних, універсальних генеративних моделей. Конкуренція також продовжує загострюватися між компаніями, такими як Google, Meta, Anthropic і Cohere, які змагаються за розширення меж відповідального розвитку ІІ.
Еволюція досліджень ІІ
Поскольку можливості зростали, змінилися також тенденції та пріоритети досліджень, часто співпадаючи з технологічними віхами. Підйом глибокого навчання знову викликав інтерес до нейронних мереж, тоді як обробка природної мови пережила підйом із моделями рівня ChatGPT. Тоді як увага до етики залишається постійним пріоритетом серед швидкого прогресу.
Репозиторії попередніх публікацій, такі як arXiv, також побачили експоненційний рост кількості публікацій ІІ, що дозволяє швидше поширення, але зменшує рецензування та збільшує ризик неперевірених помилок чи упереджень. Взаємодія між дослідженнями та реальним впливом залишається складною, що вимагає більш координованих зусиль для керування прогресом.
MoE та мультимодальні системи – наступна хвиля генеративного ІІ
Для забезпечення більш універсального, складного ІІ у різних застосунках два підходи, які набувають популярності, – це суміші експертів (MoE) та мультимодальна навчання.
Архітектури MoE поєднують кілька спеціалізованих нейронних мереж-експертів, оптимізованих для різних завдань чи типів даних. Google’s Gemini використовує MoE для освоєння як тривалих розмовних обмінів, так і лаконічного відповідання на питання. MoE дозволяє обробляти ширший діапазон входів без збільшення розміру моделі.
Мультимодальні системи, такі як Google’s Gemini, встановлюють нові стандарти, обробляючи різноманітні модальності за межами простого тексту. Однак реалізації потенціалу мультимодального ІІ вимагає подолання ключових технічних перешкод та етичних викликів.
Gemini: перегляд стандартів у мультимодальності
Gemini – це мультимодальна розмовна ІІ, розроблена для розуміння зв’язків між текстом, зображеннями, аудіо та відео. Її двійкова структура кодувача, міжмодальна увага та мультимодальне декодування дозволяють складне контекстне розуміння. Gemini, як вважають, перевершує системи з одним кодувачем у асоціації текстових концепцій з візуальними регіонами. Інтегруючи структуроване знання та спеціалізовану підготовку, Gemini перевершує попередників, таких як GPT-3 і GPT-4, у:
- Ширині модальностей, оброблюваних, включаючи аудіо та відео
- Виконанні на стандартах, таких як масове багатозадачне розуміння мови
- Генерації коду у різних мовах програмування
- Масштабованості за допомогою спеціалізованих версій, таких як Gemini Ultra і Nano
- Прозорості через обґрунтування виведень
Технічні перешкоди у мультимодальних системах
Реалізація надійної мультимодальної ІІ вимагає вирішення питань різноманітності даних, масштабованості, оцінки та інтерпретації. Несбалансовані набори даних та несумісності анотацій призводять до упереджень. Обробка кількох потоків даних навантажує обчислювальні ресурси, вимагаючи оптимізованих архітектур моделей. Потрібні вдосконалення механізмів уваги та алгоритмів для інтеграції суперечливих мультимодальних входів. Проблеми масштабованості зберігаються через великий обчислювальний наклад. Удосконалення метрик оцінки через комплексні стандарти є важливим. Покращення довіри користувачів через пояснювальну ІІ також залишається важливим. Подолання цих технічних перешкод буде ключем до розблокування можливостей мультимодальної ІІ.
Видані техніки навчання, такі як самообучення, метаобучення та налаштування, знаходяться на передньому плані досліджень ІІ, підвищуючи автономність, ефективність та універсальність моделей ІІ.
Самообучення: автономність у навчанні моделей
Самообучення підкреслює автономне навчання моделей за допомогою необроблених даних, тим самим зменшуючи зусилля з ручної маркування та упередження моделей. Воно включає генеративні моделі, такі як автоенкодери та GAN, для навчання розподілу даних та реконструкції входів, а також використовує контрастні методи, такі як SimCLR та MoCo, для розрізнення позитивних та негативних пар зразків. Стратегії самопередбачення, натхнені NLP та вдосконалені останнім часом Візуальними Трансформерами, відіграють значну роль у самообученні, демонструючи свій потенціал у підвищенні автономних можливостей навчання ІІ.
Метаобучення
Метаобучення, або “навчання навчанню”, зосереджується на наділі моделей ІІ здатністю швидко адаптуватися до нових завдань за допомогою обмежених даних. Цей підхід критичний у ситуаціях з обмеженою доступністю даних, забезпечуючи можливість моделям швидко адаптуватися та виконувати завдання у різних контекстах. Воно підкреслює узагальнення з декількома зразками, дозволяючи ІІ обробляти широкий спектр завдань з мінімальними даними, підкреслюючи його значення у розробці універсальних та адаптивних систем ІІ.
Налаштування: налаштування ІІ для конкретних потреб
Налаштування включає адаптацію попередньо навчених моделей до конкретних доменів або потреб користувачів. Воно включає два основних підходи: повне налаштування, яке регулює всі ваги кодувача та класифікатора, та налаштування витягування функцій, де ваги кодувача заморожені для подальшої класифікації. Цей підхід забезпечує ефективну адаптацію генеративних моделей до конкретних потреб користувачів або вимог домену, підвищуючи їхню придатність у різних контекстах.
Узгодження з людськими цінностями: гармонізування ІІ з етикою
Узгодження з людськими цінностями зосереджується на узгодженні моделей ІІ з людською етикою та цінностями, забезпечуючи, щоб їхні рішення відображали суспільні норми та етичні стандарти. Цей аспект критичний у сценаріях, де ІІ взаємодіє тісно з людьми, таких як у сфері охорони здоров’я та персональних помічників, для забезпечення того, щоб системи ІІ приймали рішення, які є етично та соціально відповідальними.
Розробка AGI
AGI зосереджується на розробці ІІ з можливістю повного розуміння та складного мислення, узгодженого з людськими когнітивними здібностями. Ця довгострокова амбіція продовжує стимулювати дослідження та розвиток ІІ. Безпека та утримання AGI звертають увагу на потенційні ризики, пов’язані з просунутими системами ІІ, підкреслюючи необхідність суворих протоколів безпеки та узгодження з людськими цінностями та суспільними нормами.
Інноваційний MoE
Архітектура моделі суміші експертів (MoE) представляє значний прогрес у трансформерних моделях мови, пропонуючи неперевершену масштабованість та ефективність. Моделі MoE, такі як Switch Transformer та Mixtral, швидко переозначають масштаб та продуктивність моделей у різних мовних завданнях.
Ключова концепція
Моделі MoE використовують архітектуру, керовану розрідженістю, з кількома мережами експертів та навчуваним механізмом управління, оптимізуючи обчислювальні ресурси та адаптуючись до складності завдань. Вони демонструють суттєві переваги у швидкості попереднього навчання, але стикаються з викликами у налаштуванні та вимагають значної пам’яті для висновку.
Моделі MoE відомі своєю вищою швидкістю попереднього навчання, з інноваціями, такими як DeepSpeed-MoE, які оптимізують висновок для досягнення кращої затримки та ефективності витрат. Останні досягнення ефективно подолали бутылку всіх до всіх комунікацій, підвищуючи ефективність навчання та висновку.
Збирання будівельних блоків для штучного загального інтелекту
AGI представляє гіпотетичну можливість ІІ, яка дорівнює або перевершує людський інтелект у будь-якій галузі. Хоча сучасний ІІ excels у вузьких завданнях, AGI залишається далеким та суперечливим через потенційні ризики.
Однак інкрементні досягнення у таких областях, як переносне навчання, багатозадачне навчання, розмовна здатність та абстракція, поступово наближаються до високої мети AGI. Спекулятивний проект OpenAI’s Q* спрямований на інтеграцію навчання з підкріпленням у великі мови моделі як ще один крок вперед.
Етичні межі та ризики маніпулювання моделями ІІ
Jailbreaks дозволяють атакувальникам обходити етичні межі, встановлені під час процесу налаштування ІІ. Це призводить до генерації шкідливого контенту, такого як дезінформація, ненависть, фішинг-повідомлення та шкідливий код, що загрожує особам, організаціям та суспільству в цілому. Наприклад, зламана модель могла б генерувати контент, який пропагує роз’єднуючі нарративи або підтримує кіберзлочинну діяльність. (Дізнайтеся більше)
Хоча ще не було зареєстровано жодної кібератаки з використанням jailbreak, кілька концепцій jailbreak легко доступні в Інтернеті та на темному сайті і продаються. Ці інструменти забезпечують промпти, розроблені для маніпулювання моделями ІІ, такими як ChatGPT, потенційно дозволяючи хакерам витягувати конфіденційну інформацію через корпоративні чат-боти. Поширення цих інструментів на платформах, таких як кіберзлочинні форуми, підкреслює терміновість вирішення цієї загрози. (Прочитайте більше)
Мінімізація ризиків jailbreak
Для протидії цим загрозам необхідний багаторівневий підхід:
- Надійне налаштування: Включення різноманітних даних у процес налаштування покращує стійкість моделі до маніпулятивних атак.
- Адверсативне навчання: Навчання з адверсативними прикладами підвищує здатність моделі визнавати та опиратися маніпульованим входам.
- Регулярна оцінка: Постійний моніторинг виведень допомагає виявити відхилення від етичних керівних принципів.
- Нагляд людини: Включення людських рецензентів додає додатковий рівень безпеки.
Загрози, підтримувані ІІ: експлуатація галюцинації
Галюцинація ІІ, коли моделі генерують виведи, не засновані на їхніх навчальних даних, можуть бути зброєні. Наприклад, атакувальники маніпулювали ChatGPT, щоб рекомендувати неіснуючі пакети, що призвело до поширення шкідливого програмного забезпечення. Це підкреслює необхідність постійного нагляду та надійного протидії таким експлуатаціям. (Дізнайтеся більше)












