Connect with us

AlphaEvolve: Новаторський крок Google DeepMind до AGI

AGI

AlphaEvolve: Новаторський крок Google DeepMind до AGI

mm

Google DeepMind представив AlphaEvolve, еволюційний агент кодування, призначений для автономного відкриття нових алгоритмів та наукових рішень. Представлений у статті під назвою AlphaEvolve: Агент кодування для наукових та алгоритмічних відкриттів,” цей дослід представляє фундаментальний крок до штучного загального інтелекту (AGI) та навіть штучного суперінтелекту (ASI). Натомість ніж покладатися на статичне тонке налаштування або набори даних, позначені людиною, AlphaEvolve вибирає зовсім інший шлях – один, який центрується на автономній творчості, алгоритмічній інновації та безперервному самоз удосконаленні.

На серці AlphaEvolve лежить самодостатній еволюційний трубопровід, що працює на великих мовних моделях (LLM). Цей трубопровід не тільки генерує вивід – він мутує, оцінює, вибирає та поліпшує код протягом поколінь. AlphaEvolve починається з початкової програми та ітеративно розвиває її, вводячи ретельно структуровані зміни.

Ці зміни приймають форму LLM-генерованих змін – змін коду, запропонованих мовною моделлю на основі попередніх прикладів та явних інструкцій. “Зміна” у програмуванні відноситься до різниці між двома версіями файлу, зазвичай виділяючи рядки, які потрібно видалити або замінити, та нові рядки, які потрібно додати. У AlphaEvolve LLM генерує ці зміни, аналізуючи поточну програму та пропонуючи маленькі редагування – додавання функції, оптимізацію циклу або зміну гіперпараметра – на основі підказки, яка включає метрики продуктивності та попередні успішні редагування.

Кожна змінена програма потім тестується за допомогою автоматизованих оцінювачів, адаптованих до завдання. Найбільш ефективні кандидати зберігаються, посилаються та рекомбінуються як джерело натхнення для майбутніх ітерацій. З часом цей еволюційний цикл призводить до появи дедалі більш складних алгоритмів – часто перевершуючи ті, які були розроблені людськими експертами.

Поняття науки за AlphaEvolve

У своїй основі AlphaEvolve побудований на принципах еволюційної обчислювальної техніки – підгалузі штучного інтелекту, надихненого біологічною еволюцією. Система починається з базової реалізації коду, яку вона розглядає як початкову “організм”. Через покоління AlphaEvolve змінює цей код – вводячи варіації або “мутації” – та оцінює придатність кожної варіації за допомогою добре визначеної функції оцінювання. Найкраще виконуючі варіанти виживають та служать шаблонами для наступного покоління.

Цей еволюційний цикл координується через:

  • Вибір підказки: AlphaEvolve конструює підказки, вибираючи та вкладуючи попередньо успішні зразки коду, метрики продуктивності та інструкції, специфічні для завдання.
  • Мутація коду та пропозиція: Система використовує суміш потужних LLM – Gemini 2.0 Flash та Pro – для генерації конкретних змін до поточного кодової бази у вигляді змін.
  • Механізм оцінювання: Автоматизована функція оцінювання оцінює продуктивність кожного кандидата, виконуючи його та повертаючи скалярні оцінки.
  • База даних та контролер: Розподілений контролер оркеструє цей цикл, зберігаючи результати в еволюційній базі даних та балансуючи дослідження з експлуатацією через механізми, такі як MAP-Elites.

Цей процес, багатіший на зворотний зв’язок та автоматизований, радикально відрізняється від стандартних технік тонкого налаштування. Він наділяє AlphaEvolve можливістю генерувати нові, високопродуктивні та іноді контрінтуїтивні рішення – розширюючи межі того, що можна автономно досягти за допомогою машинного навчання.

Порівняння AlphaEvolve з RLHF

Щоб оцінити інновації AlphaEvolve, важливо порівняти його з Reinforcement Learning from Human Feedback (RLHF), домінуючим підходом, використовуваним для тонкого налаштування великих мовних моделей.

У RLHF людські переваги використовуються для навчання моделі винагороди, яка керує процесом навчання LLM через алгоритми навчання з підкріпленням, такі як Proximal Policy Optimization (PPO). RLHF покращує вирівнювання та корисність моделей, але він вимагає широкого участі людини для генерації даних зворотного зв’язку та зазвичай працює в статичному, одномоментному режимі тонкого налаштування.

AlphaEvolve, натомість:

  • Видаляє людський зворотний зв’язок з циклу на користь машинно-виконуваних оцінювачів.
  • Підтримує безперервне навчання через еволюційний відбір.
  • Досліджує набагато ширші простори рішень завдяки стохастичним мутаціям та асинхронному виконанню.
  • Може генерувати рішення, які не тільки вирівнюються, але й нові та науково значущі.

Де RLHF налаштовує поведінку, AlphaEvolve відкриває та винаходить. Ця відмінність є критичною при розгляді майбутніх траєкторій до AGI: AlphaEvolve не тільки робить кращі передбачення – він знаходить нові шляхи до істини.

Застосування та прориви

1. Алгоритмічні відкриття та математичні досягнення

AlphaEvolve продемонстрував свою здатність до революційних відкриттів у核心 алгоритмічних проблем. Найбільш помітно, він відкрив новий алгоритм для множення двох 4×4 комплексних матриць, використовуючи лише 48 скалярних множень – перевершуючи результат Страсена 1969 року з 49 множеннями та розбиваючи 56-річну теоретичну стелю. AlphaEvolve досяг цього завдяки просунутим технікам тензорної декомпозиції, які він еволюціонував протягом багатьох ітерацій, перевершуючи кілька сучасних підходів.

Поза множенням матриць AlphaEvolve зробив суттєві внески у математичні дослідження. Його оцінювали за понад 50 відкритих проблем у галузях, таких як комбінаторика, теорія чисел та геометрія. Він повторив найкращі відомі результати приблизно у 75% випадків та перевершив їх у близько 20%. Ці успіхи включали покращення проблеми мінімального перекриття Ердьоша, щільніше рішення проблеми про кількість поцілунків у 11 вимірах та більш ефективні геометричні конфігурації упакування. Ці результати підкреслюють його здатність діяти як автономний математичний дослідник – удосконалюючи, ітеруючи та еволюціонуючи дедалі більш оптимальні рішення без людського втручання.

2. Оптимізація по всьому стеку обчислень Google

AlphaEvolve також приніс відчутні покращення продуктивності по всьому інфраструктурі Google:

  • У розподілі завдань у центрі даних він відкрив новий евристичний метод, який покращив розміщення завдань, відновивши 0,7% раніше втрачених обчислювальних ресурсів.
  • Для ядер тренування Gemini AlphaEvolve розробив кращу стратегію тайлінгу для множення матриць, що дало 23% прискорення ядра та 1% загальне скорочення часу тренування.
  • У проектуванні схем ТПУ він визначив спрощення арифметичної логіки на рівні RTL (Реєстр-Передача-Логіка), підтверджене інженерами та включене до наступного покоління чіпів ТПУ.
  • Він також оптимізував генерований компілятором код FlashAttention шляхом редагування проміжних представлень XLA, скоротивши час висновку на GPU на 32%.

Разом ці результати підтверджують здатність AlphaEvolve працювати на多 рівнях абстракції – від символічної математики до низькорівневої апаратної оптимізації – та приносити реальні покращення продуктивності.

  • Еволюційне програмування: Парадигма штучного інтелекту, яка використовує мутацію, відбір та спадковість для ітеративного удосконалення рішень.
  • Супероптимізація коду: Автоматичний пошук найбільш ефективної реалізації функції – часто дає несподівані, контрінтуїтивні покращення.
  • Еволюція мета-підказки: AlphaEvolve не тільки еволюціонує код, але й еволюціонує, як він спілкується інструкціями з LLM – дозволяючи самоз удосконалення процесу кодування.
  • Втрата дискретизації: Регуляризаційний член, який заохочує вивід до вирівнювання з півцілими або цілими значеннями, критично важливий для математичної та символічної ясності.
  • Втрата галюцинації: Механізм, який вводить випадковість у проміжні рішення, заохочуючи дослідження та уникання локальних мінімумів.
  • Алгоритм MAP-Elites: Тип алгоритму якості-різноманітності, який підтримує різноманітну популяцію високопродуктивних рішень по всіх вимірах особливостей – дозволяючи надійну інновацію.

Наслідки для AGI та ASI

AlphaEvolve – це не просто оптимізатор – це погляд у майбутнє, де інтелектуальні агенти можуть демонструвати творчу автономію. Спроможність системи формулювати абстрактні проблеми та розробляти自己的 підходи до їх розв’язання представляє суттєвий крок до штучного загального інтелекту. Це виходить за межі передбачення даних: воно включає структуроване міркування, формування стратегії та адаптацію до зворотного зв’язку – ознаки інтелектуальної поведінки.

Його здатність ітеративно генерувати та удосконалювати гіпотези також сигналізує про еволюцію того, як машини вчаться. На відміну від моделей, які вимагають широкого нагляду під час тренування, AlphaEvolve удосконалює себе через цикл експериментування та оцінювання. Ця динамічна форма інтелекту дозволяє йому навігацію по складних просторах проблем, відкидання слабких рішень та підняття сильніших без прямого людського нагляду.

Виконуючи та валідуючи свої власні ідеї, AlphaEvolve функціонує як теоретик та експериментатор. Він рухається від виконання попередньо визначених завдань до царини відкриття, імітуючи автономний науковий процес. Кожне запропоноване покращення тестується, оцінюється та повторно інтегрується – дозволяючи безперервне удосконалення на основі реальних результатів, а не статичних об’єктів.

Можливо, найважливіше, що AlphaEvolve є ранньою інстанцією рекурсивного самоз удосконалення – де система штучного інтелекту не тільки вчиться, але й покращує компоненти себе. У кількох випадках AlphaEvolve покращив інфраструктуру тренування, яка підтримує його власні фундаментальні моделі. Хоча все ще обмежений поточними архітектурами, ця здатність встановлює прецедент. З більшими проблемами, сформульованими в оцінюваних середовищах, AlphaEvolve міг би масштабуватися до дедалі більш складної та самоз удосконалюваної поведінки – фундаментальної ознаки штучного суперінтелекту (ASI).

Обмеження та майбутня траєкторія

Поточне обмеження AlphaEvolve полягає в його залежності від автоматизованих функцій оцінювання. Це обмежує його корисність проблемами, які можна математично або алгоритмічно сформулювати. Він ще не може працювати значимо в галузях, які вимагають неявного людського розуміння, суб’єктивної оцінки або фізичного експерименту.

Однак, майбутні напрямки включають:

  • Інтеграцію гібридної оцінки: поєднання символічного міркування з людськими перевагами та природно-мовними критиками.
  • Розгортання у симуляційних середовищах, що дозволяють уособлене наукове експериментування.
  • Дистиляція виведених результатів у базові LLM, створюючи більш здатні та зразкові фундаментальні моделі.

Ці траєкторії вказують на дедалі більш агентні системи, здатні до автономного, високоризикового розв’язання проблем.

Висновок

AlphaEvolve – це суттєвий крок вперед – не тільки в інструментуванні штучного інтелекту, але й у нашому розумінні самого штучного інтелекту. Об’єднавши еволюційний пошук з міркуванням LLM та зворотним зв’язком, він переозначає, що машини можуть автономно відкрити. Це ранній, але суттєвий сигнал, що самоз удосконалювані системи, здатні до справжньої наукової думки, вже не теоретичні.

Оглядаючи майбутнє, архітектуру, що лежить в основі AlphaEvolve, могла б бути рекурсивно застосована до себе: еволюціонуючи自己的 оцінювачів, покращуючи логіку мутації, уточнюючи функції оцінювання та оптимізуючи підлягання тренуванню моделей, на яких вона залежить. Цей рекурсивний цикл оптимізації представляє технічний механізм для самоз удосконалення до AGI, де система не просто виконує завдання, але удосконалює саму інфраструктуру, яка дозволяє її навчання та міркування.

З часом, оскільки AlphaEvolve масштабується по більш складних та абстрактних галузях – та людське втручання у процес зменшується – він може демонструвати прискорені інтелектуальні здобутки. Цей самоз підтримуючий цикл ітеративного удосконалення, застосований не тільки до зовнішніх проблем, але й внутрішньо до своєї власної алгоритмічної структури, є ключовим теоретичним компонентом AGI та всіх його потенційних вигод для суспільства. З його поєднанням творчості, автономії та рекурсії, AlphaEvolve може бути запам’ятований не просто як продукт DeepMind, але як блупrint для першої справжньої самоз удосконалюваної штучної свідомості.

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.