AGI
AlphaEvolve: революційний крок Google DeepMind на шляху до AGI

Google DeepMind представила AlphaEvolve, еволюційного кодового агента, призначеного для автономного відкриття нових алгоритмів та наукових рішень. Представлене в документі під назвою “AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery,” це дослідження є фундаментальним кроком на шляху до Штучного Загального Інтелекту (AGI) та навіть Штучного Суперінтелекту (ASI). Замість того, щоб покладатися на статичне тонке налаштування або набори даних, розмічені людьми, AlphaEvolve обирає зовсім інший шлях — той, що зосереджений на автономній творчості, алгоритмічних інноваціях та постійному самовдосконаленні.
В основі AlphaEvolve лежить самодостатній еволюційний конвеєр, що працює на основі великих мовних моделей (LLM). Цей конвеєр не просто генерує результати — він мутує, оцінює, відбирає та покращує код через покоління. AlphaEvolve починає з початкової програми та ітеративно її вдосконалює, вносячи ретельно структуровані зміни.
Ці зміни мають форму diff-файлів, згенерованих LLM — модифікацій коду, запропонованих мовною моделлю на основі попередніх прикладів та чітких інструкцій. ‘Diff’ у програмній інженерії позначає різницю між двома версіями файлу, зазвичай виділяючи рядки, які потрібно видалити або замінити, та нові рядки для додавання. У AlphaEvolve LLM генерує ці diff-файли, аналізуючи поточну програму та пропонуючи невеликі правки — додавання функції, оптимізацію циклу або зміну гіперпараметра — на основі промпту, що включає метрики продуктивності та попередні успішні редагування.
Кожна модифікована програма потім тестується за допомогою автоматизованих оцінювачів, адаптованих під конкретне завдання. Найефективніші кандидати зберігаються, використовуються як посилання та рекомбінуються як натхнення для майбутніх ітерацій. З часом цей еволюційний цикл призводить до появи дедалі складніших алгоритмів — часто таких, що перевершують розроблені експертами-людьми.
Розуміння науки, що стоїть за AlphaEvolve
В основі AlphaEvolve лежать принципи еволюційних обчислень — підрозділу штучного інтелекту, натхненного біологічною еволюцією. Система починає з базової реалізації коду, яку вона розглядає як початковий “організм”. Через покоління AlphaEvolve модифікує цей код — вносячи варіації або “мутації” — та оцінює придатність кожної варіації за допомогою чітко визначеної функції оцінки. Найкращі варіанти виживають і слугують шаблонами для наступного покоління.
Цей еволюційний цикл координується через:
- Вибіркове формування промптів (Prompt Sampling): AlphaEvolve формує промпти, вибираючи та вбудовуючи раніше успішні зразки коду, метрики продуктивності та інструкції для конкретного завдання.
- Мутація та пропозиція коду: Система використовує суміш потужних LLM — Gemini 2.0 Flash та Pro — для генерації конкретних модифікацій поточної кодової бази у формі diff-файлів.
- Механізм оцінки: Автоматизована функція оцінки визначає продуктивність кожного кандидата, виконуючи його та повертаючи скалярні бали.
- База даних та контролер: Розподілений контролер оркеструє цей цикл, зберігаючи результати в еволюційній базі даних та балансуючи дослідження з використанням через механізми на кшталт MAP-Elites.
Цей багатий на зворотний зв’язок, автоматизований еволюційний процес радикально відрізняється від стандартних методів тонкого налаштування. Він надає AlphaEvolve здатність генерувати нові, високопродуктивні, а іноді й контрінтуїтивні рішення — розширюючи межі того, чого машинне навчання може досягти автономно.

Порівняння AlphaEvolve з RLHF
Щоб оцінити інноваційність AlphaEvolve, важливо порівняти її з Навчанням з Підкріплення на Основі Людського Відгуку (RLHF), домінуючим підходом, що використовується для тонкого налаштування великих мовних моделей.
У RLHF людські переваги використовуються для навчання моделі винагороди, яка керує процесом навчання LLM за допомогою алгоритмів навчання з підкріплення, таких як Проксимальна Оптимізація Політики (PPO). RLHF покращує вирівнювання та корисність моделей, але вимагає значної участі людей для генерації даних зворотного зв’язку і зазвичай працює в статичному, одноразовому режимі тонкого налаштування.
AlphaEvolve, навпаки:
- Вилучає людський відгук з циклу на користь машинно-виконуваних оцінювачів.
- Підтримує безперервне навчання через еволюційний відбір.
- Досліджує набагато ширші простори рішень завдяки стохастичним мутаціям та асинхронному виконанню.
- Може генерувати рішення, які не просто вирівняні, але й нові та науково значущі.
Там, де RLHF тонко налаштовує поведінку, AlphaEvolve відкриває та винаходить. Ця відмінність є критичною при розгляді майбутніх траєкторій до AGI: AlphaEvolve не просто робить кращі прогнози — вона знаходить нові шляхи до істини.
Застосування та прориви
1. Алгоритмічні відкриття та математичні досягнення
AlphaEvolve продемонструвала свою здатність до революційних відкриттів у фундаментальних алгоритмічних проблемах. Найпомітніше — вона відкрила новий алгоритм для множення двох комплекснозначних матриць 4×4, використовуючи лише 48 скалярних множень — перевершивши результат Штрассена 1969 року в 49 множень і побивши 56-річний теоретичний стелю. AlphaEvolve досягла цього завдяки передовим технікам тензорного розкладання, які вона розвинула за багато ітерацій, перевершивши кілька сучасних підходів.
Окрім множення матриць, AlphaEvolve зробила суттєвий внесок у математичні дослідження. Її оцінювали на понад 50 відкритих проблемах у таких галузях, як комбінаторика, теорія чисел та геометрія. Вона відповідала найкращим відомим результатам приблизно в 75% випадків і перевершувала їх приблизно в 20%. Ці успіхи включали покращення задачі про мінімальне перекриття Ердеша, щільніше розв’язання задачі про число поцілунків у 11 вимірах та ефективніші геометричні конфігурації упаковки. Ці результати підкреслюють її здатність діяти як автономний математичний дослідник — уточнюючи, ітеруючи та розвиваючи дедалі оптимальніші рішення без людського втручання.
2. Оптимізація в обчислювальному стеку Google
AlphaEvolve також забезпечила відчутні покращення продуктивності в інфраструктурі Google:
- У плануванні центрів обробки даних вона відкрила нову евристику, яка покращила розміщення завдань, відновивши 0.7% раніше невикористаних обчислювальних ресурсів.
- Для тренувальних ядер Gemini AlphaEvolve розробила кращу стратегію тайлінгу для множення матриць, що забезпечило прискорення ядра на 23% та загальне скорочення часу тренування на 1%.
- У проектуванні схем TPU вона виявила спрощення арифметичної логіки на рівні RTL (Register-Transfer Level), яке було перевірено інженерами та включено в чипи TPU наступного покоління.
- Вона також оптимізувала код FlashAttention, згенерований компілятором, редагуванням проміжних представлень XLA, скоротивши час виведення на GPU на 32%.
Разом ці результати підтверджують здатність AlphaEvolve працювати на кількох рівнях абстракції — від символічної математики до низькорівневої оптимізації апаратного забезпечення — та забезпечувати реальні виграші в продуктивності.
- Еволюційне програмування: Парадигма ШІ, що використовує мутацію, відбір та успадкування для ітеративного вдосконалення рішень.
- Супероптимізація коду: Автоматизований пошук найефективнішої реалізації функції — часто з отриманням несподіваних, контрінтуїтивних покращень.
- Еволюція мета-промптів: AlphaEvolve не просто розвиває код; вона також розвиває те, як вона передає інструкції LLM — забезпечуючи самовдосконалення процесу кодування.
- Втрата дискретизації (Discretization Loss): Термін регуляризації, що спонукає виходи до відповідності напівцілим або цілим значенням, критично важливий для математичної та символічної чіткості.
- Втрата галюцинації (Hallucination Loss): Механізм для впровадження випадковості в проміжні рішення, що заохочує дослідження та уникнення локальних мінімумів.
- Алгоритм MAP-Elites: Тип алгоритму якісної різноманітності, який підтримує різноманітну популяцію високопродуктивних рішень у різних вимірах ознак — забезпечуючи надійні інновації.
Наслідки для AGI та ASI
AlphaEvolve — це більше, ніж оптимізатор; це погляд у майбутнє, де розумні агенти можуть демонструвати творчу автономію. Здатність системи формулювати абстрактні проблеми та розробляти власні підходи до їх вирішення є значним кроком до Штучного Загального Інтелекту. Це виходить за межі прогнозування даних: це включає структуроване міркування, формування стратегії та адаптацію до зворотного зв’язку — характерні ознаки розумної поведінки.
Її здатність ітеративно генерувати та вдосконалювати гіпотези також сигналізує про еволюцію в тому, як навчаються машини. На відміну від моделей, які вимагають обширного <a








