Connect with us

AlphaEvolve: революционный шаг Google DeepMind на пути к AGI

AGI

AlphaEvolve: революционный шаг Google DeepMind на пути к AGI

mm

Google DeepMind представил AlphaEvolve, агент эволюционного кодирования, предназначенный для автономного открытия новых алгоритмов и научных решений. Представленный в статье под названием AlphaEvolve: Агент кодирования для научных и алгоритмических открытий,” это исследование представляет собой фундаментальный шаг на пути к Искусственному общему интеллекту (AGI) и даже Искусственному сверхинтеллекту (ASI). Вместо того, чтобы полагаться на статическое тонкая настройка или наборы данных, помеченные человеком, AlphaEvolve проходит совершенно другой путь – один, который центрируется на автономной творчестве, алгоритмических инновациях и непрерывном самоусовершенствовании.

В основе AlphaEvolve лежит самодостаточный эволюционный конвейер, работающий на больших языковых моделях (LLM). Этот конвейер не только генерирует выходные данные, но и мутирует, оценивает, выбирает и улучшает код на протяжении поколений. AlphaEvolve начинается с начальной программы и итеративно совершенствует ее, вводя тщательно структурированные изменения.

Эти изменения принимают форму LLM-генерируемых diff – изменений кода, предложенных языковой моделью на основе предыдущих примеров и явных инструкций. “Diff” в программной инженерии относится к разнице между двумя версиями файла, обычно выделяя строки, которые необходимо удалить или заменить, и новые строки, которые необходимо добавить. В AlphaEvolve LLM генерирует эти diff, анализируя текущую программу и предлагая небольшие правки – добавление функции, оптимизацию цикла или изменение гиперпараметра – на основе подсказки, которая включает метрики производительности и предыдущие успешные правки.

Каждая измененная программа затем тестируется с помощью автоматических оценщиков, адаптированных для задачи. Наиболее эффективные кандидаты сохраняются, ссылаются и рекомбинируются в качестве вдохновения для будущих итераций. Со временем этот эволюционный цикл приводит к появлению все более сложных алгоритмов – часто превосходящих те, которые были разработаны человеческими экспертами.

Понимание науки, лежащей в основе AlphaEvolve

В своей основе AlphaEvolve построен на принципах эволюционных вычислений – подполе искусственного интеллекта, вдохновленного биологической эволюцией. Система начинается с базовой реализации кода, которую она рассматривает как начальную “организм”. На протяжении поколений AlphaEvolve изменяет этот код – вводя вариации или “мутации” – и оценивает пригодность каждой вариации с помощью хорошо определенной функции оценки. Лучше всего выполняющиеся варианты выживают и служат шаблонами для следующего поколения.

Этот эволюционный цикл координируется через:

  • Семплирование подсказок: AlphaEvolve конструирует подсказки, выбирая и встраивая предыдущие успешные образцы кода, метрики производительности и инструкции, специфичные для задачи.
  • Мутация кода и предложение: Система использует смесь мощных LLM – Gemini 2.0 Flash и Pro – для генерации конкретных изменений текущей базы кода в виде diff.
  • Механизм оценки: Автоматическая функция оценки оценивает производительность каждого кандидата, выполняя его и возвращая скалярные баллы.
  • База данных и контроллер: Распределенный контроллер оркестрирует этот цикл, храня результаты в эволюционной базе данных и балансируя исследование с эксплуатацией через механизмы, такие как MAP-Elites.

Этот процесс, богатый обратной связью и автоматизированный, радикально отличается от стандартных методов тонкой настройки. Он позволяет AlphaEvolve генерировать новые, высокопроизводительные и иногда противоречивые решения – расширяя границы того, что можно достичь с помощью автономного машинного обучения.

Сравнение AlphaEvolve с RLHF

Чтобы оценить инновации AlphaEvolve, важно сравнить его с Reinforcement Learning from Human Feedback (RLHF), доминирующим подходом, используемым для тонкой настройки больших языковых моделей.

В RLHF предпочтения человека используются для обучения модели вознаграждения, которая руководит процессом обучения LLM с помощью алгоритмов обучения с подкреплением, таких как Proximal Policy Optimization (PPO). RLHF улучшает соответствие и полезность моделей, но требует обширного участия человека для генерации данных обратной связи и обычно работает в статическом, одноразовом режиме тонкой настройки.

AlphaEvolve, в отличие от этого:

  • Удаляет обратную связь человека из цикла в пользу машинно-выполняемых оценщиков.
  • Поддерживает непрерывное обучение через эволюционный отбор.
  • Изучает гораздо более широкие пространства решений благодаря стохастическим мутациям и асинхронному выполнению.
  • Может генерировать решения, которые не только соответствуют, но и новые и научно значимые.

В то время как RLHF совершенствует поведение, AlphaEvolve открывает и изобретает. Это различие имеет решающее значение при рассмотрении будущих траекторий к AGI: AlphaEvolve не только делает лучшие прогнозы – он находит новые пути к истине.

Применения и прорывы

1. Алгоритмические открытия и математические достижения

AlphaEvolve продемонстрировал свою способность к прорывным открытиям в основных алгоритмических проблемах. Наиболее заметно, он открыл новый алгоритм для умножения двух 4×4 комплексных матриц, используя только 48 скалярных умножений – превосходя результат Стразена 1969 года в 49 умножений и нарушая 56-летний теоретический потолок. AlphaEvolve достиг этого с помощью передовых методов тензорного разложения, которые он эволюционировал за многие итерации, превосходя несколько современных подходов.

За пределами умножения матриц AlphaEvolve внес значительный вклад в математические исследования. Он был оценен на более чем 50 открытых проблемах в таких областях, как комбинаторика, теория чисел и геометрия. Он совпал с лучшими известными результатами примерно в 75% случаев и превысил их примерно в 20%. Эти успехи включали улучшения проблемы Эрдёша о минимуме перекрытия, более плотное решение проблемы Киссинга в 11 измерениях и более эффективные геометрические конфигурации упаковки. Эти результаты подчеркивают его способность действовать как автономный математический исследователь – совершенствуя, итерируя и эволюционируя все более оптимальные решения без вмешательства человека.

2. Оптимизация на протяжении всей вычислительной структуры Google

AlphaEvolve также принес ощутимые улучшения производительности на протяжении всей инфраструктуры Google:

  • В планировании центров данных он открыл новый эвристический метод, который улучшил размещение заданий, восстановив 0,7% ранее заблокированных вычислительных ресурсов.
  • Для ядер обучения Gemini AlphaEvolve разработал лучшую стратегию тейлинга для умножения матриц, что привело к увеличению скорости ядра на 23% и общему уменьшению времени обучения на 1%.
  • В проектировании схем TPU он выявил упрощение арифметической логики на уровне RTL, подтвержденное инженерами и включенное в следующее поколение чипов TPU.
  • Он также оптимизировал генерируемый компилятором код FlashAttention путем редактирования промежуточных представлений XLA, сократив время вывода на GPU на 32%.

Вместе эти результаты подтверждают способность AlphaEvolve работать на нескольких уровнях абстракции – от символьной математики до низкоуровневой оптимизации аппаратного обеспечения – и приносить реальные выигрыши в производительности.

  • Эволюционное программирование: Парадигма ИИ, использующая мутацию, отбор и наследование для итеративного совершенствования решений.
  • Супероптимизация кода: Автоматический поиск наиболее эффективной реализации функции – часто приводящий к удивительным, противоречивым улучшениям.
  • Эволюция метаподсказок: AlphaEvolve не только эволюционирует код, но и эволюционирует, как он общается с LLM – ermöglicht самоусовершенствование процесса кодирования.
  • Дискретизационные потери: Регуляризационный член, побуждающий выходные данные соответствовать полуцелым или целым значениям, критичным для математической и символической ясности.
  • Потери галлюцинаций: Механизм для введения случайности в промежуточные решения, побуждающий исследование и избегание локальных минимумов.
  • Алгоритм MAP-Elites: Тип алгоритма качества-разнообразия, который поддерживает разнообразное население высокопроизводительных решений на протяжении всех размерностей функций – ermöglicht прочную инновацию.

Последствия для AGI и ASI

AlphaEvolve – это больше, чем просто оптимизатор – это взгляд в будущее, где интеллектуальные агенты могут демонстрировать творческую автономию. Способность системы формулировать абстрактные проблемы и разрабатывать свои собственные подходы к их решению представляет собой значительный шаг на пути к Искусственному общему интеллекту. Это выходит за рамки прогнозирования данных: это включает структурированное рассуждение, формирование стратегии и адаптацию к обратной связи – характерные черты интеллектуального поведения.

Его способность итеративно генерировать и совершенствовать гипотезы также сигнализирует об эволюции в том, как машины учатся. В отличие от моделей, которые требуют обширного наблюдаемого обучения, AlphaEvolve улучшает себя через цикл экспериментирования и оценки. Эта динамическая форма интеллекта позволяет ему ориентироваться в сложных пространствах проблем, отбрасывать слабые решения и возвышать более сильные без прямого человеческого надзора.

Выполняя и проверяя свои собственные идеи, AlphaEvolve функционирует как теоретик и экспериментатор. Он движется за пределы выполнения предопределенных задач и в область открытий, имитируя автономный научный процесс. Каждое предложенное улучшение тестируется, оценивается и повторно интегрируется – позволяя непрерывно совершенствовать на основе реальных результатов, а не статических целей.

Возможно, наиболее заметно, AlphaEvolve является ранним примером рекурсивного самоусовершенствования – где система ИИ не только учится, но и улучшает компоненты самой себя. В нескольких случаях AlphaEvolve улучшил инфраструктуру обучения, поддерживающую его собственные базовые модели. Хотя все еще ограниченная текущими архитектурами, эта способность устанавливает прецедент. С более проблемами, сформулированными в оцениваемых средах, AlphaEvolve может масштабироваться к все более сложному и самооптимизирующему поведению – фундаментальной черте Искусственного сверхинтеллекта (ASI).

Ограничения и будущая траектория

Текущее ограничение AlphaEvolve – его зависимость от автоматических функций оценки. Это ограничивает его полезность для проблем, которые можно формализовать математически или алгоритмически. Он не может еще работать осмысленно в областях, которые требуют неявного человеческого понимания, субъективной оценки или физического экспериментирования.

Однако будущие направления включают:

  • Интеграция гибридной оценки: объединение символического рассуждения с человеческими предпочтениями и естественно-языковыми критиками.
  • Развертывание в симуляционных средах, позволяющее проводить воплощенное научное экспериментирование.
  • Дистилляция эволюционируемых выходных данных в базовые LLM, создание более способных и эффективных базовых моделей.

Эти траектории указывают на все более агентные системы, способные к автономному, высокорисковому решению проблем.

Заключение

AlphaEvolve – это глубокий шаг вперед – не только в инструментарии ИИ, но и в нашем понимании самого машинного интеллекта. Объединив эволюционный поиск с рассуждением LLM и обратной связью, он переопределяет, что машины могут автономно открыть. Это ранний, но значительный сигнал, что самоусовершенствующиеся системы, способные к реальному научному мышлению, больше не являются теоретическими.

Взглянув вперед, архитектура, лежащая в основе AlphaEvolve, может быть рекурсивно применена к самой себе: эволюционируя свои собственные оценщики, улучшая логiku мутаций, совершенствуя функции оценки и оптимизируя базовые потоки обучения для моделей, от которых он зависит. Этот рекурсивный цикл оптимизации представляет собой технический механизм для самозапуска к AGI, где система не только выполняет задачи, но и совершенствует саму инфраструктуру, которая позволяет ее обучение и рассуждение.

Со временем, когда AlphaEvolve будет масштабироваться на более сложные и абстрактные области – и когда человеческое вмешательство в процессе будет уменьшаться – он может демонстрировать ускоряющиеся интеллектуальные выигрыши. Этот самоподдерживающийся цикл итеративного совершенствования, применяемый не только к внешним проблемам, но и внутрь, к своей собственной алгоритмической структуре, является ключевым теоретическим компонентом AGI и всех его потенциальных выгод для общества. С его смесью творчества, автономии и рекурсии AlphaEvolve может быть запомнен не только как продукт DeepMind, но и как план для первых真正 общих и самоэволюционирующих искусственных умов.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.