AGI
AlphaEvolve: Google DeepMind의 AGI를 향한 획기적인 진전

Google DeepMind가 AlphaEvolve를 공개했습니다. 이는 새로운 알고리즘과 과학적 해결책을 자율적으로 발견하도록 설계된 진화형 코딩 에이전트입니다. “AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery“이라는 제목의 논문에서 소개된 이 연구는 인공 일반 지능(AGI) 나아가 인공 초지능(ASI)을 향한 기초적인 단계를 나타냅니다. 정적인 미세 조정이나 인간이 레이블을 단 데이터셋에 의존하기보다, AlphaEvolve는 전혀 다른 경로를 취합니다. 바로 자율적 창의성, 알고리즘 혁신, 그리고 지속적인 자기 개선에 초점을 맞춘 경로입니다.
AlphaEvolve의 핵심에는 대규모 언어 모델(LLM)로 구동되는 독립적인 진화 파이프라인이 있습니다. 이 파이프라인은 단순히 출력을 생성하는 것이 아니라, 여러 세대에 걸쳐 코드를 변이시키고, 평가하며, 선택하고, 개선합니다. AlphaEvolve는 초기 프로그램으로 시작하여 신중하게 구조화된 변경을 도입함으로써 반복적으로 정제합니다.
이러한 변경은 LLM이 생성한 diff의 형태를 취합니다. diff는 언어 모델이 이전 사례와 명시적 지침을 기반으로 제안하는 코드 수정 사항입니다. 소프트웨어 공학에서 ‘diff’는 일반적으로 제거되거나 교체될 줄과 추가될 새 줄을 강조하여 두 파일 버전 간의 차이를 의미합니다. AlphaEvolve에서 LLM은 현재 프로그램을 분석하고 성능 메트릭과 이전 성공적인 편집을 포함한 프롬프트를 기반으로 함수 추가, 루프 최적화, 하이퍼파라미터 변경과 같은 작은 편집을 제안함으로써 이러한 diff를 생성합니다.
그런 다음 수정된 각 프로그램은 작업에 맞춤화된 자동 평가자를 사용하여 테스트됩니다. 가장 효과적인 후보들은 저장되고 참조되며, 향후 반복을 위한 영감으로 재결합됩니다. 시간이 지남에 따라, 이 진화 루프는 종종 인간 전문가가 설계한 알고리즘을 능가하는 점점 더 정교한 알고리즘의 출현으로 이어집니다.
AlphaEvolve의 과학적 원리 이해하기
근본적으로 AlphaEvolve는 생물학적 진화에서 영감을 받은 인공 지능의 하위 분야인 진화 연산의 원칙 위에 구축되었습니다. 이 시스템은 코드의 기본 구현으로 시작하여 이를 초기 “유기체”로 취급합니다. 여러 세대에 걸쳐 AlphaEvolve는 이 코드를 수정하고—변이 또는 “돌연변이”를 도입하며—잘 정의된 점수 함수를 사용하여 각 변이의 적합도를 평가합니다. 성능이 가장 우수한 변종들이 생존하여 다음 세대의 템플릿 역할을 합니다.
이 진화 루프는 다음을 통해 조정됩니다:
- 프롬프트 샘플링: AlphaEvolve는 이전에 성공한 코드 샘플, 성능 메트릭 및 작업별 지침을 선택하고 포함시켜 프롬프트를 구성합니다.
- 코드 변이 및 제안: 이 시스템은 Gemini 2.0 Flash 및 Pro와 같은 강력한 LLM의 조합을 사용하여 diff 형태로 현재 코드베이스에 대한 구체적인 수정 사항을 생성합니다.
- 평가 메커니즘: 자동 평가 함수는 각 후보를 실행하고 스칼라 점수를 반환하여 성능을 평가합니다.
- 데이터베이스 및 컨트롤러: 분산 컨트롤러가 이 루프를 조율하며, 결과를 진화 데이터베이스에 저장하고 MAP-Elites와 같은 메커니즘을 통해 탐색과 활용 사이의 균형을 유지합니다.
이 피드백이 풍부한 자동화된 진화 과정은 표준 미세 조정 기술과 근본적으로 다릅니다. 이를 통해 AlphaEvolve는 새롭고, 고성능이며, 때로는 직관에 반하는 해결책을 생성할 수 있어 기계 학습이 자율적으로 달성할 수 있는 경계를 넓힙니다.

AlphaEvolve와 RLHF 비교
AlphaEvolve의 혁신성을 이해하기 위해서는 이를 대규모 언어 모델을 미세 조정하는 데 사용되는 지배적인 접근 방식인 인간 피드백 강화 학습(RLHF)과 비교하는 것이 중요합니다.
RLHF에서는 인간의 선호도를 사용하여 보상 모델을 훈련시키며, 이 모델은 근위 정책 최적화(PPO)와 같은 강화 학습 알고리즘을 통해 LLM의 학습 과정을 안내합니다. RLHF는 모델의 정렬과 유용성을 향상시키지만, 피드백 데이터를 생성하기 위해 광범위한 인간의 관여가 필요하며 일반적으로 정적이고 일회성의 미세 조정 체제에서 운영됩니다.
반면, AlphaEvolve는 다음과 같습니다:
- 루프에서 인간 피드백을 제거하고 기계 실행 가능한 평가자를 선호합니다.
- 진화적 선택을 통한 지속적 학습을 지원합니다.
- 확률적 변이와 비동기 실행으로 인해 훨씬 더 넓은 해결책 공간을 탐색합니다.
- 단순히 정렬된 것이 아니라 새롭고 과학적으로 중요한 해결책을 생성할 수 있습니다.
RLHF가 행동을 미세 조정하는 반면, AlphaEvolve는 발견하고 발명합니다. 이 차이는 AGI를 향한 미래 궤적을 고려할 때 중요합니다. AlphaEvolve는 단지 더 나은 예측을 하는 것이 아니라 진실에 이르는 새로운 경로를 찾습니다.
응용 분야와 돌파구
1. 알고리즘 발견 및 수학적 진전
AlphaEvolve는 핵심 알고리즘 문제에서 획기적인 발견을 할 수 있는 능력을 입증했습니다. 가장 주목할 만하게, 이는 단 48개의 스칼라 곱셈만을 사용하여 두 개의 4×4 복소수 값 행렬을 곱하는 새로운 알고리즘을 발견했습니다. 이는 Strassen의 1969년 결과인 49회 곱셈을 능가하며 56년간 지속된 이론적 한계를 깼습니다. AlphaEvolve는 많은 반복을 통해 진화시킨 고급 텐서 분해 기술을 통해 이를 달성했으며, 여러 최첨단 접근법을 능가했습니다.
행렬 곱셈을 넘어, AlphaEvolve는 수학 연구에 상당한 기여를 했습니다. 조합론, 정수론, 기하학과 같은 분야의 50개 이상의 미해결 문제에 대해 평가되었습니다. 약 75%의 경우에서 최고의 알려진 결과와 일치했으며 약 20%에서는 이를 초과했습니다. 이러한 성공에는 Erdős의 최소 중복 문제 개선, 11차원에서의 키싱 넘버 문제에 대한 더 밀도 높은 해결책, 그리고 더 효율적인 기하학적 패킹 구성이 포함되었습니다. 이러한 결과는 인간의 개입 없이 점점 더 최적의 해결책을 정제하고, 반복하고, 진화시키는 자율적인 수학적 탐사자 역할을 할 수 있는 능력을 강조합니다.
2. Google 컴퓨팅 스택 전반에 걸친 최적화
AlphaEvolve는 Google의 인프라 전반에 걸쳐 실질적인 성능 향상을 제공했습니다:
- 데이터 센터 스케줄링에서, 이는 작업 배치를 개선하는 새로운 휴리스틱을 발견하여 이전에 유휴 상태였던 컴퓨팅 자원의 0.7%를 회수했습니다.
- Gemini의 훈련 커널을 위해, AlphaEvolve는 행렬 곱셈을 위한 더 나은 타일링 전략을 고안하여 커널 속도 23% 향상 및 전체 훈련 시간 1% 감소를 가져왔습니다.
- TPU 회로 설계에서, 이는 RTL(레지스터 전송 수준)에서 산술 논리의 단순화를 식별했으며, 엔지니어들에 의해 검증되어 차세대 TPU 칩에 포함되었습니다.
- 또한 XLA 중간 표현을 편집하여 컴파일러 생성 FlashAttention 코드를 최적화하여 GPU에서의 추론 시간을 32% 단축했습니다.
이러한 결과들은 함께 AlphaEvolve가 상징적 수학에서 저수준 하드웨어 최적화에 이르는 여러 추상화 수준에서 운영되고 실제 성능 향상을 제공할 수 있는 능력을 입증합니다.
- 진화 프로그래밍: 변이, 선택 및 상속을 사용하여 해결책을 반복적으로 정제하는 AI 패러다임.
- 코드 슈퍼최적화: 함수의 가장 효율적인 구현을 위한 자동화된 탐색으로, 종종 놀랍고 직관에 반하는 개선을 가져옵니다.
- 메타 프롬프트 진화: AlphaEvolve는 단지 코드를 진화시킬 뿐만 아니라, LLM에 지침을 전달하는 방식도 진화시켜 코딩 과정의 자기 정제를 가능하게 합니다.
- 이산화 손실: 출력이 반정수 또는 정수 값과 일치하도록 장려하는 정규화 항으로, 수학적 및 상징적 명확성에 중요합니다.
- 할루시네이션 손실: 중간 해결책에 무작위성을 주입하여 탐색을 장려하고 지역 최소값을 피하도록 하는 메커니즘.
- MAP-Elites 알고리즘: 기능 차원에 걸쳐 고성능 해결책의 다양한 개체군을 유지하는 일종의 품질-다양성 알고리즘으로, 강력한 혁신을 가능하게 합니다.
AGI 및 ASI에 대한 함의
AlphaEvolve는 단순한 최적화 도구가 아니라, 지능형 에이전트가 창의적 자율성을 보여줄 수 있는 미래를 엿보게 합니다. 이 시스템이 추상적인 문제를 공식화하고 이를 해결하기 위한 자체적인 접근 방식을 설계할 수 있는 능력은 인공 일반 지능을 향한 중요한 진전을 나타냅니다. 이는 데이터 예측을 넘어서는 것으로, 구조화된 추론, 전략 형성 및 피드백에 적응하는 것을 포함합니다. 이는 지능적 행동의 특징입니다.
가설을 반복적으로 생성하고 정제하는 능력 또한 기계가 학습하는 방식의 진화를 시사합니다. 광범위한 지도 학습이 필요한 모델과 달리, AlphaEvolve는 실험과 평가의 루프를 통해 스스로를 개선합니다. 이 동적 형태의 지능은 복잡한 문제 공간을 탐색하고, 약한 해결책을 버리고, 직접적인 인간의 감독 없이 더 강력한 해결책을 높일 수 있게 합니다.
자체 아이디어를 실행하고 검증함으로써, AlphaEvolve는 이론가이자 실험가 역할을 모두 수행합니다. 이는 미리 정의된 작업을 수행하는 것을 넘어 발견의 영역으로 나아가 자율적인 과학적 과정을 시뮬레이션합니다. 제안된 각 개선 사항은 테스트되고, 벤치마킹되며, 재통합되어 정적인 목표가 아닌 실제 결과를 기반으로 한 지속적인 정제가 가능합니다.
아마도 가장 주목할 만한 점은, AlphaEvolve가 재귀적 자기 개선의 초기 사례라는 것입니다. 즉, AI 시스템이 학습할 뿐만 아니라 자체 구성 요소를 향상시킵니다. 여러 경우에 AlphaEvolve는 자체 기초 모델을 지원하는 훈련 인프라를 개선했습니다. 비록 현재 아키텍처에 의해 제한되지만, 이 능력은 선례를 만듭니다. 더 많은 문제가 평가 가능한 환경에서 구성된다면, AlphaEvolve는 점점 더 정교하고 자기 최적화하는 행동으로 확장될 수 있습니다. 이는 인공 초지능(ASI)의 근본적인 특성입니다.
한계 및 미래 궤적
AlphaEvolve의 현재 한계는 자동 평가 함수에 대한 의존성입니다. 이는 수학적으로나 알고리즘적으로 공식화될 수 있는 문제로 그 유용성을 제한합니다. 아직은 암묵적인 인간의 이해, 주관적 판단 또는 물리적 실험이 필요한 영역에서 의미 있게 작동할 수 없습니다.
그러나 미래 방향에는 다음이 포함됩니다:
- 하이브리드 평가 통합: 상징적 추론과 인간 선호도 및 자연어 비판을 결합.
- 시뮬레이션 환경에서의 배포를 통한 구체화된 과학적 실험 가능.
- 진화된 출력을 기본 LLM에 증류하여 더 능력 있고 샘플 효율적인 기초 모델 생성.
이러한 궤적은 자율적이고 고위험 문제 해결이 가능한 점점 더 주체적인 시스템을 향해 나아가고 있음을 가리킵니다.
결론
AlphaEvolve는 단지 AI 도구를 넘어 기계 지능 자체에 대한 우리의 이해에서도 심오한 전진입니다. 진화 탐색과 LLM 추론 및 피드백을 융합함으로써, 기계가 자율적으로 발견할 수 있는 것을 재정의합니다. 이는 실제 과학적 사고가 가능한 자기 개선 시스템이 더 이상 이론적이지 않다는 초기이지만 중요한 신호입니다.
앞으로, AlphaEvolve를 뒷받침하는 아키텍처는 재귀적으로 자체에 적용될 수 있습니다: 자체 평가자를 진화시키고, 변이 논리를 개선하며, 점수 함수를 정제하고, 의존하는 모델에 대한 기본 훈련








