AGI
AlphaEvolve: ก้าวสำคัญของ Google DeepMind สู่ AGI

Google DeepMind ได้เปิดตัว AlphaEvolve ซึ่งเป็นตัวแทนการเขียนโค้ดที่ออกแบบมาเพื่อค้นหาอัลกอริทึมและวิธีแก้ปัญหาทางวิทยาศาสตร์ใหม่ๆ ในแบบอัตโนมัติ โดยนำเสนอในเอกสารวิจัยที่มีชื่อเรื่องว่า “AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery,” ซึ่งเป็นก้าวสำคัญสู่ ปัญญาประดิษฐ์ทั่วไป (AGI) และ ปัญญาประดิษฐ์เหนือมนุษย์ (ASI) โดยไม่พึ่งพาการปรับแต่งแบบคงที่หรือชุดข้อมูลที่มีการระบุฉลากโดยมนุษย์ แต่ AlphaEvolve ใช้วิธีการที่แตกต่างโดยมุ่งเน้นไปที่ความสร้างสรรค์อัตโนมัติ การค้นหาอัลกอริทึมใหม่ๆ และการปรับปรุงอย่างต่อเนื่อง
ที่แกนกลางของ AlphaEvolve คือการทำงานแบบอัตโนมัติของ โมเดลภาษาขนาดใหญ่ (LLMs) ซึ่งไม่เพียงแต่สร้างผลลัพธ์เท่านั้น แต่ยังรวมถึงการเปลี่ยนแปลง การประเมิน การเลือก และการปรับปรุงโค้ดข้ามรุ่น AlphaEvolve เริ่มต้นด้วยโปรแกรมเริ่มต้นและปรับปรุงอย่างต่อเนื่องโดยการแนะนำการเปลี่ยนแปลงที่มีโครงสร้างอย่างรอบคอบ
การเปลี่ยนแปลงเหล่านี้มีลักษณะเป็นข้อเสนอการเปลี่ยนแปลงโค้ด (diffs) ที่สร้างโดย LLM ตามตัวอย่างและคำแนะนำที่ชัดเจน ‘diff’ ในวิศวกรรมซอฟต์แวร์หมายถึงความแตกต่างระหว่างสองเวอร์ชันของไฟล์ โดยปกติจะเน้นย้ำบรรทัดที่จะถูกลบหรือแทนที่และบรรทัดใหม่ที่จะเพิ่ม ใน AlphaEvolve LLM สร้าง diffs เหล่านี้โดยการวิเคราะห์โปรแกรมปัจจุบันและเสนอการแก้ไขเล็กๆ น้อยๆ ตามคำแนะนำที่รวมถึงเมตริกการทำงานและแก้ไขที่ประสบความสำเร็จก่อนหน้านี้
โปรแกรมที่ถูกปรับแต่งแล้วจะถูกทดสอบโดยใช้เครื่องมือประเมินอัตโนมัติที่ออกแบบมาเพื่อทำงานนั้น ผู้สมัครที่มีประสิทธิภาพสูงสุดจะถูกเก็บไว้ อ้างอิง และรวมกันใหม่เพื่อใช้เป็นแรงบันดาลใจสำหรับการวนซ้ำในอนาคต เมื่อเวลาผ่านไป การวนซ้ำแบบวิวัฒนาการนี้นำไปสู่การเกิดขึ้นของอัลกอริทึมที่ซับซ้อนมากขึ้น ซึ่งมักจะ超过อัลกอริทึมที่ออกแบบโดยผู้เชี่ยวชาญมนุษย์
การทำความเข้าใจวิทยาศาสตร์เบื้องหลัง AlphaEvolve
ที่แกนกลางของ AlphaEvolve คือหลักการของ การคำนวณเชิงวิวัฒนาการ ซึ่งเป็นสาขาย่อยของปัญญาประดิษฐ์ที่ได้รับแรงบันดาลใจจากวิวัฒนาการทางชีววิทยา ระบบนี้เริ่มต้นด้วยการนำโค้ดมาใช้เป็น “สิ่งมีชีวิต” เริ่มต้น จากนั้นจึงเปลี่ยนแปลงโค้ดโดยการแนะนำการเปลี่ยนแปลงหรือ “การกลายพันธุ์” และประเมินความเหมาะสมของการเปลี่ยนแปลงแต่ละครั้งโดยใช้ฟังก์ชันการให้คะแนนแบบกำหนดไว้ ผู้ที่มีประสิทธิภาพสูงสุดจะรอดชีวิตและทำหน้าที่เป็นแบบจำลองสำหรับ世代ถัดไป
การวนซ้ำแบบวิวัฒนาการนี้ได้รับการประสานงานผ่าน:
- การสร้างคำแนะนำ: AlphaEvolve สร้างคำแนะนำโดยการเลือกและฝังตัวอย่างโค้ดที่ประสบความสำเร็จก่อนหน้านี้ เมตริกการทำงาน และคำแนะนำเฉพาะงาน
- การเปลี่ยนแปลงโค้ดและการเสนอ: ระบบใช้โมเดลภาษาขนาดใหญ่ที่มีพลัง เช่น Gemini 2.0 Flash และ Pro เพื่อสร้างการเปลี่ยนแปลงเฉพาะสำหรับฐานโค้ดปัจจุบันในรูปแบบของ diffs
- กลไกการประเมิน: ฟังก์ชันการประเมินอัตโนมัติประเมินประสิทธิภาพของแต่ละผู้สมัครโดยการดำเนินการและคืนคะแนนสเกลาร์
- ฐานข้อมูลและตัวควบคุม: ตัวควบคุมแบบกระจายประสานงานการวนซ้ำนี้ โดยจัดเก็บผลลัพธ์ในฐานข้อมูลแบบวิวัฒนาการและสร้างสมดุลระหว่างการสำรวจและการใช้ประโยชน์ผ่านกลไก เช่น MAP-Elites
กระบวนการวิวัฒนาการที่มีการให้ข้อมูลย้อนกลับและอัตโนมัตินี้แตกต่างอย่างมากจากเทคนิคการปรับแต่งมาตรฐาน มันทำให้ AlphaEvolve สามารถสร้างโซลูชันที่ใหม่ มีประสิทธิภาพสูง และบางครั้งก็ไม่คาดคิดได้ โดยผลักดันขอบเขตของสิ่งที่การเรียนรู้ของเครื่องสามารถบรรลุได้ด้วยตนเอง

การเปรียบเทียบ AlphaEvolve กับ RLHF
เพื่อเข้าใจนวัตกรรมของ AlphaEvolve จำเป็นต้องเปรียบเทียบกับ การเรียนรู้แบบเสริมจากข้อมูลย้อนกลับของมนุษย์ (RLHF) ซึ่งเป็นวิธีการที่โดดเด่นในการปรับแต่งโมเดลภาษาขนาดใหญ่
ใน RLHF การตั้งค่าความชอบของมนุษย์จะถูกใช้ในการฝึกโมเดลรางวัล ซึ่งจะชี้นำกระบวนการเรียนรู้ของโมเดลภาษาขนาดใหญ่ผ่าน การเรียนรู้แบบเสริม เช่น การเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง (PPO) RLHF ปรับปรุงการทำงานและความมีประโยชน์ของโมเดล แต่ต้องการการมีส่วนร่วมของมนุษย์อย่างกว้างขวางเพื่อสร้างข้อมูลย้อนกลับและโดยทั่วไปจะทำงานในโหมดการปรับแต่งแบบคงที่ครั้งเดียว
AlphaEvolve ในทางกลับกัน:
- ลบข้อมูลย้อนกลับของมนุษย์ออกจากวงจรและแทนที่ด้วยตัวประเมินแบบเครื่อง
- สนับสนุนการเรียนรู้อย่างต่อเนื่องผ่านการคัดเลือกแบบวิวัฒนาการ
- สำรวจพื้นที่โซลูชันที่กว้างขึ้นเนื่องจากการกลายพันธุ์แบบสุ่มและการดำเนินการแบบไม่สอดคล้องกัน
- สามารถสร้างโซลูชันที่ไม่เพียงแต่สอดคล้องกัน แต่ยัง ใหม่ และมีนัยสำคัญทางวิทยาศาสตร์
RLHF ปรับปรุงพฤติกรรม ในขณะที่ AlphaEvolve ค้นพบ และ ประดิษฐ์ ความแตกต่างนี้มีความสำคัญเมื่อพิจารณาเส้นทางอนาคตสู่ AGI: AlphaEvolve ไม่เพียงแต่ทำนายที่ดีขึ้น แต่ยัง ค้นหาวิธีใหม่สู่ความจริง
การประยุกต์ใช้และการพัฒนาที่สำคัญ
1. การค้นพบอัลกอริทึมและการพัฒนาทางวิชาการ
AlphaEvolve ได้แสดงความสามารถในการค้นพบอัลกอริทึมใหม่ๆ และโซลูชันที่สำคัญทางวิทยาศาสตร์ โดยเฉพาะอย่างยิ่งในการค้นพบอัลกอริทึมใหม่สำหรับการคูณเมทริกซ์ขนาด 4×4 ที่มีค่าเชิงซ้อน โดยใช้เพียงการคูณสเกลาร์ 48 ครั้ง ซึ่งเหนือกว่าผลลัพธ์ของ Strassen ในปี 1969 ของ 49 การคูณ และทำลายเพดานทฤษฎีที่มีอายุ 56 ปี AlphaEvolve บรรลุผลลัพธ์นี้ผ่านเทคนิคการแยกเมทริกซ์แบบทензอร์ที่ซับซ้อนซึ่งพัฒนาขึ้นผ่านการวนซ้ำหลายครั้ง โดยเอาชนะแนวทางรัฐของ-the-ศิลปะหลายแนวทาง
นอกเหนือจากการคูณเมทริกซ์แล้ว AlphaEvolve ยังให้การสนับสนุนการวิจัยทางคณิตศาสตร์อย่างมีนัยสำคัญ โดยประเมินผลลัพธ์มากกว่า 50 ปัญหาเปิดในด้านต่างๆ เช่น ทฤษฎีเชิงผสม การทฤษฎีจำนวน และเรขาคณิต มันจับคู่ผลลัพธ์ที่ดีที่สุดในกรณีประมาณ 75% และเกินผลลัพธ์เหล่านั้นในประมาณ 20% ความสำเร็จเหล่านี้รวมถึงการปรับปรุงปัญหาการทับซ้อนขั้นต่ำของ Erdős การหาคำตอบที่หนาแน่นกว่าสำหรับปัญหาการจูบในมิติที่ 11 และการกำหนดค่าการบรรจุภัณฑ์ทางเรขาคณิตที่มีประสิทธิภาพมากขึ้น ผลลัพธ์เหล่านี้เน้นย้ำความสามารถในการทำหน้าที่เป็นนักสำรวจทางคณิตศาสตร์อัตโนมัติ โดยการปรับให้เหมาะสม การวนซ้ำ และพัฒนาวิธีแก้ปัญหาที่เหมาะสมที่สุดโดยไม่มีการแทรกแซงโดยตรงจากมนุษย์
2. การเพิ่มประสิทธิภาพข้ามสแต็กการคำนวณของ Google
AlphaEvolve ยังได้ให้ผลลัพธ์ที่เป็นรูปธรรมในการปรับปรุงประสิทธิภาพข้ามโครงสร้างพื้นฐานของ Google:
- ใน การวางแผนศูนย์ข้อมูล มันค้นพบยุทธวิธีใหม่ที่ปรับปรุงการวางตำแหน่งงาน โดยกู้คืน 0.7% ของทรัพยากรการคำนวณที่เคยถูกทิ้งร้างไว้
- สำหรับ เคอร์เนลการฝึกอบรมของ Gemini AlphaEvolve คิดค้นกลยุทธ์การแบ่งพาร์ติชันที่ดีกว่าสำหรับการคูณเมทริกซ์ ซึ่งให้ผลลัพธ์เป็นการเพิ่มความเร็วของเคอร์เนล 23% และลดเวลาในการฝึกอบรมโดยรวมลง 1%
- ใน การออกแบบวงจร TPU มันระบุการทำให้ตรรกะทางคณิตศาสตร์ง่ายขึ้นที่ระดับ RTL (ระดับการถ่ายโอนเรจิสเตอร์) ซึ่งได้รับการยืนยันจากวิศวกรและรวมเข้ากับชิป TPU รุ่นต่อไป
- มันปรับโค้ดที่สร้างโดยคอมไพล์เลอร์ FlashAttention โดยการแก้ไขการแสดงออก XLA ระหว่างการแปล ทำให้เวลาอนุมานบน GPU ลดลง 32%
ผลลัพธ์เหล่านี้ร่วมกันพิสูจน์ความสามารถของ AlphaEvolve ในการทำงานที่หลายระดับการอ้างอิง ตั้งแต่คณิตศาสตร์เชิงสัญลักษณ์ไปจนถึงการเพิ่มประสิทธิภาพฮาร์ดแวร์ระดับต่ำ และให้ผลประโยชน์จริงในด้านประสิทธิภาพ
- การเขียนโปรแกรมเชิงวิวัฒนาการ: พาราได้ม์ AI ที่ใช้การกลายพันธุ์ การเลือก และการถ่ายทอดเพื่อปรับปรุงโซลูชันอย่างต่อเนื่อง
- การเพิ่มประสิทธิภาพโค้ดแบบซูเปอร์: การค้นหาอัตโนมัติสำหรับการนำไปใช้งานฟังก์ชันที่มีประสิทธิภาพที่สุด ซึ่งมักจะให้ผลลัพธ์ที่น่าประหลาดใจและไม่คาดคิด
- การวิวัฒนาการของคำแนะนำแบบเมต้า: AlphaEvolve ไม่เพียงแต่วิวัฒนาการโค้ดเท่านั้น แต่ยังวิวัฒนาการวิธีการสื่อสารคำแนะนำให้กับ LLMs ด้วย ทำให้สามารถปรับปรุงกระบวนการเขียนโค้ดได้ด้วยตนเอง
- การสูญเสียการกระจายตัว: พจน์ในการปรับให้เหมาะสมที่กระตุ้นให้เอาต์พุตสอดคล้องกับค่าครึ่งจำนวนเต็มหรือจำนวนเต็ม ซึ่งจำเป็นสำหรับความชัดเจนทางวิทยาศาสตร์และสัญลักษณ์
- การสูญเสียการหลอกลวง: กลไกในการฉีดความสุ่มลงในโซลูชันระหว่างเพื่อกระตุ้นการสำรวจและหลีกเลี่ยงจุดต่ำสุดเฉพาะที่
- อัลกอริทึม MAP-Elites: ประเภทของอัลกอริทึมคุณภาพ-ความหลากหลายที่รักษาประชากรที่หลากหลายของโซลูชันที่มีประสิทธิภาพสูงตามมิติของคุณลักษณะ ทำให้เกิดนวัตกรรมที่แข็งแกร่ง
ผลกระทบต่อ AGI และ ASI
AlphaEvolve มากกว่าเครื่องมือในการเพิ่มประสิทธิภาพ มันเป็นภาพแรกของอนาคตที่ตัวแทนอัจฉริยะสามารถแสดงความเป็นอิสระทางสร้างสรรค์ได้ ความสามารถของระบบในการกำหนดปัญหาเชิงนามธรรมและออกแบบแนวทางแก้ไขด้วยตนเองถือเป็นก้าวสำคัญสู่ ปัญญาประดิษฐ์ทั่วไป (AGI) สิ่งนี้เกินกว่าการทำนายข้อมูล: มันเกี่ยวข้องกับการให้เหตุผลเชิงโครงสร้าง การก่อตัวยุทธวิธี และการปรับตัวให้เข้ากับการให้ข้อมูลย้อนกลับ ซึ่งเป็นลักษณะของพฤติกรรมอัจฉริยะ
ความสามารถในการสร้างและปรับปรุงสมมติฐานอย่างต่อเนื่องยังบ่งบอกถึงการเปลี่ยนแปลงในกระบวนการเรียนรู้ของเครื่อง ไม่เหมือนกับโมเดลที่ต้องการการฝึกแบบมีผู้ดูแลอย่างกว้างขวาง AlphaEvolve ปรับปรุงตนเองผ่านวงจรของการลองผิดลองถูกและการประเมิน ซึ่งช่วยให้ระบบสามารถสำรวจพื้นที่ปัญหาที่ซับซ้อนได้ ละทิ้งโซลูชันที่อ่อนแอ และยกย่องโซลูชันที่แข็งแกร่งขึ้นโดยไม่มีการดูแลโดยตรงจากมนุษย์
ด้วยการดำเนินการและตรวจสอบความคิดของตนเอง AlphaEvolve ทำหน้าที่เป็นทั้งนักวิจัยและนักการทดลอง มันเคลื่อนตัวออกจากงานที่กำหนดไว้และเข้าสู่ด้านการค้นพบ โดยจำลองกระบวนการทางวิทยาศาสตร์อัตโนมัติ การปรับปรุงแต่ละครั้งจะถูกทดสอบ ประเมิน และรวมเข้ากันใหม่ตามผลลัพธ์จริงมากกว่าจุดมุ่งหมายที่กำหนดไว้
อาจเป็นที่น่าสังเกตมากที่สุดว่า AlphaEvolve เป็นตัวอย่างแรกของการปรับปรุงตนเองแบบเรียกซ้ำ โดยที่ระบบ AI ไม่เพียงแต่เรียนรู้เท่านั้น แต่ยังปรับปรุงส่วนประกอบของตัวมันเองด้วย ในหลายกรณี AlphaEvolve ปรับปรุงโครงสร้างพื้นฐานในการฝึกอบรมที่รองรับโมเดลพื้นฐานของมันเอง แม้ว่ายังคงถูกจำกัดโดยสถาปัตยกรรมปัจจุบัน แต่ความสามารถนี้ตั้งหลักการแล้ว และเมื่อมีการวางกรอบปัญหาในลักษณะที่สามารถประเมินได้ AlphaEvolve อาจขยายตัวสู่พฤติกรรมที่ซับซ้อนและปรับปรุงตนเองมากขึ้น ซึ่งเป็นลักษณะพื้นฐานของ ปัญญาประดิษฐ์เหนือมนุษย์ (ASI)
ข้อจำกัดและการเดินทางในอนาคต
ข้อจำกัดในปัจจุบันของ AlphaEvolve คือการอาศัยฟังก์ชันการประเมินอัตโนมัติ ซึ่งจำกัดความสามารถในการทำงานในโดเมนที่ต้องอาศัยความเข้าใจของมนุษย์อย่างไม่ชัดเจน การตัดสินแบบอัตนัย หรือการทดลองทางกายภาพ
อย่างไรก็ตาม ทิศทางในอนาคตรวมถึง:
- การผสมผสานการประเมินแบบผสมผสาน: รวมทั้งการให้เหตุผลเชิงสัญลักษณ์กับความชอบของมนุษย์และคำวิจารณ์ภาษาธรรมชาติ
- การนำไปใช้ในสภาพแวดล้อมจำลอง เพื่ออำนวยความสะดวกในการทดลองทางวิทยาศาสตร์แบบมีร่างกาย
- การกลั่นกรองเอาต์พุตที่วิวัฒนาการลงในโมเดลภาษาขนาดใหญ่พื้นฐาน ทำให้เกิดโมเดลที่มีประสิทธิภาพและใช้ได้จริงมากขึ้น
ทิศทางเหล่านี้ชี้ให้เห็นถึงระบบที่มีเจตนาเพิ่มขึ้นซึ่งสามารถแก้ปัญหาที่ซับซ้อนและสำคัญได้อย่างอิสระ
สรุป
AlphaEvolve เป็นก้าวสำคัญไปสู่ความเข้าใจในตัวมันเองของปัญญาประดิษฐ์ ไม่ใช่แค่เครื่องมือ AI แต่เป็นความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับปัญญาประดิษฐ์โดยรวม โดยการผสมผสานการค้นหาทางวิวัฒนาการเข้ากับการให้เหตุผลของ LLM และการให้ข้อมูลย้อนกลับ มันทำให้เราทราบถึงสิ่งที่เครื่องจักรสามารถค้นพบได้ด้วยตนเอง
เมื่อมองไปข้างหน้า สถาปัตยกรรมที่รองรับ AlphaEvolve อาจถูกนำมาใช้แบบเรียกซ้ำกับตัวมันเอง: วิวัฒนาการตัวประเมินของมัน การปรับปรุงตรรกะการกลายพันธุ์ การปรับฟังก์ชันการให้คะแนน และการเพิ่มประสิทธิภาพของพายพิ้นฐานในการฝึกอบรมสำหรับโมเดลที่มันพึ่งพา การวนซ้ำการปรับปรุงแบบเรียกซ้ำนี้แสดงถึงกลไกทางเทคนิคสำหรับการเริ่มต้นการเดินทางสู่ AGI โดยที่ระบบไม่เพียงแต่ทำงานเท่านั้น แต่ยังปรับปรุงโครงสร้างพื้นฐานที่ทำให้การเรียนรู้และเหตุผลเป็นไปได้ด้วย
เมื่อเวลาผ่านไป และ AlphaEvolve ขยายตัวไปสู่โดเมนที่ซับซ้อนและนามธรรมมากขึ้น และการแทรกแซงของมนุษย์ในกระบวนการลดลง มันอาจแสดงให้เห็นถึงการเพิ่มขึ้นของความฉลาดที่เร่งตัวขึ้น การวนซ้ำการปรับปรุงตนเองนี้ เมื่อนำไปใช้ไม่เพียงแต่แก้ปัญหาเท่านั้น แต่ยังปรับปรุงโครงสร้างพื้นฐานการเรียนรู้และเหตุผลของมันเองด้วย เป็นส่วนประกอบทางทฤษฎีที่สำคัญของ AGI และผลประโยชน์ทั้งหมดที่ AGI สามารถให้ได้ ด้วยการผสมผสานระหว่างความสร้างสรรค์ อิสระ และการเรียกซ้ำ AlphaEvolve อาจถูกจดจำไม่เพียงแต่เป็นผลิตภัณฑ์ของ DeepMind แต่ยังเป็นแบบจำลองสำหรับจิตอัจฉริยะที่สร้างสรรค์และพัฒนาตนเองอย่างแท้จริง












