ปัญญาประดิษฐ์

Gemma: Google นำความสามารถ AI ขั้นสูงผ่านโอเพ่นซอร์ส

การตีพิมพ์

3 เดือนที่ผ่านมา

กุมภาพันธ์ 29, 2024

สาขาปัญญาประดิษฐ์ (AI) มีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา โดยส่วนใหญ่ได้รับแรงหนุนจากความก้าวหน้าใน การเรียนรู้ลึก ๆ และ การประมวลผลภาษาธรรมชาติ (เอ็นแอลพี) แนวหน้าของความก้าวหน้าเหล่านี้คือ โมเดลภาษาขนาดใหญ่ (LLM) – ระบบ AI ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความจำนวนมหาศาลที่สามารถสร้างข้อความที่เหมือนมนุษย์และมีส่วนร่วมในงานสนทนา

LLM เช่น PaLM ของ Google, Claude ของ Anthropic และ Gopher ของ DeepMind ได้แสดงให้เห็นถึงความสามารถที่โดดเด่น ตั้งแต่การเขียนโค้ดไปจนถึงการให้เหตุผลแบบสามัญสำนึก อย่างไรก็ตาม โมเดลเหล่านี้ส่วนใหญ่ยังไม่ได้รับการเผยแพร่อย่างเปิดเผย ทำให้จำกัดการเข้าถึงเพื่อการวิจัย การพัฒนา และการนำไปใช้ที่เป็นประโยชน์

สิ่งนี้เปลี่ยนไปเมื่อมีการจัดหาแบบโอเพ่นซอร์สล่าสุดของ Gemma ซึ่งเป็นกลุ่ม LLM จาก DeepMind ของ Google โดยอิงตามโมเดล Gemini อันทรงพลังที่เป็นกรรมสิทธิ์ ในบล็อกโพสต์นี้ เราจะเจาะลึก Gemma โดยวิเคราะห์สถาปัตยกรรม กระบวนการฝึกอบรม ประสิทธิภาพ และการเปิดตัวที่รับผิดชอบ

ภาพรวมของเจมม่า

ในเดือนกุมภาพันธ์ 2023 DeepMind โอเพ่นซอร์ส โมเดล Gemma สองขนาด – เวอร์ชันพารามิเตอร์ 2 พันล้านที่ได้รับการปรับให้เหมาะสมสำหรับการปรับใช้บนอุปกรณ์ และเวอร์ชันพารามิเตอร์ที่ใหญ่กว่า 7 พันล้านที่ออกแบบมาสำหรับการใช้งาน GPU/TPU

Gemma ใช้ประโยชน์จากสถาปัตยกรรมที่ใช้หม้อแปลงและวิธีการฝึกอบรมที่คล้ายคลึงกันกับโมเดล Gemini ชั้นนำของ DeepMind ได้รับการฝึกฝนเกี่ยวกับข้อความมากถึง 6 ล้านล้านโทเค็นจากเอกสารเว็บ คณิตศาสตร์ และโค้ด

DeepMind เปิดตัวทั้งจุดตรวจสอบดิบที่ได้รับการฝึกล่วงหน้าของ Gemma รวมถึงเวอร์ชันที่ได้รับการปรับแต่งอย่างละเอียดด้วยการเรียนรู้ภายใต้การดูแลและการตอบรับจากมนุษย์เพื่อความสามารถที่ได้รับการปรับปรุงในด้านต่างๆ เช่น บทสนทนา การทำตามคำแนะนำ และการเขียนโค้ด

เริ่มต้นกับเจมม่า

การเปิดตัวแบบเปิดของ Gemma ทำให้นักพัฒนา นักวิจัย และผู้ที่ชื่นชอบสามารถเข้าถึงความสามารถ AI ขั้นสูงได้ คำแนะนำโดยย่อในการเริ่มต้นใช้งานมีดังนี้

การปรับใช้แพลตฟอร์มที่ไม่เชื่อเรื่องพระเจ้า

จุดแข็งที่สำคัญของ Gemma คือความยืดหยุ่น คุณสามารถรันบน CPU, GPU หรือ TPU ได้ สำหรับ CPU ให้ใช้ประโยชน์จาก TensorFlow Lite หรือ HuggingFace Transformers เพื่อเพิ่มประสิทธิภาพให้กับ GPU/TPU ให้ใช้ TensorFlow บริการคลาวด์ เช่น Vertex AI ของ Google Cloud ยังให้การปรับขนาดที่ราบรื่นอีกด้วย

เข้าถึงโมเดลที่ได้รับการฝึกอบรมล่วงหน้า

เจมม่ามีรุ่นต่างๆ ที่ผ่านการฝึกอบรมมาแล้วหลายแบบ ขึ้นอยู่กับความต้องการของคุณ รุ่น 2B และ 7B นำเสนอความสามารถในการสร้างที่แข็งแกร่งทันทีที่แกะกล่อง สำหรับการปรับแต่งแบบละเอียดแบบกำหนดเอง รุ่น 2B-FT และ 7B-FT คือจุดเริ่มต้นที่เหมาะสมที่สุด

สร้างแอปพลิเคชันที่น่าตื่นเต้น

คุณสามารถสร้างแอปพลิเคชันที่หลากหลายด้วย Gemma เช่น การสร้างเรื่องราว การแปลภาษา การตอบคำถาม และการผลิตเนื้อหาที่สร้างสรรค์ กุญแจสำคัญคือการใช้ประโยชน์จากจุดแข็งของ Gemma ผ่านการปรับแต่งชุดข้อมูลของคุณเองอย่างละเอียด

สถาปัตยกรรม

Gemma ใช้สถาปัตยกรรมหม้อแปลงเฉพาะตัวถอดรหัส โดยสร้างขึ้นจากความก้าวหน้า เช่น การเอาใจใส่หลายแบบสอบถามและการฝังตำแหน่งแบบหมุน:

หม้อแปลง: เปิดตัวในปี 2017 สถาปัตยกรรมหม้อแปลงไฟฟ้าที่ใช้กลไกความสนใจเพียงอย่างเดียวได้กลายเป็นที่แพร่หลายใน NLP เจมม่าสืบทอดความสามารถของหม้อแปลงในการสร้างแบบจำลองการพึ่งพาระยะยาวในข้อความ
ตัวถอดรหัสเท่านั้น: Gemma ใช้สแต็กตัวถอดรหัสหม้อแปลงเท่านั้น ซึ่งแตกต่างจากรุ่นตัวถอดรหัสตัวเข้ารหัสเช่น BART หรือ T5 สิ่งนี้มอบความสามารถในการสร้างที่แข็งแกร่งสำหรับงานต่างๆ เช่น การสร้างข้อความ
ความสนใจหลายแบบสอบถาม: Gemma ใช้ความสนใจแบบหลายคำค้นหาในโมเดลที่ใหญ่กว่า ช่วยให้แต่ละส่วนหัวของความสนใจสามารถประมวลผลคำค้นหาหลายคำพร้อมกันเพื่อการอนุมานที่รวดเร็วยิ่งขึ้น
การฝังตำแหน่งแบบหมุน: Gemma นำเสนอข้อมูลตำแหน่งโดยใช้การฝังแบบหมุนแทนการเข้ารหัสตำแหน่งแบบสัมบูรณ์ เทคนิคนี้จะลดขนาดโมเดลในขณะที่ยังคงรักษาข้อมูลตำแหน่งไว้

การใช้เทคนิคต่างๆ เช่น การสนใจหลายแบบสอบถามและการฝังตำแหน่งแบบหมุนทำให้แบบจำลอง Gemma เข้าถึงจุดแลกเปลี่ยนที่เหมาะสมที่สุดระหว่างประสิทธิภาพ ความเร็วในการอนุมาน และขนาดของแบบจำลอง

ข้อมูลและกระบวนการฝึกอบรม

Gemma ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความมากถึง 6 ล้านล้านโทเค็นส่วนใหญ่เป็นภาษาอังกฤษ ซึ่งรวมถึงเอกสารบนเว็บ ข้อความทางคณิตศาสตร์ และซอร์สโค้ด DeepMind ลงทุนความพยายามอย่างมากในการกรองข้อมูล ลบเนื้อหาที่เป็นพิษหรือเป็นอันตรายโดยใช้ตัวแยกประเภทและการวิเคราะห์พฤติกรรม

การฝึกอบรมดำเนินการโดยใช้โครงสร้างพื้นฐาน TPUv5 ของ Google โดยมี TPU มากถึง 4096 ตัวที่ใช้ในการฝึกอบรม Gemma-7B โมเดลที่มีประสิทธิภาพและเทคนิคการขนานข้อมูลช่วยให้สามารถฝึกฝนโมเดลขนาดใหญ่ด้วยฮาร์ดแวร์สินค้าโภคภัณฑ์

มีการใช้การฝึกอบรมตามขั้นตอน โดยปรับการกระจายข้อมูลอย่างต่อเนื่องเพื่อเน้นไปที่ข้อความคุณภาพสูงและเกี่ยวข้อง ขั้นตอนการปรับแต่งขั้นสุดท้ายใช้การผสมผสานระหว่างตัวอย่างคำสั่งที่มนุษย์สร้างขึ้นและสังเคราะห์เพื่อเพิ่มขีดความสามารถ

ประสิทธิภาพของโมเดล

DeepMind ประเมินแบบจำลอง Gemma อย่างเข้มงวดในชุดการวัดประสิทธิภาพมากกว่า 25 รายการ ซึ่งครอบคลุมความสามารถในการตอบคำถาม การใช้เหตุผล คณิตศาสตร์ การเขียนโค้ด สามัญสำนึก และความสามารถในการสนทนา

Gemma บรรลุผลลัพธ์ที่ล้ำสมัยเมื่อเปรียบเทียบกับโมเดลโอเพ่นซอร์สที่มีขนาดใกล้เคียงกันในการวัดประสิทธิภาพส่วนใหญ่ ไฮไลท์บางส่วน:

คณิตศาสตร์: Gemma เก่งในการทดสอบการใช้เหตุผลทางคณิตศาสตร์เช่น GSM8K และ MATH ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นอย่าง Codex และ Anthropic's Claude มากกว่า 10 คะแนน
การเข้ารหัส: Gemma จับคู่หรือเกินกว่าประสิทธิภาพของ Codex ในการวัดประสิทธิภาพการเขียนโปรแกรมเช่น MBPP แม้ว่าจะไม่ได้รับการฝึกอบรมเกี่ยวกับโค้ดโดยเฉพาะก็ตาม
บทสนทนา: เจมม่าแสดงให้เห็นถึงความสามารถในการสนทนาที่แข็งแกร่งด้วยอัตราการชนะ 51.7% เหนือ Mistral-7B ของ Anthropic จากการทดสอบความชอบของมนุษย์
เหตุผล: ในงานที่ต้องการการอนุมาน เช่น ARC และ Winogrande นั้น Gemma มีประสิทธิภาพเหนือกว่ารุ่น 7B อื่นๆ 5-10 คะแนน

ความเก่งกาจของเจมม่าในสาขาวิชาต่างๆ แสดงให้เห็นถึงความสามารถด้านสติปัญญาทั่วไปที่แข็งแกร่ง แม้ว่าช่องว่างระหว่างประสิทธิภาพในระดับมนุษย์ยังคงมีอยู่ Gemma แสดงให้เห็นถึงการก้าวกระโดดไปข้างหน้าใน NLP แบบโอเพ่นซอร์ส

ความปลอดภัยและความรับผิดชอบ

การปล่อยน้ำหนักโอเพ่นซอร์สของโมเดลขนาดใหญ่ทำให้เกิดความท้าทายเกี่ยวกับการใช้งานในทางที่ผิดโดยเจตนาและอคติต่อโมเดลโดยธรรมชาติ DeepMind ดำเนินการเพื่อลดความเสี่ยง:

การกรองข้อมูล: ข้อความที่อาจเป็นพิษ ผิดกฎหมาย หรือมีอคติถูกลบออกจากข้อมูลการฝึกอบรมโดยใช้ตัวแยกประเภทและการวิเคราะห์พฤติกรรม
คะแนน: Gemma ได้รับการทดสอบบนเกณฑ์มาตรฐานมากกว่า 30 รายการซึ่งรวบรวมไว้เพื่อประเมินความปลอดภัย ความยุติธรรม และความทนทาน ลงตัวหรือเหนือกว่ารุ่นอื่นๆ
การปรับละเอียด: การปรับแต่งโมเดลอย่างละเอียดมุ่งเน้นไปที่การปรับปรุงความสามารถด้านความปลอดภัย เช่น การกรองข้อมูล และพฤติกรรมการป้องกันความเสี่ยง/การปฏิเสธที่เหมาะสม
ข้อกำหนดการใช้งาน: เงื่อนไขการใช้งานห้ามการใช้งานโมเดล Gemma ที่น่ารังเกียจ ผิดกฎหมาย หรือผิดจริยธรรม อย่างไรก็ตาม การบังคับใช้ยังคงมีความท้าทาย
การ์ดรุ่น: การ์ดที่ให้รายละเอียดเกี่ยวกับความสามารถของโมเดล ข้อจำกัด และอคติได้รับการเผยแพร่เพื่อส่งเสริมความโปร่งใส

แม้ว่าความเสี่ยงจากโอเพ่นซอร์สยังคงมีอยู่ แต่ DeepMind ระบุว่าการเปิดตัวของ Gemma นั้นให้ผลประโยชน์ทางสังคมสุทธิโดยพิจารณาจากประวัติด้านความปลอดภัยและความสามารถในการวิจัย อย่างไรก็ตาม การติดตามอันตรายที่อาจเกิดขึ้นอย่างระมัดระวังจะยังคงมีความสำคัญอยู่

การเปิดใช้งานคลื่นลูกใหม่ของนวัตกรรม AI

การเปิดตัว Gemma ในฐานะตระกูลโมเดลโอเพ่นซอร์สจะช่วยปลดล็อกความก้าวหน้าในชุมชน AI:

อินเทอร์เน็ต: Gemma ช่วยลดอุปสรรคสำหรับองค์กรในการสร้างด้วย NLP ที่ล้ำสมัย ซึ่งก่อนหน้านี้ต้องเผชิญกับต้นทุนการประมวลผล/ข้อมูลที่สูงสำหรับการฝึกอบรม LLM ของตนเอง
แอปพลิเคชันใหม่: ด้วยจุดตรวจสอบที่ได้รับการฝึกอบรมและปรับแต่งมาล่วงหน้าแบบโอเพ่นซอร์ส DeepMind ช่วยให้การพัฒนาแอปที่เป็นประโยชน์ในด้านต่างๆ เช่น การศึกษา วิทยาศาสตร์ และการเข้าถึงได้ง่ายขึ้น
การปรับแต่ง: นักพัฒนาสามารถปรับแต่ง Gemma เพิ่มเติมสำหรับอุตสาหกรรมหรือแอปพลิเคชันเฉพาะโดเมนผ่านการฝึกอบรมอย่างต่อเนื่องเกี่ยวกับข้อมูลที่เป็นกรรมสิทธิ์
งานวิจัย: โมเดลแบบเปิดเช่น Gemma ส่งเสริมความโปร่งใสและการตรวจสอบระบบ NLP ในปัจจุบันให้มากขึ้น โดยให้ความกระจ่างถึงทิศทางการวิจัยในอนาคต
นวัตกรรม: ความพร้อมใช้งานของโมเดลพื้นฐานที่แข็งแกร่ง เช่น Gemma จะช่วยเร่งความคืบหน้าในด้านต่างๆ เช่น การบรรเทาอคติ ข้อเท็จจริง และความปลอดภัยของ AI

ด้วยการมอบความสามารถของ Gemma ให้กับทุกคนผ่านทางโอเพ่นซอร์ส DeepMind หวังที่จะกระตุ้นการพัฒนา AI อย่างมีความรับผิดชอบเพื่อประโยชน์ทางสังคม

ถนนข้างหน้า

ด้วยการก้าวกระโดดแต่ละครั้งของ AI เราก็เข้าใกล้โมเดลที่แข่งขันหรือเหนือกว่าสติปัญญาของมนุษย์ในทุกโดเมนมากขึ้น ระบบอย่าง Gemma ตอกย้ำว่าความก้าวหน้าอย่างรวดเร็วของโมเดลแบบกำกับดูแลตนเองกำลังปลดล็อกความสามารถด้านการรับรู้ขั้นสูงที่เพิ่มมากขึ้นได้อย่างไร

อย่างไรก็ตาม งานยังคงต้องปรับปรุงความน่าเชื่อถือ การตีความได้ และความสามารถในการควบคุมของ AI ซึ่งเป็นด้านที่สติปัญญาของมนุษย์ยังคงครองอำนาจสูงสุด โดเมนอย่างเช่นคณิตศาสตร์เน้นย้ำถึงช่องว่างที่เกิดขึ้นอย่างต่อเนื่องเหล่านี้ โดย Gemma ได้คะแนน 64% ใน MMLU เทียบกับประสิทธิภาพของมนุษย์โดยประมาณ 89%

การปิดช่องว่างเหล่านี้พร้อมทั้งรับประกันความปลอดภัยและจริยธรรมของระบบ AI ที่มีความสามารถมากขึ้นจะเป็นความท้าทายหลักในปีต่อๆ ไป การสร้างสมดุลที่เหมาะสมระหว่างการเปิดกว้างและการระมัดระวังถือเป็นสิ่งสำคัญ เนื่องจาก DeepMind ตั้งเป้าที่จะทำให้การเข้าถึงประโยชน์ของ AI เป็นประชาธิปไตย ในขณะเดียวกันก็จัดการความเสี่ยงที่เกิดขึ้นใหม่

โครงการริเริ่มเพื่อส่งเสริมความปลอดภัยของ AI เช่น ANC ของ Dario Amodei, ทีม Ethics & Society ของ DeepMind และ Constitutional AI ของ Anthropic ส่งสัญญาณให้เห็นถึงความต้องการความแตกต่างเล็กน้อยนี้มากขึ้น ความก้าวหน้าที่มีความหมายจะต้องอาศัยการพูดคุยอย่างเปิดเผยและอิงหลักฐานเชิงประจักษ์ระหว่างนักวิจัย นักพัฒนา ผู้กำหนดนโยบาย และสาธารณชน

หากดำเนินการอย่างมีความรับผิดชอบ Gemma ไม่ใช่จุดสูงสุดของ AI แต่เป็นฐานสำหรับนักวิจัย AI รุ่นต่อไปที่เดินตามรอยเท้าของ DeepMind สู่ปัญญาประดิษฐ์ทั่วไปที่ยุติธรรมและเป็นประโยชน์

สรุป

การเปิดตัวโมเดล Gemma ของ DeepMind ถือเป็นยุคใหม่สำหรับ AI แบบโอเพ่นซอร์ส ซึ่งเป็นยุคที่ก้าวข้ามเกณฑ์มาตรฐานที่แคบไปสู่ความสามารถด้านข่าวกรองทั่วไป Gemma ได้รับการทดสอบอย่างกว้างขวางเพื่อความปลอดภัยและสามารถเข้าถึงได้ในวงกว้าง โดยได้สร้างมาตรฐานใหม่สำหรับโอเพ่นซอร์สที่มีความรับผิดชอบใน AI

ขับเคลื่อนด้วยจิตวิญญาณแห่งการแข่งขันที่หลอมรวมด้วยค่านิยมความร่วมมือ การแบ่งปันความก้าวหน้าอย่าง Gemma ยกระดับเรือทั้งหมดในระบบนิเวศ AI ขณะนี้ชุมชนทั้งหมดสามารถเข้าถึงกลุ่ม LLM อเนกประสงค์เพื่อขับเคลื่อนหรือสนับสนุนความคิดริเริ่มของพวกเขา

แม้ว่าความเสี่ยงยังคงอยู่ ความขยันทางเทคนิคและจริยธรรมของ DeepMind สร้างความมั่นใจว่าประโยชน์ของ Gemma มีมากกว่าอันตรายที่อาจเกิดขึ้น เนื่องจากความสามารถของ AI มีความก้าวหน้ามากขึ้น การรักษาความแตกต่างระหว่างความเปิดกว้างและการระมัดระวังจึงเป็นสิ่งสำคัญ

เจมม่าพาเราเข้าใกล้ AI ที่เป็นประโยชน์ต่อมนุษยชาติอีกก้าวหนึ่ง แต่ความท้าทายที่ยิ่งใหญ่มากมายยังคงรอคอยอยู่บนเส้นทางสู่ปัญญาประดิษฐ์ทั่วไปที่มีเมตตา หากนักวิจัย AI นักพัฒนา และสังคมโดยรวมสามารถรักษาความก้าวหน้าในการทำงานร่วมกันได้ วันหนึ่ง Gemma อาจถูกมองว่าเป็นค่ายฐานแห่งประวัติศาสตร์ มากกว่าที่จะเป็นการประชุมสุดยอดครั้งสุดท้าย

หัวข้อที่เกี่ยวข้อง:Deepmind เจมม่า LLM

ต่อไป

AI ในตลาด: ข้อมูลเชิงลึกของการประชุม MWC

อย่าพลาด

ช่องโหว่และภัยคุกคามด้านความปลอดภัยที่ต้องเผชิญกับโมเดลภาษาขนาดใหญ่

อายูช มิททาล

ฉันใช้เวลาห้าปีที่ผ่านมาหมกมุ่นอยู่กับโลกแห่งการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกที่น่าสนใจ ความหลงใหลและความเชี่ยวชาญของฉันทำให้ฉันมีส่วนร่วมในโครงการวิศวกรรมซอฟต์แวร์ที่หลากหลายกว่า 50 โครงการ โดยเน้นเฉพาะที่ AI/ML ความอยากรู้อยากเห็นอย่างต่อเนื่องของฉันยังดึงฉันไปสู่การประมวลผลภาษาธรรมชาติ ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม