ปัญญาประดิษฐ์

ทุกสิ่งที่คุณต้องรู้เกี่ยวกับ Llama 3 | โมเดล Open-Source ที่ทรงพลังที่สุด | จากแนวคิดถึงการใช้งาน

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta ได้ปล่อย Llama 3 ซึ่งเป็นรุ่นต่อไปของโมเดลภาษาขนาดใหญ่แบบเปิด (LLM) ที่ทันสมัยของตนเอง โดยสร้างบนพื้นฐานที่กำหนดโดยรุ่นก่อนหน้า Llama 3 มีเป้าหมายที่จะเพิ่มความสามารถที่ทำให้ Llama 2 เป็นคู่แข่งที่สำคัญในด้าน Open-Source กับ ChatGPT ตามที่ระบุไว้ในบทวิจารณ์ที่ครอบคลุมในบทความ Llama 2: การสำรวจลึกเกี่ยวกับโมเดล Open-Source ที่ท้าทาย ChatGPT

ในบทความนี้ เราจะพูดถึงแนวคิดหลักเกี่ยวกับ Llama 3 ตรวจสอบโครงสร้างและกระบวนการฝึกอบรมที่เป็นนวัตกรรมใหม่ และให้คำแนะนำเชิงปฏิบัติเกี่ยวกับวิธีการเข้าถึง ใช้ และใช้งานโมเดลที่เป็นนวัตกรรมใหม่นี้อย่างมีความรับผิดชอบ ไม่ว่าคุณจะเป็นนักวิจัย ผู้พัฒนา หรือผู้ที่สนใจ AI บทความนี้จะเตรียมให้คุณมีความรู้และทรัพยากรที่จำเป็นในการใช้พลังของ Llama 3 สำหรับโครงการและแอปพลิเคชันของคุณ

การพัฒนาของ Llama: จาก Llama 2 ถึง Llama 3

CEO ของ Meta Mark Zuckerberg ประกาศ การเปิดตัว Llama 3 โมเดล AI ล่าสุดที่พัฒนาโดย Meta AI โมเดลที่ทันสมัยนี้ซึ่งตอนนี้เปิดให้ใช้งานแล้ว มีเป้าหมายที่จะเพิ่มประสิทธิภาพของผลิตภัณฑ์ต่างๆ ของ Meta รวมถึง Messenger และ Instagram Zuckerberg เน้นย้ำว่า Llama 3 จัดให้ Meta AI เป็น AI ที่มีความสามารถสูงสุดที่สามารถเข้าถึงได้ฟรี

ก่อนที่เราจะพูดถึงรายละเอียดของ Llama 3 มาทำความรู้จักกับ Llama 2 กันก่อน Llama 2 ซึ่งถูกแนะนำในปี 2022 เป็น 里程碑ที่สำคัญในด้าน LLM แบบเปิด โดยนำเสนอโมเดลที่มีประสิทธิภาพและใช้งานง่ายซึ่งสามารถรันบนฮาร์ดแวร์ของผู้บริโภคได้

อย่างไรก็ตาม แม้ว่า Llama 2 จะเป็นความสำเร็จที่สำคัญ แต่ก็มีข้อจำกัด ผู้ใช้รายงานปัญหาเกี่ยวกับการปฏิเสธที่ไม่ถูกต้อง (โมเดลที่ปฏิเสธที่จะตอบคำสั่งให้คำตอบที่ไม่เป็นอันตราย) ความเป็นประโยชน์ที่จำกัด และพื้นที่สำหรับการปรับปรุงในด้านการให้เหตุผลและการสร้างโค้ด

ดังนั้นจึงมี Llama 3: การตอบสนองของ Meta ต่อความท้าทายเหล่านี้และคำติชมจากชุมชน ด้วย Llama 3 Meta มุ่งมั่นที่จะสร้างโมเดล Open-Source ที่ดีที่สุดเทียบเท่ากับโมเดลที่เป็นเจ้าของที่ดีที่สุดในปัจจุบัน ในขณะเดียวกันก็ให้ความสำคัญกับการพัฒนาที่มีความรับผิดชอบและแนวปฏิบัติในการใช้งานอย่างปลอดภัย

Llama 3: โครงสร้างและกระบวนการฝึกอบรม

หนึ่งในนวัตกรรมหลักของ Llama 3 คือ โทเคไนเซอร์ของมัน ซึ่งมีวากย์ศัพท์ที่ขยายออกไปถึง 128,256 โทเค็น (เพิ่มขึ้นจาก 32,000 ใน Llama 2) วากย์ศัพท์ที่ใหญ่ขึ้นนี้ทำให้สามารถเข้ารหัสข้อความได้อย่างมีประสิทธิภาพทั้งสำหรับอินพุตและเอาต์พุต ซึ่งอาจนำไปสู่ความสามารถหลายภาษาที่แข็งแกร่งและประสิทธิภาพโดยรวมที่ดีขึ้น

Llama 3 ยังรวม การดูแลกลุ่มคำถาม (GQA) ซึ่งเป็นเทคนิคการแสดงผลที่มีประสิทธิภาพ ซึ่งช่วยเพิ่มความสามารถในการปรับขนาดและช่วยให้โมเดลจัดการบริบทที่ยาวขึ้นได้อย่างมีประสิทธิภาพมากขึ้น เวอร์ชัน 8B ของ Llama 3 ใช้ GQA ในขณะที่ทั้ง 8B และ 70B สามารถประมวลผลลำดับได้ถึง 8,192 โทเค็น

ข้อมูลการฝึกอบรมและปรับขนาด

ข้อมูลการฝึกอบรมที่ใช้สำหรับ Llama 3 เป็นปัจจัยสำคัญที่ทำให้ประสิทธิภาพดีขึ้น Meta ได้รวบรวมชุดข้อมูลขนาดใหญ่กว่า 15 ล้านล้านโทเค็น จากแหล่งข้อมูลออนไลน์ที่สามารถเข้าถึงได้ ซึ่งใหญ่กว่าชุดข้อมูลที่ใช้สำหรับ Llama 2 ถึง 7 เท่า ชุดข้อมูลนี้ยังรวมข้อมูลที่มีคุณภาพสูงมากกว่า 5% ที่ไม่ใช่ภาษาอังกฤษ ซึ่งครอบคลุมภาษา 30 ภาษา เพื่อเตรียมพร้อมสำหรับการใช้งานหลายภาษาในอนาคต

เพื่อให้แน่ใจถึงคุณภาพของข้อมูล Meta ใช้เทคนิคการกรองขั้นสูง รวมถึงการกรองแบบฮิวริสติก การกรอง NSFW การลบข้อมูลซ้ำแบบเซมานติก และตัวจำแนกข้อความที่ฝึกอบรมด้วย Llama 2 เพื่อคาดการณ์คุณภาพของข้อมูล ทีมงานยังดำเนินการการทดลองอย่างกว้างขวางเพื่อกำหนดส่วนผสมของแหล่งข้อมูลที่เหมาะสมที่สุดสำหรับการฝึกอบรมก่อน โดยรับประกันว่า Llama 3 จะทำงานได้ดีในกรณีการใช้งานต่างๆ รวมถึงเรื่องราว สตีม โค้ด และความรู้ทางประวัติศาสตร์

การเพิ่มประสิทธิภาพการฝึกอบรมก่อนเป็นอีกด้านหนึ่งที่สำคัญของการพัฒนา Llama 3 Meta พัฒนากฎการปรับขนาดที่ช่วยให้สามารถคาดการณ์ประสิทธิภาพของโมเดลขนาดใหญ่ที่สุดในงานสำคัญๆ เช่น การสร้างโค้ด ก่อนที่จะฝึกอบรมจริงๆ สิ่งนี้แจ้งคำตัดสินใจเกี่ยวกับการผสมผสานข้อมูลและการจัดสรรการคำนวณ ส่งผลให้การฝึกอบรมมีประสิทธิภาพและประสิทธิผลมากขึ้น

โมเดลที่ใหญ่ที่สุดของ Llama 3 ถูกฝึกอบรมบนคลัสเตอร์ GPU 24,000 ที่สร้างเอง โดยใช้เทคนิคการขนานข้อมูล การขนานแบบโมเดล และการขนานแบบไปป์ไลน์ Meta ยังพัฒนาสแต็กการฝึกอบรมขั้นสูงซึ่งทำให้สามารถตรวจจับและจัดการข้อผิดพลาดได้โดยอัตโนมัติ เพิ่มเวลาใช้งาน GPU สูงสุดและเพิ่มประสิทธิภาพการฝึกอบรมประมาณ 3 เท่าเมื่อเทียบกับ Llama 2

การปรับแต่งคำแนะนำและการแสดงผล

เพื่อปลดปล่อยศักยภาพเต็มที่ของ Llama 3 สำหรับการใช้งานแชทและบทสนทนา Meta ได้พัฒนาแนวทางใหม่ในการปรับแต่งคำแนะนำ โดยรวม การปรับแต่งแบบดูแล (SFT) การตัวอย่างการปฏิเสธ การเพิ่มประสิทธิภาพนโยบายแบบพร็อกซี (PPO) และ การเพิ่มประสิทธิภาพความชอบโดยตรง (DPO)

คุณภาพของคำสั่งและอันดับความชอบที่ใช้ใน SFT และ PPO มีบทบาทสำคัญในการแสดงผลของโมเดลที่จัดตำแหน่งแล้ว ทีมงานของ Meta ได้ทำการตรวจสอบคุณภาพอย่างรอบคอบและดำเนินการประกันคุณภาพหลายครั้งบนคำอธิบายที่ให้โดยผู้อธิบาย

การฝึกอบรมบนอันดับความชอบผ่าน PPO และ DPO ยังช่วยปรับปรุงประสิทธิภาพของ Llama 3 ในงานที่ต้องใช้เหตุผลและสร้างโค้ด Meta พบว่าแม้ว่าโมเดลอาจต้องดิ้นรนในการตอบคำถามที่ต้องใช้เหตุผลโดยตรง แต่ก็ยังสามารถสร้างคำตอบที่ถูกต้องได้ การฝึกอบรมบนอันดับความชอบทำให้โมเดลเรียนรู้วิธีการเลือกคำตอบที่ถูกต้องจากคำตอบเหล่านั้น

Arena results

ผลลัพธ์พูดถึงตัวเอง: Llama 3 มีประสิทธิภาพเหนือกว่าโมเดลแชทแบบเปิดหลายรุ่นที่มีอยู่ในอุตสาหกรรมบนมาตรฐานทั่วไป สร้างผลลัพธ์ใหม่ในด้าน LLM ที่มีขนาด 8B และ 70B

การพัฒนาที่มีความรับผิดชอบและข้อพิจารณาด้านความปลอดภัย

ในขณะที่การแสวงหาการแสดงผลที่ทันสมัย Meta ยังให้ความสำคัญกับการพัฒนาที่มีความรับผิดชอบและแนวปฏิบัติในการใช้งานอย่างปลอดภัยสำหรับ Llama 3 บริษัทได้นำแนวทางระดับระบบ โดยมองเห็นโมเดล Llama 3 เป็นส่วนหนึ่งของระบบนิเวศที่กว้างขึ้น ซึ่งให้ผู้พัฒนาเป็นผู้ขับเคลื่อน ช่วยให้พวกเขาออกแบบและปรับแต่งโมเดลสำหรับกรณีการใช้งานและข้อกำหนดด้านความปลอดภัยเฉพาะของตนเอง

Meta ได้ดำเนินการฝึกอบรมแบบ Red Teaming อย่างกว้างขวาง ประเมินผลกระทบเชิงกลยุทธ์ และใช้เทคนิคการบรรเทาความเสี่ยงเพื่อลดความเสี่ยงที่เหลืออยู่ในโมเดลที่ปรับแต่งคำแนะนำ อย่างไรก็ตาม บริษัทตระหนักว่าความเสี่ยงที่เหลืออยู่อาจยังคงอยู่ และแนะนำให้ผู้พัฒนาควรประเมินความเสี่ยงเหล่านี้ในบริบทของกรณีการใช้งานเฉพาะของตนเอง

เพื่อสนับสนุนการนำไปใช้อย่างมีความรับผิดชอบ Meta ได้อัปเดตคู่มือการใช้งานอย่างมีความรับผิดชอบ โดยให้ทรัพยากรที่ครอบคลุมสำหรับผู้พัฒนาในการนำแนวทางปฏิบัติที่ดีที่สุดด้านความปลอดภัยของโมเดลและระบบไปใช้ คู่มือนี้ครอบคลุมหัวข้อต่างๆ เช่น การดูแลเนื้อหา การประเมินความเสี่ยง และการใช้เครื่องมือความปลอดภัย เช่น Llama Guard 2 และ Code Shield

Llama Guard 2 ซึ่งสร้างขึ้นบนภาษี MLCommons ได้รับการออกแบบมาเพื่อจัดประเภทอินพุต (คำสั่ง) และคำตอบของ LLM โดยตรวจจับเนื้อหาที่อาจถือว่าไม่ปลอดภัยหรือเป็นอันตราย CyberSecEval 2 ขยายจากตัวก่อนหน้าโดยเพิ่มมาตรการเพื่อป้องกับการใช้โค้ดอินเทอร์พรีเตอร์ของโมเดล ความสามารถด้านความปลอดภัยเชิงรุก และความเสี่ยงต่อการโจมตีแบบฉีดคำสั่ง

Code Shield ซึ่งเป็นการแนะนำใหม่พร้อมกับ Llama 3 เพิ่มการกรองแบบเรียลไทม์ของโค้ดที่ไม่ปลอดภัยที่ผลิตโดย LLM โดยลดความเสี่ยงที่เกี่ยวข้องกับคำแนะนำโค้ดที่ไม่ปลอดภัย การใช้โค้ดอินเทอร์พรีเตอร์ และการดำเนินการคำสั่งรักษาความปลอดภัย

การเข้าถึงและการใช้งาน Llama 3

หลังจากการเปิดตัว Llama 3 ของ Meta AI มีเครื่องมือ Open-Source หลายตัวที่พร้อมใช้งานสำหรับการใช้งานท้องถิ่นบนระบบปฏิบัติการต่างๆ รวมถึง Mac, Windows และ Linux ส่วนนี้อธิบายเครื่องมือที่สำคัญสามตัว: Ollama, Open WebUI และ LM Studio ซึ่งแต่ละตัวมีคุณสมบัติเฉพาะสำหรับการใช้ความสามารถของ Llama 3 บนอุปกรณ์ส่วนบุคคล

Ollama: มีให้สำหรับ Mac, Linux และ Windows Ollama ทำให้การทำงานของ Llama 3 และโมเดลภาษาขนาดใหญ่อื่นๆ บนคอมพิวเตอร์ส่วนบุคคลง่ายขึ้น แม้กระทั่งบนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า มันรวมถึงผู้จัดการแพ็คเกจสำหรับการจัดการโมเดลที่ง่ายดาย และรองรับคำสั่งบนแพลตฟอร์มต่างๆ สำหรับการดาวน์โหลดและรันโมเดล

Open WebUI พร้อม Docker: เครื่องมือนี้ให้อินเทอร์เฟซที่ใช้งานง่ายและรองรับ Docker ที่เข้ากันได้กับ Mac, Linux และ Windows มันรวมเข้ากับโมเดลจาก Ollama Registry ได้อย่างราบรื่น ทำให้ผู้ใช้สามารถใช้งานและโต้ตอบกับโมเดล เช่น Llama 3 ภายในอินเทอร์เฟซเว็บท้องถิ่น

LM Studio: มีให้สำหรับผู้ใช้บน Mac, Linux และ Windows LM Studio รองรับโมเดลต่างๆ และสร้างขึ้นบนโครงการ llama.cpp มันให้อินเทอร์เฟซการแชทและอำนวยความสะดวกในการโต้ตอบโดยตรงกับโมเดลต่างๆ รวมถึง Llama 3 8B Instruct model

เครื่องมือเหล่านี้ทำให้ผู้ใช้สามารถใช้ Llama 3 บนอุปกรณ์ส่วนบุคคลได้อย่างมีประสิทธิภาพ โดยรองรับทักษะทางเทคนิคและความต้องการที่หลากหลาย แต่ละแพลตฟอร์มมีกระบวนการตั้งค่าและโต้ตอบกับโมเดลที่มีรายละเอียด ทำให้ AI ที่ทันสมัยเข้าถึงได้ง่ายสำหรับนักพัฒนาและผู้ที่สนใจ

การนำ Llama 3 ไปใช้ในระดับใหญ่

นอกเหนือจากการให้การเข้าถึงน้ำหนักโมเดลโดยตรงแล้ว Meta ยังร่วมมือกับผู้ให้บริการคลาวด์ บริการ API โมเดล และแพลตฟอร์มฮาร์ดแวร์เพื่อให้สามารถใช้งาน Llama 3 ในระดับใหญ่ได้อย่างราบรื่น

หนึ่งในข้อได้เปรียบที่สำคัญของ Llama 3 คือประสิทธิภาพของโทเค็นที่ดีขึ้น โดยมีโทเค็นน้อยกว่า 15% เมื่อเทียบกับ Llama 2 ทำให้การอนุมานเร็วขึ้นและคุ้มค่ามากขึ้น

การรวม Grouped Query Attention (GQA) ในรุ่น 8B ของ Llama 3 ช่วยให้การอนุมานมีประสิทธิภาพเทียบเท่ากับ Llama 2 รุ่น 7B แม้จะมีการเพิ่มจำนวนพารามิเตอร์

เพื่อทำให้กระบวนการนำไปใช้ง่ายขึ้น Meta ได้ให้ Llama Recipes ซึ่งเป็นแหล่งข้อมูลโค้ดและตัวอย่างที่เปิดให้ใช้งานสำหรับการปรับแต่ง การใช้งาน การประเมินโมเดล และอื่นๆ ซึ่งเป็นทรัพยากรที่มีค่าสำหรับผู้พัฒนาที่ต้องการใช้ความสามารถของ Llama 3 ในแอปพลิเคชันของตน

สำหรับผู้ที่สนใจที่จะสำรวจประสิทธิภาพของ Llama 3 Meta ได้บูรณาการโมเดลใหม่ของตนเข้ากับ Meta AI ซึ่งเป็น AI ที่มีความสามารถสูงซึ่งสร้างขึ้นด้วยเทคโนโลยี Llama 3 ผู้ใช้สามารถโต้ตอบกับ Meta AI ผ่านแอป Meta ต่างๆ เช่น Facebook, Instagram, WhatsApp, Messenger และเว็บเพื่อทำงานให้สำเร็จ เรียนรู้ สร้างสรรค์ และเชื่อมต่อกับสิ่งที่สำคัญ

สิ่งที่จะเกิดขึ้นต่อไปสำหรับ Llama 3?

ในขณะที่โมเดล 8B และ 70B เป็นจุดเริ่มต้นของการเปิดตัว Llama 3 Meta มีแผนการที่ทะเยอทะยานสำหรับอนาคตของ LLM นี้

ในเดือนและปีที่จะมา เราคาดว่าจะเห็นความสามารถใหม่ๆ ที่ถูกแนะนำ รวมถึงการประมวลผลหลายรูปแบบ (ความสามารถในการประมวลผลและสร้างข้อมูลรูปแบบต่างๆ เช่น รูปภาพและวิดีโอ) การรองรับหลายภาษา และหน้าต่างบริบทที่ยาวขึ้นสำหรับการทำงานที่ต้องการบริบทอย่างมาก

นอกจากนี้ Meta ยังวางแผนจะปล่อยโมเดลขนาดใหญ่ขึ้น รวมถึงโมเดลที่มีพารามิเตอร์มากกว่า 400 พันล้าน ซึ่งกำลังอยู่ในระหว่างการฝึกอบรมและแสดงแนวโน้มที่น่าสนใจในด้านประสิทธิภาพและความสามารถ

เพื่อช่วยให้พัฒนาสาขานี้ต่อไป Meta จะตีพิมพ์บทความวิจัยที่ครอบคลุมเกี่ยวกับ Llama 3 โดยแบ่งปันผลการค้นพบและข้อมูลเชิงลึกกับชุมชน AI ที่กว้างขึ้น

ในฐานะการแสดงตัวอย่างของสิ่งที่จะเกิดขึ้น Meta ได้แบ่งปันภาพรวมเบื้องต้นของประสิทธิภาพของโมเดล LLM ที่ใหญ่ที่สุดบนมาตรฐานต่างๆ แม้ว่าผลลัพธ์เหล่านี้จะยังอยู่ในขั้นแรกและอาจมีการเปลี่ยนแปลง แต่ก็ให้ภาพที่น่าตื่นเต้นเกี่ยวกับศักยภาพในอนาคตของ Llama 3

สรุป

Llama 3 เป็นตัวแทนของ 里程碑ที่สำคัญในการพัฒนาของโมเดลภาษาขนาดใหญ่แบบเปิด โดยผลักดันขอบเขตของประสิทธิภาพ ความสามารถ และแนวปฏิบัติในการพัฒนาที่มีความรับผิดชอบ ด้วยโครงสร้างที่เป็นนวัตกรรมใหม่ ชุดข้อมูลการฝึกอบรมขนาดใหญ่ และเทคนิคการปรับแต่งที่ทันสมัย Llama 3 ตั้งค่ามาตรฐานใหม่ในด้าน LLM ที่มีขนาด 8B และ 70B

อย่างไรก็ตาม Llama 3 ไม่ใช่แค่โมเดลภาษาที่ทรงพลังเท่านั้น แต่ยังเป็นเครื่องพิสูจน์ถึงความมุ่งมั่นของ Meta ในการสร้างระบบ AI ที่เปิดกว้างและรับผิดชอบ โดยการให้ทรัพยากรที่ครอบคลุม เครื่องมือความปลอดภัย และแนวทางปฏิบัติที่ดีที่สุด Meta ช่วยให้ผู้พัฒนาสามารถใช้ประโยชน์จาก Llama 3 ได้อย่างเต็มที่ ในขณะเดียวกันก็รับประกันว่าการใช้งานจะถูกปรับให้เหมาะสมกับกรณีการใช้งานและผู้ชมเฉพาะของพวกเขา

เมื่อ Llama 3 ยังคงเดินหน้าต่อไปด้วยความสามารถใหม่ๆ ขนาดโมเดลที่ใหญ่ขึ้น และการค้นพบทางวิจัยที่จะถูกแบ่งปัน ชุมชน AI ตั้งตารอที่จะเห็นแอปพลิเคชั่นและความก้าวหน้าที่จะเกิดขึ้นจาก LLM นี้

ไม่ว่าคุณจะเป็นนักวิจัยที่ผลักดันขอบเขตของการประมวลผลภาษาธรรมชาติ ผู้พัฒนาที่สร้างแอปพลิเคชั่นสมาร์ทตัวถัดไป หรือผู้ที่หลงใหลใน AI ที่อยากรู้เกี่ยวกับความก้าวหน้าล่าสุด Llama 3 มีแนวโน้มที่จะเป็นเครื่องมือที่ทรงพลังในคลังของคุณ เปิดประตูใหม่และปลดปล่อยโลกแห่งความเป็นไปได้

ฉันใช้เวลาที่ผ่านมา 5 ปีในการศึกษาสิ่งที่น่าสนใจเกี่ยวกับ Machine Learning และ Deep Learning ความเชี่ยวชาญและความหลงใหลของฉันทำให้ฉันเข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังทำให้ฉันสนใจในด้าน Natural Language Processing ซึ่งเป็นสาขาที่ฉันต้องการสำรวจต่อไป