Connect with us

ทุกสิ่งที่คุณต้องรู้เกี่ยวกับ Llama 3 | โมเดลโอเพ่นซอร์สที่ทรงพลังที่สุด | คอนเซปต์ถึงการใช้งาน

ปัญญาประดิษฐ์

ทุกสิ่งที่คุณต้องรู้เกี่ยวกับ Llama 3 | โมเดลโอเพ่นซอร์สที่ทรงพลังที่สุด | คอนเซปต์ถึงการใช้งาน

mm
Meta Llama 3 open source LLM OUTPERFORM GPT 4

Meta ได้เผยโฉม Llama 3 ซึ่งเป็นรุ่นต่อไปของโมเดลภาษาขนาดใหญ่ (LLM) โอเพ่นซอร์สที่มีคุณภาพสูงสุดของบริษัท โดยสร้างบนพื้นฐานที่กำหนดโดยรุ่นก่อนหน้า Llama 3 มีเป้าหมายที่จะเพิ่มความสามารถที่ทำให้ Llama 2 เป็นคู่แข่งโอเพ่นซอร์สที่สำคัญของ ChatGPT ตามที่กล่าวไว้ในบทวิจารณ์โดยรวมในบทความ Llama 2: การสำรวจลึกเกี่ยวกับคู่แข่งโอเพ่นซอร์สของ ChatGPT

ในบทความนี้ เราจะพูดถึงคอนเซปต์หลักเบื้องหลัง Llama 3 ตรวจสอบสถาปัตยกรรมและกระบวนการฝึกอบรมที่เป็นนวัตกรรมใหม่ และให้คำแนะนำเชิงปฏิบัติเกี่ยวกับวิธีการเข้าถึง ใช้ และใช้โมเดลที่เป็นนวัตกรรมใหม่นี้อย่างมีความรับผิดชอบ ไม่ว่าคุณจะเป็นนักวิจัย ผู้พัฒนา หรือผู้ที่ชื่นชอบ AI บทความนี้จะเตรียมความพร้อมให้คุณด้วยความรู้และทรัพยากรที่จำเป็นในการใช้พลังของ Llama 3 สำหรับโครงการและแอปพลิเคชันของคุณ

การพัฒนาของ Llama: จาก Llama 2 ถึง Llama 3

CEO ของ Meta Mark Zuckerberg ประกาศ การเปิดตัว Llama 3 โมเดล AI ล่าสุดที่พัฒนาโดย Meta AI โมเดลระดับแนวหน้านี้ซึ่งตอนนี้เป็นโอเพ่นซอร์ส มีเป้าหมายที่จะเพิ่มประสิทธิภาพผลิตภัณฑ์ต่างๆ ของ Meta รวมถึง Messenger และ Instagram Zuckerberg เน้นย้ำว่า Llama 3 จัดให้ Meta AI เป็นผู้ช่วย AI ที่สามารถเข้าถึงได้ฟรีที่ทันสมัยที่สุด ผู้ช่วย AI ที่สามารถเข้าถึงได้ฟรี

ก่อนที่เราจะพูดถึงรายละเอียดของ Llama 3 มาทำความรู้จักกับ Llama 2 ก่อน Llama 2 ซึ่งเปิดตัวในปี 2022 เป็น 里程碑ที่สำคัญในภูมิทัศน์ของ LLM โอเพ่นซอร์ส โดยนำเสนอโมเดลที่ทรงพลังและมีประสิทธิภาพซึ่งสามารถรันบนฮาร์ดแวร์ของผู้บริโภค

อย่างไรก็ตาม แม้ว่า Llama 2 จะเป็นความสำเร็จที่สำคัญ แต่ก็มีข้อจำกัด ผู้ใช้รายงานปัญหาเกี่ยวกับการปฏิเสธที่ไม่ถูกต้อง (โมเดลที่ปฏิเสธที่จะตอบคำสั่งเบนิน) ความเป็นประโยชน์ที่จำกัด และพื้นที่สำหรับการปรับปรุงในด้านต่างๆ เช่น การให้เหตุผลและการสร้างโค้ด

ดังนั้นจึงมี Llama 3: การตอบสนองของ Meta ต่อความท้าทายเหล่านี้และคำติชมของชุมชน ด้วย Llama 3 Meta ตั้งเป้าที่จะสร้างโมเดลโอเพ่นซอร์สที่ดีที่สุดเทียบเท่ากับโมเดลที่เป็นเจ้าของที่ดีที่สุดในปัจจุบัน ในขณะเดียวกันก็ให้ความสำคัญกับการพัฒนาและการใช้งานอย่างมีความรับผิดชอบ

Llama 3: สถาปัตยกรรมและการฝึกอบรม

หนึ่งในนวัตกรรมหลักใน Llama 3 คือ โทเคไนเซอร์ของมัน ซึ่งมีว็อกแบลรี่ที่ขยายใหญ่ขึ้นอย่างมีนัยสำคัญถึง 128,256 โทเค็น (จาก 32,000 ใน Llama 2) ว็อกแบลรี่ที่ใหญ่ขึ้นนี้ช่วยให้สามารถเข้ารหัสข้อความได้อย่างมีประสิทธิภาพทั้งสำหรับอินพุตและเอาต์พุต ซึ่งอาจนำไปสู่การปรับปรุงความสามารถหลายภาษาและประสิทธิภาพโดยรวม

Llama 3 ยังรวม การดูแลกลุ่มคำถาม (GQA) เทคนิคการแสดงข้อมูลที่มีประสิทธิภาพซึ่งเพิ่มความสามารถในการปรับขนาดและช่วยให้โมเดลจัดการบริบทที่ยาวขึ้นได้อย่างมีประสิทธิภาพ รุ่น 8B ของ Llama 3 ใช้ GQA ในขณะที่โมเดล 8B และ 70B สามารถประมวลผลลำดับได้ถึง 8,192 โทเค็น

ข้อมูลการฝึกอบรมและการปรับขนาด

ข้อมูลการฝึกอบรมที่ใช้สำหรับ Llama 3 เป็นปัจจัยสำคัญที่ทำให้ประสิทธิภาพดีขึ้น Meta ได้สร้างชุดข้อมูลขนาดใหญ่กว่า 15 ล้านล้าน โทเค็นจากแหล่งข้อมูลออนไลน์ที่มีอยู่สาธารณะ ซึ่งใหญ่กว่าชุดข้อมูลที่ใช้สำหรับ Llama 2 ถึง 7 เท่า ชุดข้อมูลนี้ยังรวมข้อมูลที่มีคุณภาพสูงมากกว่า 5% ที่ไม่ใช่ภาษาอังกฤษ ซึ่งครอบคลุมภาษา 30 ภาษา เพื่อเตรียมพร้อมสำหรับการใช้งานหลายภาษาในอนาคต

เพื่อให้แน่ใจในคุณภาพของข้อมูล Meta ใช้เทคนิคการกรองขั้นสูง รวมถึงฟิลเตอร์ฮิวริสติก ฟิลเตอร์ NSFW การลบซ้ำแบบซีแมนติก และตัวจำแนกข้อความที่ฝึกอบรมด้วย Llama 2 เพื่อคาดการณ์คุณภาพของข้อมูล ทีมงานยังดำเนินการการทดลองอย่างกว้างขวางเพื่อกำหนดส่วนผสมของแหล่งข้อมูลที่เหมาะสมที่สุดสำหรับการฝึกอบรมก่อนหน้า โดยให้ความแน่ใจว่า Llama 3 มีประสิทธิภาพดีในหลายกรณีการใช้งาน รวมถึงคำถามที่ท้าทาย STEM การเขียนโค้ด และความรู้ทางประวัติศาสตร์

การปรับขนาดการฝึกอบรมก็เป็นประเด็นสำคัญในการพัฒนา Llama 3 เช่นกัน Meta ได้พัฒนากฎการปรับขนาดที่ช่วยให้สามารถคาดการณ์ประสิทธิภาพของโมเดลที่ใหญ่ที่สุดในงานสำคัญๆ เช่น การสร้างโค้ด ก่อนการฝึกอบรมจริงๆ สิ่งนี้ช่วยให้การตัดสินใจเกี่ยวกับส่วนผสมของข้อมูลและการจัดสรรการคำนวณได้อย่างมีประสิทธิภาพมากขึ้น

โมเดลที่ใหญ่ที่สุดของ Llama 3 ถูกฝึกอบรมบนคลัสเตอร์ GPU ที่สร้างเอง 24,000 เครื่อง โดยใช้เทคนิคการขนานข้อมูล การขนานแบบโมเดล และการขนานแบบไปป์ไลน์ Meta ได้พัฒนาสแต็คการฝึกอบรมขั้นสูงซึ่งตรวจจับและจัดการข้อผิดพลาดโดยอัตโนมัติ เพิ่มเวลาใช้งาน GPU และเพิ่มประสิทธิภาพการฝึกอบรมประมาณ 3 เท่าเมื่อเทียบกับ Llama 2

การปรับแต่งคำแนะนำและการแสดงผล

เพื่อปลดปล่อยศักยภาพเต็มที่ของ Llama 3 สำหรับการแชทและแอปพลิเคชันสนทนา Meta ได้พัฒนาแนวทางใหม่ในการปรับแต่งคำแนะนำ โดยใช้ การปรับแต่งแบบดูแล (SFT) การตัวอย่างที่ปฏิเสธ การเพิ่มประสิทธิภาพนโยบายแบบพร็อกซี (PPO) และ การเพิ่มประสิทธิภาพความชอบโดยตรง (DPO)

คุณภาพของคำสั่งและอันดับความชอบที่ใช้ใน SFT และ PPO และ DPO มีบทบาทสำคัญในการแสดงผลของโมเดลที่จัดตำแหน่ง Meta ได้สร้างและตรวจสอบคุณภาพของข้อมูลเหล่านี้อย่างรอบคอบ

การฝึกอบรมบนอันดับความชอบผ่าน PPO และ DPO ยังปรับปรุงประสิทธิภาพของ Llama 3 ในงานที่ต้องใช้เหตุผลและการเขียนโค้ดอย่างมีนัยสำคัญ Meta พบว่าแม้ว่าโมเดลจะดิ้นรนในการตอบคำถามที่ต้องใช้เหตุผลโดยตรง แต่ก็ยังสามารถสร้างต้นเหตุผลที่ถูกต้องได้ การฝึกอบรมบนอันดับความชอบช่วยให้โมเดลเรียนรู้วิธีการเลือกคำตอบที่ถูกต้องจากต้นเหตุผลเหล่านี้

Arena results

ผลลัพธ์แสดงให้เห็นด้วยตัวมันเอง: Llama 3 มีประสิทธิภาพเหนือกว่าโมเดลแชทโอเพ่นซอร์สหลายรุ่นที่มีอยู่ในอุตสาหกรรมบนมาตรฐานทั่วไปของอุตสาหกรรม โดยสร้างผลลัพธ์ใหม่ในระดับแนวหน้าสำหรับ LLMs ที่ขนาดพารามิเตอร์ 8B และ 70B

การพัฒนาและการใช้งานอย่างมีความรับผิดชอบ

ในขณะที่การแสวงหาการแสดงผลที่ทันสมัย Meta ยังให้ความสำคัญกับการพัฒนาและการใช้งานอย่างมีความรับผิดชอบสำหรับ Llama 3 บริษัทได้นำแนวทางระดับระบบ โดยมองเห็นโมเดล Llama 3 เป็นส่วนหนึ่งของระบบที่กว้างขึ้น ซึ่งให้ผู้พัฒนาเป็นผู้ขับเคลื่อน ช่วยให้พวกเขาสามารถออกแบบและปรับแต่งโมเดลสำหรับกรณีการใช้งานและข้อกำหนดด้านความปลอดภัยเฉพาะของตนเอง

Meta ได้ดำเนินการฝึกอบรมแบบแดงอย่างกว้างขวาง ประเมินแบบก้าวร้าว และใช้เทคนิคการบรรเทาความปลอดภัยเพื่อลดความเสี่ยงที่เหลืออยู่ในโมเดลที่ปรับแต่งคำแนะนำ อย่างไรก็ตาม บริษัทตระหนักว่าความเสี่ยงที่เหลืออยู่อาจยังคงอยู่ และแนะนำให้ผู้พัฒนาควรประเมินความเสี่ยงเหล่านี้ในบริบทของกรณีการใช้งานเฉพาะ

เพื่อสนับสนุนการปรับใช้อย่างมีความรับผิดชอบ Meta ได้อัปเดตคู่มือการใช้งานอย่างมีความรับผิดชอบ โดยให้ทรัพยากรที่ครอบคลุมสำหรับผู้พัฒนาในการใช้แนวทางปฏิบัติด้านความปลอดภัยของโมเดลและระบบสำหรับแอปพลิเคชันของตน คู่มือนี้ครอบคลุมหัวข้อต่างๆ เช่น การดูแลเนื้อหา การประเมินความเสี่ยง และการใช้เครื่องมือความปลอดภัย เช่น Llama Guard 2 และ Code Shield

Llama Guard 2 ซึ่งสร้างบนภาษี MLCommons ได้รับการออกแบบมาเพื่อจัดประเภทอินพุต (คำสั่ง) และคำตอบของ LLMs โดยตรวจจับเนื้อหาที่อาจถือว่าไม่ปลอดภัยหรือเป็นอันตราย CyberSecEval 2 ขยายความสามารถของตัวก่อนหน้าโดยเพิ่มมาตรการเพื่อป้องกับการละเมิดตัวแปลโค้ด การรักษาความปลอดภัยทางไซเบอร์ และความเสี่ยงต่อการโจมตีแบบฉีดคำสั่ง

Code Shield ซึ่งเป็นการแนะนำใหม่ด้วย Llama 3 เพิ่มการกรองแบบเรียลไทม์ของโค้ดที่ไม่ปลอดภัยที่ผลิตโดย LLMs โดยลดความเสี่ยงที่เกี่ยวข้องกับคำแนะนำโค้ดที่ไม่ปลอดภัย การละเมิดตัวแปลโค้ด และการดำเนินการคำสั่งแบบปลอดภัย

การเข้าถึงและการใช้งาน Llama 3

หลังจากการเปิดตัว Llama 3 ของ Meta AI มีเครื่องมือโอเพ่นซอร์สหลายตัวที่พร้อมสำหรับการใช้งานบนระบบปฏิบัติการต่างๆ รวมถึง Mac, Windows และ Linux ส่วนนี้อธิบายเครื่องมือที่น่าสังเกตสามตัว: Ollama, Open WebUI และ LM Studio ซึ่งแต่ละตัวมีคุณสมบัติเฉพาะสำหรับการใช้ความสามารถของ Llama 3 บนอุปกรณ์ส่วนบุคคล

Ollama: มีให้สำหรับ Mac, Linux และ Windows Ollama ทำให้การทำงานของ Llama 3 และโมเดลภาษาขนาดใหญ่อื่นๆ ง่ายขึ้นบนคอมพิวเตอร์ส่วนบุคคล แม้กระทั่งบนฮาร์ดแวร์ที่ไม่แข็งแรง มันรวมถึงผู้จัดการแพ็คเกจสำหรับการจัดการโมเดลที่ง่ายดาย และรองรับคำสั่งบนหลายแพลตฟอร์มสำหรับการดาวน์โหลดและการรันโมเดล

Open WebUI พร้อม Docker: เครื่องมือนี้ให้อินเทอร์เฟซที่ใช้งานง่ายซึ่งใช้ Docker และเข้ากันได้กับ Mac, Linux และ Windows มันทำงานร่วมกับโมเดลจาก Ollama Registry ได้อย่างไร้รอยต่อ ช่วยให้ผู้ใช้สามารถใช้งานและโต้ตอบกับโมเดลอย่าง Llama 3 ภายในอินเทอร์เฟซเว็บที่ใช้งานง่าย

LM Studio: มีให้สำหรับผู้ใช้บน Mac, Linux และ Windows LM Studio รองรับโมเดลหลายตัวและสร้างขึ้นจากโครงการ llama.cpp มันให้อินเทอร์เฟซการแชทและอำนวยความสะดวกในการโต้ตอบโดยตรงกับโมเดลต่างๆ รวมถึง Llama 3 8B Instruct Model

เครื่องมือเหล่านี้ทำให้ผู้ใช้สามารถใช้ Llama 3 บนอุปกรณ์ส่วนบุคคลได้อย่างมีประสิทธิภาพ โดยรองรับทักษะทางเทคนิคและความต้องการที่หลากหลาย แต่ละแพลตฟอร์มมีกระบวนการขั้นตอนที่ชัดเจนสำหรับการตั้งค่าและการโต้ตอบกับโมเดล ทำให้ AI ขั้นสูงเข้าถึงได้ง่ายสำหรับนักพัฒนาและผู้ที่ชื่นชอบ AI

การปรับใช้ Llama 3 ในระดับใหญ่

นอกเหนือจากการให้การเข้าถึงน้ำหนักโมเดลโดยตรง Meta ได้ร่วมมือกับผู้ให้บริการคลาวด์ บริการ API โมเดล และแพลตฟอร์มฮาร์ดแวร์เพื่ออำนวยความสะดวกในการปรับใช้ Llama 3 ในระดับใหญ่

หนึ่งในข้อได้เปรียบหลักของ Llama 3 คือประสิทธิภาพในการใช้โทเค็นที่ดีขึ้น เนื่องมาจากโทเคไนเซอร์ใหม่ การทดสอบแสดงให้เห็นว่า Llama 3 ต้องการ 15% น้อยกว่า โทเค็นเมื่อเทียบกับ Llama 2 ซึ่งนำไปสู่การอนุมานที่เร็วขึ้นและคุ้มค่ามากขึ้น

การรวม Grouped Query Attention (GQA) ในรุ่น 8B ของ Llama 3 ช่วยให้สามารถรักษาความสามารถในการอนุมานได้เทียบเท่ากับรุ่น 7B ของ Llama 2 แม้จะมีการเพิ่มจำนวนพารามิเตอร์

เพื่อทำให้กระบวนการปรับใช้ง่ายขึ้น Meta ได้ให้ซอร์สโค้ดและตัวอย่างสำหรับการปรับแต่ง การปรับใช้ การประเมินโมเดล และอื่นๆ ใน Llama Recipes ซึ่งเป็นทรัพยากรที่มีคุณค่าสำหรับนักพัฒนาที่ต้องการใช้ความสามารถของ Llama 3 ในแอปพลิเคชันของตน

สำหรับผู้ที่สนใจที่จะสำรวจประสิทธิภาพของ Llama 3 Meta ได้บูรณาการโมเดลใหม่ล่าสุดเข้ากับ Meta AI ซึ่งเป็นผู้ช่วย AI ที่นำเทคโนโลยี Llama 3 มาใช้ ผู้ใช้สามารถโต้ตอบกับ Meta AI ผ่านแอป Meta ต่างๆ เช่น Facebook, Instagram, WhatsApp, Messenger และเว็บเพื่อทำงาน ทำความเข้าใจ สร้างสรรค์ และเชื่อมต่อกับสิ่งที่สำคัญต่อพวกเขา

สิ่งที่จะเกิดขึ้นต่อไปสำหรับ Llama 3

ในขณะที่โมเดล 8B และ 70B เป็นจุดเริ่มต้นของการเปิดตัว Llama 3 Meta มีแผนการทะเยอทะยานสำหรับอนาคตของ LLM นี้

ในเดือนและปีที่จะมาถึง เราสามารถคาดหวังฟีเจอร์ใหม่ๆ รวมถึงการประมวลผลหลายรูปแบบ (ความสามารถในการประมวลผลและสร้างข้อมูลหลายรูปแบบ เช่น รูปภาพและวิดีโอ) การใช้หลายภาษา (การรองรับหลายภาษา) และหน้าต่างบริบทที่ยาวขึ้นสำหรับการปรับปรุงประสิทธิภาพในงานที่ต้องการบริบทอย่างกว้างขวาง

นอกจากนี้ Meta ยังวางแผนจะเผยแพร่ขนาดโมเดลที่ใหญ่ขึ้น รวมถึงโมเดลที่มีพารามิเตอร์มากกว่า 400 พันล้าน ซึ่งกำลังอยู่ในระหว่างการฝึกอบรมและแสดงแนวโน้มที่น่าสนใจในด้านประสิทธิภาพและความสามารถ

เพื่อขับเคลื่อนสาขานี้ไปข้างหน้า Meta จะเผยแพร่บทความวิจัยที่ครอบคลุมเกี่ยวกับ Llama 3 โดยแบ่งปันการค้นพบและข้อคิดเห็นกับชุมชน AI ที่กว้างขึ้น

ในฐานะการแสดงตัวอย่างของสิ่งที่จะเกิดขึ้น Meta ได้แบ่งปันภาพรวมเบื้องต้นของประสิทธิภาพของโมเดล LLM ที่ใหญ่ที่สุดในมาตรฐานการประเมินต่างๆ แม้ว่าผลลัพธ์เหล่านี้จะขึ้นอยู่กับเช็คพอยต์เริ่มต้นและอาจมีการเปลี่ยนแปลง แต่ก็ให้ภาพที่น่าตื่นเต้นเกี่ยวกับศักยภาพในอนาคตของ Llama 3

สรุป

Llama 3 เป็นตัวแทนของ 里程碑ที่สำคัญในการพัฒนาของโมเดลภาษาขนาดใหญ่โอเพ่นซอร์ส โดยผลักดันขอบเขตของประสิทธิภาพ ความสามารถ และแนวทางปฏิบัติในการพัฒนาอย่างมีความรับผิดชอบ ด้วยสถาปัตยกรรมที่เป็นนวัตกรรมใหม่ ชุดข้อมูลการฝึกอบรมขนาดใหญ่ และเทคนิคการปรับแต่งที่ทันสมัย Llama 3 สร้างมาตรฐานใหม่ในระดับแนวหน้าสำหรับ LLMs ที่ขนาดพารามิเตอร์ 8B และ 70B

อย่างไรก็ตาม Llama 3 มากกว่าแค่โมเดลภาษาที่ทรงพลัง มันเป็นตัวแทนของความมุ่งมั่นของ Meta ที่จะสร้างระบบนิเวศ AI ที่เปิดกว้างและมีความรับผิดชอบ โดยการให้ทรัพยากรที่ครอบคลุม เครื่องมือความปลอดภัย และแนวทางปฏิบัติที่ดีที่สุด Meta จึงทำให้ผู้พัฒนาสามารถใช้ประโยชน์จาก Llama 3 ได้อย่างเต็มที่ ในขณะเดียวกันก็รับประกันการปรับใช้อย่างมีความรับผิดชอบที่ปรับให้เหมาะกับกรณีการใช้งานและผู้ชมเฉพาะของพวกเขา

เมื่อการเดินทางของ Llama 3 ยังคงดำเนินต่อไป โดยมีความสามารถใหม่ ขนาดโมเดล และการค้นพบทางวิจัยที่จะตามมา ชุมชน AI ตั้งตารอการประยุกต์ใช้และความก้าวหน้าที่จะเกิดขึ้นจาก LLM นี้

ไม่ว่าคุณจะเป็นนักวิจัยที่ผลักดันขอบเขตของการประมวลผลภาษาธรรมชาติ ผู้พัฒนาที่สร้างแอปพลิเคชันสมาร์ทตัวถัดไป หรือผู้ที่ชื่นชอบ AI ที่สนใจความก้าวหน้าล่าสุด Llama 3 มีแนวโน้มที่จะเป็นเครื่องมือที่ทรงพลังในคลังอาวุธของคุณ โดยเปิดประตูและปลดปล่อยโอกาสใหม่ๆ

ฉันใช้เวลา 5 ปีที่ผ่านมาในการศึกษาและเรียนรู้เกี่ยวกับโลกของ Machine Learning และ Deep Learning อย่างลึกซึ้ง ความรู้และความเชี่ยวชาญของฉันทำให้ฉันได้เข้าร่วมในโครงการพัฒนาซอฟต์แวร์มากกว่า 50 โครงการที่มีความหลากหลาย โดยมุ่งเน้นไปที่ AI/ML ความอยากรู้อยากเห็นของฉันยังดึงดูดให้ฉันสนใจไปที่ Natural Language Processing ซึ่งเป็นสาขาที่ฉันกระตือรือร้นที่จะสำรวจเพิ่มเติม