ปัญญาประดิษฐ์

GPT-3 : Few Shot Learning for Language Model?

Published August 24, 2023

Updated April 28, 2026

Kunal Kejriwal

ในช่วงไม่กี่ปีที่ผ่านมา อุตสาหกรรม AI และ ML ได้ chứng kiếnการเติบโตอย่างรวดเร็วในการพัฒนาและการใช้งานระบบ NLP เนื่องจากนักวิจัยสามารถนำแนวทางปฏิบัติของ NLP ไปใช้ได้อย่างยืดหยุ่นและไม่ขึ้นอยู่กับงานเฉพาะสำหรับการถ่ายโอนงานในอนาคต

ในตอนแรกเป็นการใช้การแสดงผลแบบชั้นเดียวที่ใช้เวกเตอร์คำและจากนั้นจึงป้อนเข้าสู่สถาปัตยกรรมที่เฉพาะเจาะจงสำหรับงาน ต่อมาเป็นสถาปัตยกรรม RNN ที่ใช้การแสดงผลแบบหลายชั้นและสถานะตามบริบทเพื่อสร้างการแสดงผลที่ดีขึ้น และ最近ที่สุด เรามีโมเดลภาษาที่ถ่ายโอนหรือโมเดลการเกิดซ้ำที่ถูกฝึกฝนซึ่งได้กำจัดความจำเป็นในการมีสถาปัตยกรรมที่เฉพาะเจาะจงสำหรับงานโดยการปรับโมเดลเหล่านี้

โมเดลภาษาที่ถ่ายโอนได้พิสูจน์แล้วว่าเป็นจุดเปลี่ยนสำคัญในอุตสาหกรรม NLP เนื่องจากพวกมันได้นำไปสู่ความก้าวหน้าที่สำคัญในงานที่ท้าทาย เช่น การตอบคำถาม การอ่านข้อมูลความเข้าใจ หรือการอนุมานข้อความ และอื่นๆ

อย่างไรก็ตาม แม้ว่าโมเดลภาษาที่ถ่ายโอนจะมีข้อดี แต่ก็มีข้อจำกัดที่สำคัญเช่นกัน เนื่องจากต้องการการปรับแต่งเฉพาะสำหรับงานหรือชุดข้อมูลเฉพาะสำหรับงานเพื่อให้ได้ผลลัพธ์ที่ต้องการ นอกจากนี้ โมเดลภาษาที่ถ่ายโอนยังต้องการให้นักพัฒนาทำการปรับแต่งชุดข้อมูลให้หลายแสนตัวอย่างที่เฉพาะเจาะจงสำหรับงาน

ไม่ต้องสงสัยเลยว่าการกำจัดความจำเป็นในการมีชุดข้อมูลเฉพาะสำหรับงานและการปรับแต่งเฉพาะสำหรับงานจะเป็นประโยชน์อย่างมากสำหรับอุตสาหกรรม NLP เนื่องจากหลายสาเหตุ

ปัญหาเกี่ยวกับโมเดลภาษาที่ถ่ายโอนและโมเดลการเกิดซ้ำที่มีอยู่

การจำกัดความเป็นไปได้และความสามารถในการใช้งาน

ประการแรกและสำคัญที่สุด ความต้องการชุดข้อมูลขนาดใหญ่ที่มีข้อมูลที่มีฉลากสำหรับงานแต่ละงานจำกัดความสามารถในการใช้งานและความเป็นไปได้ของโมเดลภาษา โมเดลภาษาได้พบการประยุกต์ใช้ในงานหลากหลาย ตั้งแต่การสร้างเรื่องราวสั้น ไปจนถึงการแก้ไขข้อผิดพลาดทางไวยกรณ์ หรือการสร้างตัวอย่างเกี่ยวกับแนวคิด nàoๆ

การเอาเปรียบความสัมพันธ์ที่ไม่แท้จริงในข้อมูลการฝึก

ข้อจำกัดและความแคบของการกระจายตัวของการฝึกซึ่งร่วมกับความสามารถในการแสดงออกของโมเดลสามารถนำไปสู่การเพิ่มขึ้นของศักยภาพในการเอาเปรียบความสัมพันธ์ที่ไม่แท้จริงในข้อมูลการฝึก การเอาเปรียบข้อมูลการฝึกสามารถนำไปสู่ปัญหาในการปรับแต่งและฝึกฝนเนื่องจากโมเดลภาษาที่ถ่ายโอนได้ถูกออกแบบมาเพื่อซึมซับข้อมูลจำนวนมากในช่วงการฝึก

นอกจากนี้ การศึกษางานก่อนหน้านี้ได้แสดงให้เห็นว่าโมเดลขนาดใหญ่ไม่ได้ให้ผลลัพธ์ที่ดีกว่าเสมอไปเมื่อเทียบกับโมเดลอื่นๆ ที่ถูกปรับแต่ง และการเรียนรู้ที่ได้รับภายใต้แบบแผนการฝึกดังกล่าวสามารถนำไปสู่ผลลัพธ์ที่ไม่ดี เนื่องจากโมเดลมีความเฉพาะเจาะจงกับข้อมูลการฝึกและไม่สามารถทำงานได้ดีในสถานการณ์ที่อยู่นอกเหนือข้อมูลการฝึก

การเปรียบเทียบกับการเรียนรู้ของมนุษย์

สุดท้ายนี้ เมื่อเปรียบเทียบกับโมเดลภาษาที่ถ่ายโอน มนุษย์ไม่ต้องการชุดข้อมูลขนาดใหญ่เพื่อเรียนรู้งานส่วนใหญ่ของภาษา โดยทั่วไปแล้ว การให้คำแนะนำอย่างสั้นๆ ในภาษาธรรมชาติหรือการแสดงตัวอย่างเล็กๆ น้อยๆ ของงานภาษาเพียงพอแล้วสำหรับมนุษย์ที่จะเข้าใจและทำงานภาษาด้วยระดับความสามารถที่แน่นอน

ความสามารถในการปรับตัวของมนุษย์มีประโยชน์หลายอย่าง เช่น ช่วยให้สามารถเปลี่ยนระหว่างทักษะที่แตกต่างกันหรือผสมผสานทักษะเพื่อทำงานได้ดีขึ้นในระหว่างการสนทนา ซึ่งเป็นสิ่งที่โมเดลภาษาปัจจุบันไม่สามารถทำได้

การแก้ไขปัญหาโดยใช้การเรียนรู้แบบเมต้าและ GPT-3

วิธีแก้ไขที่เป็นไปได้สำหรับปัญหาเหล่านี้คือการใช้การเรียนรู้แบบเมต้า ซึ่งเป็นแนวคิดใน ML ที่สมัยใหม่ที่ช่วยให้โมเดลสามารถพัฒนาทักษะและความสามารถในการรับรู้รูปแบบที่กว้างขึ้นระหว่างการฝึก และจากนั้นใช้ทักษะเหล่านั้นในการอนุมานเพื่อปรับตัวได้อย่างรวดเร็วหรือรับรู้งานที่ต้องการ

การเรียนรู้แบบเมต้ากำลังถูกนำไปใช้ในสถาปัตยกรรมโมเดลภาษาโดยใช้เทคนิคที่เรียกว่า “การเรียนรู้ในบริบท” ซึ่งใช้ข้อความที่ป้อนเข้าโมเดลภาษาที่ถูกฝึกไว้แล้วเป็นการกำหนดงาน ในกระบวนการนี้ โมเดลจะให้เงื่อนไขตามคำแนะนำภาษาธรรมชาติ และอาจใช้ตัวอย่างเล็กๆ น้อยๆ และจากนั้นโมเดลจะคาดการณ์ขั้นตอนต่อไป

ปัญหาหลักของการเรียนรู้แบบเมต้าคือ แม้ว่ามันแสดงศักยภาพในเชิงบวก แต่ก็ยังต่ำกว่าการปรับแต่งในสถาปัตยกรรมภาษาธรรมชาติ และต้องการการปรับปรุงเพิ่มเติมเพื่อให้กลายเป็นวิธีการปฏิบัติที่มีประสิทธิภาพสำหรับการเอาชนะงานภาษา

นอกจากการเรียนรู้แบบเมต้าแล้ว วิธีอื่นที่กำลังได้รับความนิยมคือการเพิ่มความสามารถของโมเดลภาษาที่ถ่ายโอนโดยการเพิ่มขนาดของโมเดล ในช่วงไม่กี่ปีที่ผ่านมา โมเดลที่ถ่ายโอนได้เห็นการเพิ่มขึ้นของขนาดอย่างมาก โดยมีโมเดล RNSS18 ที่มี 100 ล้านพารามิเตอร์, โมเดล DCLT18 ที่มี 300 ล้านพารามิเตอร์, โมเดล RWC19 ที่มี 1.5 พันล้านพารามิเตอร์, โมเดล SSP19 ที่มี 8 พันล้านพารามิเตอร์, โมเดล RSR19 ที่มี 11 พันล้านพารามิเตอร์ และโมเดล TUR20 ที่มี 17 พันล้านพารามิเตอร์

การเพิ่มขนาดของโมเดลหรือการเพิ่มพารามิเตอร์ตามประวัติศาสตร์แล้วมักจะนำไปสู่การปรับปรุงในด้านสังเคราะห์ข้อความ และมีแนวโน้มที่จะปรับปรุงการขาดความสูญเสียที่เกี่ยวข้องกับงานในอนาคตด้วย

ซึ่งนำเราไปสู่โมเดล GPT-3 ที่มีพารามิเตอร์มากกว่า 175 พันล้านพารามิเตอร์ และเมื่อเปิดตัวเป็นโมเดลภาษาที่ถ่ายโอนขนาดใหญ่ที่สุดในขณะนั้น มาทำความรู้จักกับโมเดล GPT-3 กัน

การแนะนำโมเดล GPT-3

GPT-3 เป็นโมเดลภาษาอัตลักษณ์ที่มีพารามิเตอร์มากกว่า 175 พันล้านพารามิเตอร์ที่ถูกปล่อยออกมาโดย OpenAI ในปี 2020 GPT-3 จัดอยู่ในหมวดของโมเดลภาษาขนาดใหญ่ เช่นเดียวกับโมเดล GPT-2 ที่เป็นตัวเดิม ซึ่งเป็นโมเดลทรานส์ฟอร์เมอร์ที่ใช้การออกแบบแบบ decoder-only ที่ใช้โครงสร้างแบบ convolution เพื่อสร้างข้อความ

โมเดล GPT-3 วัดความสามารถในการเรียนรู้บริบทของตนเอง และโมเดล GPT-3 ถูกประเมินบนชุดข้อมูล NLP มากกว่าสองโหลและงานใหม่ๆ มากมาย สำหรับงานแต่ละงาน โมเดล GPT-3 ถูกประเมินภายใต้สามเงื่อนไข

การเรียนรู้แบบ Few Shot หรือ In-Context Learning: ใน Few Shot Learning โมเดล GPT-3 อนุญาตให้มีการกระจายตัวที่เหมาะสมกับหน้าต่างบริบทของโมเดล
การเรียนรู้แบบ One Shot: ใน One Shot Learning โมเดลอนุญาตให้มีตัวอย่างเพียงตัวอย่างเดียว
การเรียนรู้แบบ Zero Shot: ใน Zero Shot Learning ไม่มีตัวอย่าง และมีเพียงคำแนะนำภาษาธรรมชาติที่ป้อนเข้าโมเดล

โดยทั่วไปแล้ว โมเดล GPT-3 ให้ผลลัพธ์ที่ต้องการใน Zero-Shot และ One-Shot และใน Few-Shot มันสามารถเอาชนะโมเดลที่ถ่ายโอนร่วมสมัยส่วนใหญ่ นอกจากนี้ โมเดล GPT-3 ยังทำงานได้ดีใน One-Shot และ Zero-Shot สำหรับงานภาษาที่ต้องการการให้เหตุผลหรือความสนใจอย่างรวดเร็ว เช่น การใช้คำใหม่หลังประโยค หรือการแก้สมการทางคณิตศาสตร์ ในทางกลับกัน เมื่อทำงานใน Few-Shot โมเดล GPT-3 สามารถสร้างบทความข่าวที่เหมือนกับการเขียนของมนุษย์ได้เมื่อผ่านการประเมินของมนุษย์

โมเดล GPT-3: วิธีการ

โมเดล GPT-3 ใช้วิธีการฝึกแบบเดิมที่ประกอบด้วยโมเดล ข้อมูล และการฝึก ซึ่งคล้ายกับโมเดล RWC-19 โมเดล GPT-3 เพิ่มขนาดของโมเดล ขนาดของชุดข้อมูล ความหลากหลายของชุดข้อมูล และเพิ่มความยาวของช่วงการฝึก

โมเดลยังใช้วิธีการเรียนรู้ในบริบทที่คล้ายกับโมเดล RWC-19 แต่ปรับเปลี่ยนเล็กน้อยโดยการสำรวจการตั้งค่าต่างๆ สำหรับการเรียนรู้รูปแบบภายในบริบทของชุดข้อมูล

การปรับโมเดล

การปรับโมเดลเป็นวิธีการที่ใช้กันอย่างแพร่หลายในโมเดลภาษาที่ถ่ายโอน ซึ่งเกี่ยวข้องกับการอัปเดตหน่วยความจำของโมเดลที่ถูกฝึกไว้แล้วโดยการฝึกโมเดลบนชุดข้อมูลที่มีการกำกับและเฉพาะเจาะจงสำหรับงานที่ต้องการ และใช้ตัวอย่างที่มีฉลากหลายแสนตัวอย่างในช่วงการฝึก

วิธีการปรับโมเดลมีประโยชน์เพราะให้ผลลัพธ์ที่แข็งแกร่งบนมาตรฐานต่างๆ ในทางกลับกัน ข้อจำกัดหลักของวิธีการปรับโมเดลคือต้องการชุดข้อมูลใหม่และขนาดใหญ่สำหรับงานแต่ละงาน มีศักยภาพในการเอาเปรียบคุณลักษณะที่ไม่แท้จริงของชุดข้อมูลการฝึก และอาจนำไปสู่การเปรียบเทียบที่ไม่ยุติธรรมกับการทำงานของมนุษย์ และการเรียนรู้ที่ไม่ดีสำหรับสถานการณ์ที่อยู่นอกเหนือชุดข้อมูลการฝึก

ขอบเขตปัจจุบันของโมเดล GPT-3 ไม่ได้นำวิธีการปรับโมเดลมาใช้เนื่องจากการทำงานที่ไม่ขึ้นอยู่กับงาน แม้ว่าการปรับโมเดลสามารถนำมาใช้กับโมเดล GPT-3 ในอนาคต

Few Shot

Few Shot เป็นคำที่อธิบายสถานการณ์ที่โมเดล GPT-3 ได้รับตัวอย่างเล็กๆ น้อยๆ ของงานในช่วงการอนุมานเป็นเงื่อนไข แต่ไม่ได้อัปเดตหน่วยความจำของโมเดล ใน Few Shot ตัวอย่างในชุดข้อมูลมักจะมีตัวอย่างที่มีบริบทและความสมบูรณ์ (เช่น วลีภาษาฝรั่งเศสและคำแปลภาษาอังกฤษ) Few Shot ให้โมเดล K ตัวอย่างของบริบทและความสมบูรณ์ และจากนั้นให้โมเดลบริบทสุดท้ายและคาดหวังให้โมเดลให้ความสมบูรณ์

One Shot

ใน One Shot โมเดลได้รับตัวอย่างเพียงตัวอย่างเดียว และส่วนที่เหลือคล้ายกับ Few Shot สาเหตุที่ One Shot มีความเกี่ยวข้องในโมเดลภาษาที่ถ่ายโอนคือว่ามันเป็นวิธีที่ดีที่สุดในการสื่อสารงานให้กับมนุษย์

Zero Shot

ใน Zero Shot ไม่มีตัวอย่าง และโมเดลได้รับคำแนะนำภาษาธรรมชาติที่อธิบายงาน วิธี Zero Shot เป็นวิธีที่ให้ความสะดวกสบายสูงสุด ทนทาน และหลีกเลี่ยงความสัมพันธ์ที่ไม่แท้จริง แต่ก็เป็นวิธีที่ท้าทายที่สุด

โมเดล GPT-3: สถาปัตยกรรม

โมเดล GPT-3 ใช้สถาปัตยกรรมเดียวกันกับโมเดล GPT-2 และรวมถึงการปรับมาตรฐานก่อนการเรียนรู้ การเริ่มต้นแบบดัดแปลง และเทคนิคการแปลงโทเค็นแบบผันกลับ เช่นเดียวกับที่ใช้ในโมเดล GPT-2 โดยมีข้อยกเว้นเล็กน้อย เช่น การใช้กลยุทธ์ทางเลือกสำหรับรูปแบบการดูแลที่กระจายและชั้นหนาแน่นแบบสลับในชั้นของทรานส์ฟอร์เมอร์

เพื่อศึกษาความสัมพันธ์ระหว่างประสิทธิภาพของโมเดลกับขนาดของโมเดล ผู้พัฒนาได้ฝึกโมเดล 8 ขนาดที่แตกต่างกันซึ่งครอบคลุมสามอันดับของขนาดตั้งแต่ 125 ล้านถึง 175 พันล้านพารามิเตอร์ โดยโมเดลสุดท้ายที่เรียกว่า GPT-3 การศึกษาก่อนหน้านี้เกี่ยวกับโมเดลภาษาขนาดใหญ่แสดงให้เห็นว่าการปรับขนาดของความสูญเสียการตรวจสอบกับจำนวนการฝึกที่เพียงพอควรเป็นพลังที่เรียบง่ายในฐานะฟังก์ชันของขนาด

ชุดข้อมูลการฝึก

โดยทั่วไป โมเดลภาษาขนาดใหญ่จะใช้ชุดข้อมูลที่มีขนาดใหญ่มากซึ่งได้ขยายตัวขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา และรวมถึงชุดข้อมูล Common Crawl ที่มีคำมากกว่า 1 ล้านล้านคำ ชุดข้อมูลขนาดใหญ่เพียงพอที่จะฝึกโมเดล GPT-3 โดยไม่ต้องอัปเดตบนลำดับเดียวกันหลายครั้ง

อย่างไรก็ตาม การศึกษาและวิเคราะห์ประสิทธิภาพแสดงให้เห็นว่าชุดข้อมูล Common Crawl ที่มีการกรองเบาๆ หรือไม่กรองมีคุณภาพต่ำเมื่อเทียบกับชุดข้อมูลที่ดูแลอย่างดี

การประเมิน

สำหรับการเรียนรู้แบบ Few Shot โมเดลจะประเมินตัวอย่างทุกตัวอย่างในชุดข้อมูลการประเมินโดยการวาดตัวอย่าง K ตัวอย่างจากชุดข้อมูลการฝึกของงานนั้นเป็นเงื่อนไขและแบ่งด้วย 1 หรือ 2 บรรทัดใหม่ขึ้นอยู่กับงาน

ผลลัพธ์

รูปด้านบนแสดงเส้นโค้งการฝึกสำหรับโมเดล 8 โมเดลที่ใช้ในสถาปัตยกรรม GPT-3 ตามที่อธิบายไว้ในส่วนก่อนหน้า เช่นเดียวกับผลลัพธ์จากโมเดล KMH การทำงานของโมเดล GPT-3 ติดตามกฎที่เหมาะสมเมื่อใช้การคำนวณการฝึกอย่างมีประสิทธิภาพ มีความแตกต่างเล็กน้อยจากกฎเมื่อขยายแนวโน้มออกไปอีกสองอันดับของขนาด

ความคิดสุดท้าย

สามารถกล่าวได้ว่า GPT-3 เป็นขั้นตอนการปฏิวัติในอุตสาหกรรม LLM เนื่องจาก GPT-3 ช่วยผลักดันขอบเขตของสิ่งที่โมเดลภาษาสามารถทำได้ และเป็นรากฐานที่สำคัญสำหรับการพัฒนาโมเดลภาษาขนาดใหญ่ที่แม่นยำที่สุดในปัจจุบัน ซึ่งก็คือ GPT-4