ปัญญาประดิษฐ์ทั่วไป
กฎการขยายขนาดครั้งต่อไปของ AI: ไม่ใช่ข้อมูลที่มากขึ้น แต่เป็นแบบจำลองโลกที่ดีขึ้น

เป็นเวลาหลายปีแล้วที่อุตสาหกรรมปัญญาประดิษฐ์ได้ปฏิบัติตามกฎง่ายๆ แต่โหดร้ายข้อหนึ่ง นั่นคือ ยิ่งใหญ่ยิ่งดี เราฝึกฝนโมเดลด้วยชุดข้อมูลขนาดใหญ่ เพิ่มจำนวนพารามิเตอร์ และทุ่มพลังการคำนวณมหาศาลให้กับปัญหา สูตรนี้ได้ผลเกือบตลอดเวลา ตั้งแต่ GPT-3 ไปจนถึง GPT-4 และจากแชทบอทแบบง่ายๆ ไปจนถึงเครื่องมือให้เหตุผล “กฎหมายมาตราส่วน“มีการเสนอแนะว่า หากเราป้อนข้อมูลข้อความให้เครื่องจักรมากขึ้นเรื่อย ๆ ในที่สุดมันก็จะฉลาดขึ้นเอง”
แต่ตอนนี้เราเป็น ชนกำแพงอินเทอร์เน็ตมีขีดจำกัด ข้อมูลสาธารณะคุณภาพสูงกำลังจะหมดลง และผลตอบแทนจากการขยายขนาดโมเดลให้ใหญ่ขึ้นก็เริ่มไม่คุ้มค่าแล้ว การน้อยลงไปนักวิจัย AI ชั้นนำ เถียง ความเชื่อที่ว่าความก้าวหน้าครั้งใหญ่ต่อไปของปัญญาประดิษฐ์จะไม่มาจากการอ่านข้อความมากขึ้นเพียงอย่างเดียว แต่จะมาจากการเข้าใจความเป็นจริงที่อยู่เบื้องหลังข้อความนั้น บ่งชี้ถึงการเปลี่ยนแปลงพื้นฐานในจุดเน้นของ AI ซึ่งนำไปสู่ยุคของแบบจำลองโลก (World Model)
ข้อจำกัดของการทำนายโทเค็นถัดไป
เพื่อให้เข้าใจว่าทำไมเราจึงต้องการแนวทางใหม่ เราต้องพิจารณาก่อนว่าระบบ AI ในปัจจุบันทำอะไรได้บ้าง แม้ว่าจะมีศักยภาพที่น่าประทับใจ แต่โมเดลอย่าง ChatGPT หรือ Claude ก็ยังมีข้อจำกัดพื้นฐานอยู่ เครื่องมือทางสถิติพวกเขาคาดเดาคำถัดไปในลำดับโดยอาศัยความน่าจะเป็นของคำที่อยู่ก่อนหน้า พวกเขาไม่เข้าใจว่าแก้วที่ตกพื้นจะแตกกระจาย พวกเขารู้เพียงว่าในเรื่องราวนับล้านเรื่อง คำว่า "แตกกระจาย" มักจะตามหลังวลี "แก้วตกพื้น"
แนวทางนี้เรียกว่า แบบจำลองการถดถอยอัตโนมัติโมเดลนี้มีข้อบกพร่องที่สำคัญ คือมันพึ่งพาความสัมพันธ์เชิงสหสัมพันธ์โดยสิ้นเชิง ไม่ใช่ความสัมพันธ์เชิงสาเหตุ หากคุณฝึกโมเดล LLM ด้วยคำอธิบายอุบัติเหตุรถยนต์นับพันครั้ง มันจะเรียนรู้ภาษาของอุบัติเหตุ แต่จะไม่เรียนรู้หลักฟิสิกส์ของโมเมนตัม แรงเสียดทาน หรือความเปราะบาง มันเป็นเพียงผู้สังเกตการณ์ ไม่ใช่ผู้มีส่วนร่วม
ข้อจำกัดนี้กำลังกลายเป็น “ดาต้า วอลล์“เราได้รวบรวมข้อมูลจากอินเทอร์เน็ตสาธารณะเกือบทั้งหมดแล้ว หากต้องการขยายขนาดต่อไปโดยใช้วิธีการปัจจุบัน เราจะต้องใช้ข้อมูลมากกว่าที่มีอยู่หลายเท่า ข้อมูลสังเคราะห์ (เช่น ข้อความที่สร้างโดย AI) เป็นวิธีแก้ปัญหาชั่วคราว แต่บ่อยครั้งที่นำไปสู่ปัญหาใหญ่ขึ้น”โมเดลล่มสลาย“ซึ่งระบบจะขยายอคติและข้อผิดพลาดของตัวเอง เราไม่สามารถสร้างปัญญาประดิษฐ์ทั่วไป (AGI) โดยใช้เพียงข้อความได้ เพราะข้อความเป็นการบีบอัดโลกด้วยแบนด์วิดท์ต่ำ มันอธิบายความเป็นจริง แต่ไม่ใช่ความเป็นจริงนั้นเอง”
เหตุใดแบบจำลองโลกจึงมีความสำคัญ
AI ผู้นำ เช่นเดียวกับ Yann LeCun ที่ได้โต้แย้งมานานแล้วว่า ระบบ AI ในปัจจุบันขาดแง่มุมพื้นฐานของการรับรู้ของมนุษย์ ซึ่งแม้แต่เด็กเล็กก็มีอยู่ตามธรรมชาติ นั่นคือ ความสามารถของเราในการรักษารูปแบบภายในเกี่ยวกับวิธีการทำงานของโลก ซึ่งพวกเขามักเรียกกันว่า แบบจำลองโลกแบบจำลองโลกไม่ได้แค่ทำนายคำถัดไปเท่านั้น แต่ยังสร้างแผนที่ทางจิตภายในเกี่ยวกับวิธีการทำงานของสภาพแวดล้อมทางกายภาพ เมื่อเราเห็นลูกบอลกลิ้งไปอยู่หลังโซฟา เราก็รู้ว่ามันยังอยู่ที่นั่น เรารู้ว่ามันจะปรากฏอยู่อีกด้านหนึ่งเว้นแต่จะถูกหยุด เราไม่จำเป็นต้องอ่านตำราเพื่อเข้าใจเรื่องนี้ เราใช้การจำลองทางจิตโดยอาศัย "แบบจำลองโลก" ภายในของเราเกี่ยวกับฟิสิกส์และความคงอยู่ของวัตถุ
เพื่อให้ AI ก้าวหน้าขึ้น มันต้องเปลี่ยนจากการจำลองทางสถิติไปสู่การจำลองภายในแบบนี้ มันจำเป็นต้องเข้าใจสาเหตุที่แท้จริงของเหตุการณ์ ไม่ใช่แค่คำอธิบายที่เป็นข้อความเท่านั้น
การขอ สถาปัตยกรรมทำนายการฝังร่วม (JEPA) JEPA เป็นตัวอย่างสำคัญของการเปลี่ยนแปลงกระบวนทัศน์นี้ ต่างจาก LLM ที่พยายามทำนายทุกพิกเซลหรือทุกคำ (ซึ่งเป็นกระบวนการที่ใช้ทรัพยากรการคำนวณสูงและมีสัญญาณรบกวนมาก) JEPA ทำนายการแสดงผลแบบนามธรรม มันละเลยรายละเอียดที่ไม่สามารถคาดเดาได้ เช่น การเคลื่อนไหวของใบไม้แต่ละใบบนต้นไม้ และมุ่งเน้นไปที่แนวคิดระดับสูง เช่น ต้นไม้ ลม และฤดูกาล โดยการเรียนรู้ที่จะทำนายว่าสถานะระดับสูงเหล่านี้เปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป AI จึงเรียนรู้โครงสร้างของโลกมากกว่ารายละเอียดระดับพื้นผิว
จากการคาดการณ์สู่การจำลอง
เราเริ่มเห็นเค้าลางของการเปลี่ยนแปลงนี้แล้วในโมเดลการสร้างวิดีโอ เมื่อ OpenAI เปิดตัว Sora พวกเขาไม่ได้อธิบายว่ามันเป็นเพียงเครื่องมือวิดีโอ แต่เป็น “เครื่องจำลองโลก".
ความแตกต่างนี้สำคัญมาก โปรแกรมสร้างวิดีโอมาตรฐานอาจสร้างวิดีโอของคนเดินโดยการคาดการณ์ว่าพิกเซลสีใดมักจะอยู่ติดกัน แต่โปรแกรมจำลองโลกพยายามรักษาความสม่ำเสมอของภาพสามมิติ แสง และความคงอยู่ของวัตถุตลอดเวลา มัน "เข้าใจ" ว่าหากบุคคลนั้นเดินไปอยู่หลังกำแพง พวกเขาก็ไม่ควรหายไปจากโลก
แม้ว่าโมเดลวิดีโอในปัจจุบันจะยังห่างไกลจากความสมบูรณ์แบบ แต่ก็ถือเป็นสนามฝึกฝนใหม่ โลกทางกายภาพมีข้อมูลมากกว่าโลกที่เป็นข้อความอย่างมาก วิดีโอเพียงหนึ่งวินาทีมีจุดข้อมูลภาพนับล้านจุดเกี่ยวกับฟิสิกส์ แสง และปฏิสัมพันธ์ การฝึกฝนโมเดลบนความเป็นจริงทางภาพนี้ จะช่วยสอน AI ให้มี "สามัญสำนึก" ที่โมเดล LLM ในปัจจุบันยังขาดอยู่
สิ่งนี้สร้างกฎการวัดผลแบบใหม่ ความสำเร็จจะไม่ถูกวัดจากจำนวนโทเค็นหลายล้านล้านที่โมเดลอ่านได้อีกต่อไป แต่จะถูกวัดจากความแม่นยำของการจำลองและความสามารถในการทำนายสถานะในอนาคตของสภาพแวดล้อม ปัญญาประดิษฐ์ที่สามารถจำลองผลที่ตามมาของการกระทำได้อย่างแม่นยำโดยไม่ต้องลงมือทำจริง คือปัญญาประดิษฐ์ที่สามารถวางแผน คิดวิเคราะห์ และกระทำการได้อย่างปลอดภัย
ประสิทธิภาพและเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป (AGI)
การเปลี่ยนแปลงนี้ยังช่วยแก้ไขปัญหาความไม่ยั่งยืนด้วย ต้นทุนด้านพลังงาน เมื่อเทียบกับ AI ในปัจจุบัน โมเดล LLM นั้นไม่มีประสิทธิภาพ เพราะต้องทำนายทุกรายละเอียดเพื่อให้ได้ผลลัพธ์ที่สอดคล้องกัน ในขณะที่โมเดลโลก (World Model) มีประสิทธิภาพมากกว่า เพราะเลือกเฉพาะส่วนที่สำคัญ เช่นเดียวกับคนขับรถที่มุ่งเน้นไปที่ถนนและไม่สนใจรูปแบบของเมฆบนท้องฟ้า โมเดลโลกก็จะมุ่งเน้นไปที่ปัจจัยเชิงสาเหตุที่เกี่ยวข้องกับงานนั้นๆ
เลอคุนแย้งว่าแนวทางนี้ช่วยให้โมเดลเรียนรู้ได้เร็วขึ้นมาก ระบบเช่นนี้ วี-เจพีเอ (Video-Joint Embedding Predictive Architecture) ได้แสดงให้เห็นแล้วว่าสามารถบรรลุผลลัพธ์ที่ต้องการได้ด้วยจำนวนรอบการฝึกฝนที่น้อยกว่าวิธีการแบบดั้งเดิมมาก โดยการเรียนรู้ "รูปแบบ" ของข้อมูลแทนที่จะจดจำข้อมูลนั้น ๆ โมเดลโลก (World Models) สร้างรูปแบบของปัญญาประดิษฐ์ที่แข็งแกร่งกว่า ซึ่งสามารถนำไปใช้กับสถานการณ์ใหม่ ๆ ที่ไม่เคยพบเห็นมาก่อนได้ดีกว่า
นี่คือส่วนที่ขาดหายไปสำหรับปัญญาประดิษฐ์ทั่วไป (AGI) ปัญญาที่แท้จริงต้องอาศัยการนำทาง มันต้องอาศัยตัวแทนที่สามารถมองเป้าหมาย จำลองเส้นทางต่างๆ เพื่อบรรลุเป้าหมายนั้นโดยใช้แบบจำลองโลกภายในของตนเอง แล้วเลือกเส้นทางที่มีโอกาสประสบความสำเร็จสูงสุด โปรแกรมสร้างข้อความไม่สามารถทำเช่นนี้ได้ มันทำได้เพียงเขียนแผน แต่ไม่สามารถเข้าใจข้อจำกัดในการดำเนินการได้
บรรทัดด้านล่าง
อุตสาหกรรม AI กำลังอยู่ในช่วงหัวเลี้ยวหัวต่อ กลยุทธ์ "แค่เพิ่มข้อมูลเข้าไป" กำลังจะถึงจุดจบ เรากำลังก้าวจากยุคของแชทบอทไปสู่ยุคของโปรแกรมจำลอง
การขยายขีดความสามารถของ AI ในยุคต่อไปจะไม่ใช่เรื่องของการอ่านข้อมูลทั้งหมดบนอินเทอร์เน็ตอีกต่อไป แต่จะเป็นเรื่องของการเฝ้ามองโลก ทำความเข้าใจกฎเกณฑ์ต่างๆ และสร้างสถาปัตยกรรมภายในที่สะท้อนความเป็นจริง นี่ไม่ใช่แค่การอัพเกรดทางเทคนิค แต่เป็นการเปลี่ยนแปลงพื้นฐานในสิ่งที่เราพิจารณาว่าเป็น “การเรียนรู้”
สำหรับองค์กรธุรกิจและนักวิจัย เราต้องเปลี่ยนจุดสนใจ เราต้องเลิกหมกมุ่นอยู่กับการนับพารามิเตอร์ และเริ่มประเมินว่าระบบของเราเข้าใจสาเหตุและผลกระทบได้ดีแค่ไหน AI ในอนาคตจะไม่เพียงบอกคุณว่าเกิดอะไรขึ้น แต่จะแสดงให้คุณเห็นว่าอะไรอาจเกิดขึ้นได้ และเพราะเหตุใด นั่นคือคำมั่นสัญญาของแบบจำลองโลก และเป็นหนทางเดียวที่จะก้าวไปข้างหน้า












