ปัญญาประดิษฐ์
ดู คิด อธิบาย: การเพิ่มขึ้นของโมเดลภาษาหน้าจอใน AI

เมื่อประมาณหนึ่งทศวรรษที่แล้ว การแบ่งส่วนของปัญญาประดิษฐ์ระหว่างการรู้จำรูปภาพและการเข้าใจภาษา แสดงให้เห็นว่าโมเดลการมองเห็นสามารถจดจำวัตถุ แต่ไม่สามารถอธิบายได้ ในขณะที่โมเดลภาษาสามารถสร้างข้อความ แต่ไม่สามารถ “มองเห็น” ได้ ในปัจจุบัน การแบ่งส่วนนั้นกำลังหายไปอย่างรวดเร็ว Vision Language Models (VLMs) รวมทักษะการมองเห็นและภาษาเข้าด้วยกัน ทำให้สามารถตีความภาพและอธิบายได้ด้วยวิธีที่รู้สึกเหมือนมนุษย์ สิ่งที่ทำให้พวกมันโดดเด่นจริงๆ คือกระบวนการให้เหตุผลทีละขั้นตอน ซึ่งรู้จักกันในชื่อ Chain-of-Thought ซึ่งช่วยเปลี่ยนโมเดลเหล่านี้ให้เป็นเครื่องมือที่มีประสิทธิภาพและใช้ได้จริงทั่วอุตสาหกรรมต่างๆ เช่น สาธารณสุขและศึกษา ในบทความนี้ เราจะสำรวจว่า VLMs ทำงานอย่างไร ทำไมการให้เหตุผลจึงมีความสำคัญ และวิธีการที่พวกมันเปลี่ยนแปลงสาขาต่างๆ ตั้งแต่การแพทย์ไปจนถึงรถยนต์ขับเคลื่อนอัตโนมัติ
การทำความเข้าใจโมเดลภาษาหน้าจอ
โมเดลภาษาหน้าจอ หรือ VLMs เป็นประเภทของปัญญาประดิษฐ์ที่สามารถเข้าใจทั้งภาพและข้อความในเวลาเดียวกัน ไม่เหมือนกับระบบ AI เก่าๆ ที่สามารถจัดการเฉพาะข้อความหรือภาพเท่านั้น VLMs นำทักษะทั้งสองมารวมกัน ทำให้พวกมันหลากหลายมาก พวกมันสามารถมองภาพและอธิบายสิ่งที่เกิดขึ้น ตอบคำถามเกี่ยวกับวิดีโอ หรือแม้แต่สร้างภาพตามคำอธิบายที่เขียน
ตัวอย่างเช่น หากคุณขอให้ VLM อธิบายภาพของสุนัขที่วิ่งในสวนสาธารณะ VLM ไม่ได้แค่บอกว่า “มีสุนัข” แต่สามารถบอกได้ว่า “สุนัขกำลังไล่ล่าบอลใกล้ต้นโอ๊กที่ใหญ่” มันกำลังมองเห็นภาพและเชื่อมต่อภาพนั้นกับคำในลักษณะที่มีเหตุผล ความสามารถในการรวมการมองเห็นและการเข้าใจภาษาเปิดโอกาสมากมาย ตั้งแตงช่วยค้นหาภาพออนไลน์ไปจนถึงช่วยเหลือในงานที่ซับซ้อนกว่านั้น เช่น การถ่ายภาพทางการแพทย์
ที่แก่นกลาง VLMs ทำงานโดยการรวมสองส่วนหลัก: ระบบการมองเห็นที่วิเคราะห์ภาพและระบบภาษาที่ประมวลผลข้อความ ส่วนการมองเห็นจับรายละเอียด เช่น รูปทรงและสี ในขณะที่ส่วนภาษาแปลงรายละเอียดเหล่านั้นเป็นประโยค VLMs ได้รับการฝึกอบรมจากชุดข้อมูลขนาดใหญ่ที่มีคู่ภาพ-ข้อความหลายพันล้านชุด ทำให้พวกมันพัฒนาความเข้าใจและความแม่นยำสูง
สิ่งที่ Chain-of-Thought Reasoning หมายถึงใน VLMs
การให้เหตุผลแบบ Chain-of-Thought หรือ CoT คือวิธีการทำให้ AI คิดทีละขั้นตอน เหมือนกับที่เราตั้งปัญหาและแก้ไขทีละขั้นตอน ใน VLMs สิ่งนี้หมายถึง AI ไม่เพียงแต่ให้คำตอบเมื่อคุณถามเกี่ยวกับภาพ แต่ยังอธิบายวิธีการที่มันมาถึงคำตอบนั้นด้วย โดยอธิบายทีละขั้นตอน
ลองพิจารณาตัวอย่างที่คุณแสดงภาพเค้กวันเกิดที่มีเทียนและถาม “คนนี้อายุเท่าไร?” หากไม่มี CoT มันอาจจะเดาเลขใดเลขหนึ่ง แต่ด้วย CoT มันคิดทีละขั้นตอน: “โอเค ฉันเห็นเค้กที่มีเทียน เทียนมักแสดงอายุของคนๆ หนึ่ง มาเรานับเทียนกัน มี 10 ดอก ดังนั้นคนนี้คงอายุ 10 ปี” คุณสามารถติดตามการให้เหตุผลที่มันพัฒนาไป ซึ่งทำให้คำตอบนั้นเชื่อถือได้มากขึ้น
ในทำนองเดียวกัน เมื่อแสดงภาพฉากจราจรให้กับ VLM และถาม “มันปลอดภัยที่จะข้ามถนนหรือไม่?” VLM อาจให้เหตุผลว่า “สัญญาณคนเดินเป็นสีแดง ดังนั้นคุณไม่ควรข้าม มีรถกำลังเลี้ยวอยู่ใกล้ๆ และมันกำลังเคลื่อนที่ ไม่ได้หยุดนิ่ง ซึ่งหมายความว่ามันไม่ปลอดภัยในขณะนี้” โดยการเดินผ่านขั้นตอนเหล่านี้ AI แสดงให้เห็นว่ามันกำลังให้ความสนใจกับสิ่งใดในภาพและทำไมมันจึงตัดสินใจเช่นนั้น
ทำไม Chain-of-Thought จึงมีความสำคัญใน VLMs
การรวม CoT เข้ากับ VLMs นำมาซึ่งหลายข้อได้เปรียบ
ข้อแรก คือทำให้ AI น่าเชื่อถือมากขึ้น เมื่อมันให้เหตุผลทีละขั้นตอน คุณจะได้ความเข้าใจที่ชัดเจนว่ามันมาถึงคำตอบได้อย่างไร สิ่งนี้มีความสำคัญในพื้นที่ เช่น สาธารณสุข ตัวอย่างเช่น เมื่อดูภาพถ่ายรังสี MRI VLM อาจบอกว่า “ฉันเห็นเงาที่ด้านซ้ายของสมอง พื้นที่นั้นควบคุมการพูด และผู้ป่วยมีปัญหาในการพูด ดังนั้นมันอาจเป็นเนื้องอก” แพทย์สามารถติดตามตรรกะนั้นและรู้สึกมั่นใจเกี่ยวกับการให้ข้อมูลของ AI
ข้อที่สอง คือช่วยให้ AI จัดการปัญหาเชิงซ้อนได้ โดยการแบ่งปัญหาเป็นขั้นตอน มันสามารถจัดการคำถามที่ต้องการการมองเห็นมากกว่าเพียงการมองผ่านๆ ตัวอย่างเช่น การนับเทียนเป็นเรื่องง่าย แต่การกำหนดความปลอดภัยบนถนนยุ่งเหยิงต้องใช้หลายขั้นตอน รวมถึงการตรวจสอบสัญญาณจราจร การระบุรถยนต์ การประเมินความเร็ว CoT ช่วยให้ AI จัดการความซับซ้อนนี้โดยการแบ่งออกเป็นขั้นตอนหลายขั้นตอน
สุดท้ายนี้ มันทำให้ AI มีความสามารถในการปรับตัวมากขึ้น เมื่อมันให้เหตุผลทีละขั้นตอน มันสามารถนำสิ่งที่มันรู้ไปใช้กับสถานการณ์ใหม่ๆ ได้ หากมันไม่เคยเห็นเค้กแบบใดแบบหนึ่งก่อน มันก็ยังสามารถคิดออกว่าความสัมพันธ์ระหว่างเทียนและอายุเป็นอย่างไร เพราะมันคิดทีละขั้นตอน ไม่ใช่แค่นึกถึงรูปแบบที่จำได้
วิธีการที่ Chain-of-Thought และ VLMs กำลังเปลี่ยนแปลงอุตสาหกรรม
การผสมผสานระหว่าง CoT และ VLMs กำลังสร้างผลกระทบอย่างมีนัยสำคัญในหลายๆ สectors:
- สาธารณสุข: ในด้านการแพทย์ VLMs เช่น Google’s Med-PaLM 2 ใช้ CoT เพื่อแบ่งปัญหาเชิงแพทย์ที่ซับซ้อนออกเป็นขั้นตอนการวินิจฉัยที่เล็กกว่า ตัวอย่างเช่น เมื่อให้ภาพถ่ายรังสีหน้าอกและอาการ เช่น ไอและปวดหัว AI อาจคิดว่า “อาการเหล่านี้อาจเป็นไข้หวัดธรรมดา อาการแพ้ หรือบางสิ่งที่รุนแรงกว่า ไม่มีกล่องเสียงบวม ดังนั้นมันจึงไม่น่าจะเป็นการติดเชื้อรุนแรง ลมหายใจดูเหมือนจะสะอาด ดังนั้นมันจึงไม่น่าจะเป็นปอดบวม การติดเชื้อทางเดินหายใจส่วนบนเป็นคำอธิบายที่ดีที่สุด” มันเดินผ่านตัวเลือกและลงเอยด้วยคำตอบ โดยให้คำอธิบายที่ชัดเจนแก่แพทย์
- รถยนต์ขับเคลื่อนอัตโนมัติ: สำหรับรถยนต์ขับเคลื่อนอัตโนมัติ VLMs ที่ได้รับการปรับปรุงด้วย CoT เพิ่มความปลอดภัยและกระบวนการตัดสินใจ ตัวอย่างเช่น รถยนต์ขับเคลื่อนอัตโนมัติสามารถวิเคราะห์ฉากจราจรทีละขั้นตอน: ตรวจสอบสัญญาณคนเดิน ระบุรถยนต์ที่กำลังเคลื่อนที่ และตัดสินใจว่ามันปลอดภัยที่จะข้ามหรือไม่ ระบบ เช่น Wayve’s LINGO-1 สร้างคำอธิบายภาษาธรรมชาติเพื่ออธิบายการกระทำ เช่น การชะลอความเร็วสำหรับนักปั่นจักรยาน ซึ่งช่วยให้คนเห็นอกเห็นใจและผู้โดยสารเข้าใจกระบวนการให้เหตุผลของรถยนต์ การให้เหตุผลทีละขั้นตอนยังช่วยให้จัดการกับสภาพถนนไม่ปกติได้ดีขึ้นโดยการผสมผสานข้อมูลภาพเข้ากับความรู้ตามบริบท
- การวิเคราะห์ภูมิศาสตร์: โมเดล Gemini ของ Google นำการให้เหตุผลแบบ CoT มาใช้กับข้อมูลพื้นที่ เช่น แผนที่และภาพถ่ายดาวเทียม ตัวอย่างเช่น มันสามารถประเมินความเสียหายจากพายุโดยรวมภาพถ่ายดาวเทียม การพยากรณ์อากาศ และข้อมูลประชากร แล้วสร้างภาพและคำตอบที่ชัดเจนสำหรับคำถามที่ซับซ้อน ความสามารถนี้ช่วยให้การตอบสนองต่อภัยพิบัติเร็วขึ้นโดยให้ข้อมูลที่มีประโยชน์และทันเวลาแก่ผู้ตัดสินใจโดยไม่ต้องมีความเชี่ยวชาญทางเทคนิค
- หุ่นยนต์: ในด้านหุ่นยนต์ การรวม CoT และ VLMs ช่วยให้หุ่นยนต์สามารถวางแผนและดำเนินการตามขั้นตอนที่ซับซ้อนได้ดีขึ้น ตัวอย่างเช่น เมื่อหุ่นยนต์ได้รับมอบหมายให้รับวัตถุ CoT ที่เปิดใช้งาน VLM ช่วยให้หุ่นยนต์ระบุถ้วย จัดทำจุดจับได้ดีที่สุด วางแผนเส้นทางที่ไม่ชน และดำเนินการเคลื่อนไหว ในขณะเดียวกันก็ “อธิบาย” ทุกขั้นตอนของกระบวนการ โครงการ เช่น RT-2 แสดงให้เห็นว่า CoT ทำให้หุ่นยนต์สามารถปรับตัวเข้ากับงานใหม่ๆ และตอบสนองต่อคำสั่งซับซ้อนพร้อมด้วยการให้เหตุผลที่ชัดเจน
- การศึกษา: ในด้านการศึกษา AI ติวเตอร์ เช่น Khanmigo ใช้ CoT เพื่อสอนได้ดีขึ้น สำหรับปัญหาเรขาคณิต มันอาจแนะนำนักเรียน: “ก่อนอื่นเขียนสมการก่อน จากนั้นแยกตัวแปรโดยการลบ 5 จากทั้งสองข้าง ตอนนี้หารด้วย 2” แทนที่จะให้คำตอบ มันเดินผ่านกระบวนการช่วยให้นักเรียนเข้าใจแนวคิดทีละขั้นตอน
สรุป
โมเดลภาษาหน้าจอ (VLMs) ช่วยให้ AI ตีความและอธิบายข้อมูลภาพโดยใช้การให้เหตุผลทีละขั้นตอนเหมือนมนุษย์ผ่านกระบวนการ Chain-of-Thought (CoT) วิธีการนี้เพิ่มความน่าเชื่อถือ ความสามารถในการปรับตัว และการแก้ปัญหาในอุตสาหกรรมต่างๆ เช่น สาธารณสุข รถยนต์ขับเคลื่อนอัตโนมัติ การวิเคราะห์ภูมิศาสตร์ หุ่นยนต์ และการศึกษา โดยการเปลี่ยนแปลงวิธีที่ AI จัดการกับงานที่ซับซ้อนและสนับสนุนการตัดสินใจ VLMs กำลังตั้งมาตรฐานใหม่สำหรับเทคโนโลยีฉลาดที่น่าเชื่อถือและใช้ได้จริง












