ผู้นำทางความคิด
เมื่อ AI คิดเหมือนมนุษย์: การสำรวจจิตใจของ LLMs และ Agents

วันนี้ LLMs และ Agents เรียนรู้ วิเคราะห์ และตัดสินใจในลักษณะที่สามารถทำให้เส้นแบ่งระหว่างการ “คิด” ของอัลกอริทึมและจิตใจของมนุษย์ไม่ชัดเจน แนวทางที่พวกเขาถูกสร้างขึ้นแล้วเลียนแบบกระบวนการทางปัญญาของเรา และขนาดของการฝึกอบรมของพวกมันเกินประสบการณ์ของมนุษย์หลายเท่า ซึ่งทำให้เกิดคำถาม: เรากำลังสร้างเครื่องมือที่ขยายความสามารถของเราหรือเรากำลังสร้างจิตใจประเภทใหม่ที่มีผลลัพธ์ที่ยังไม่สามารถคาดเดาได้?
วิธีการทำงานของโมเดล
เป็นเรื่องสำคัญที่จะต้องแยกแยะระหว่างแนวคิดของ LLMs และ Agents เพื่อใช้การเปรียบเทียบกับคอมพิวเตอร์ LLM สามารถเทียบได้กับหนึ่งในปัจจัย เช่น โปรเซสเซอร์ ในขณะที่ Agent คือระบบทั้งหมด “เมนบอร์ด” ที่มีโมดูลต่างๆ เชื่อมต่อ: หน่วยความจำ การ์ดจอ และเครือข่าย ในทำนองเดียวกัน Agent คือระบบที่ซับซ้อนซึ่งสามารถรวม LLMs หนึ่งหรือหลายตัวพร้อมกับกลไกการตัดสินใจและเครื่องมือสำหรับการโต้ตอบกับสภาพแวดล้อมภายนอก
หากเราพิจารณาการทำงานของ LLM เพียงตัวเดียว มันจะลดลงเหลือการค้นหารูปแบบ แต่เมื่อ Agent เชื่อม LLMs หลายตัวเข้าด้วยกัน เราสามารถพูดได้ว่ามัน “คิด” แม้ว่ากระบวนการนี้ยังคงสร้างขึ้นจากรูปแบบ Agent สร้างตรรกะของการโต้ตอบระหว่างโมเดล: ตัวอย่างเช่น LLM หนึ่งตัววิเคราะห์งาน และตามการวิเคราะห์นั้น Agent จะกำหนดการกระทำที่ LLM อื่นควรทำ
การคิดของมนุษย์ทำงานในลักษณะที่คล้ายกัน: เราใช้ความรู้และรูปแบบที่สะสมไว้ เลือกที่เหมาะสมในเวลาที่เหมาะสมประมวลผล และสรุปผล กระบวนการนี้เรียกว่าการให้เหตุผล
ChatGPT มีหน่วยความจำสองประเภทเหมือนกับมนุษย์: หน่วยความจำระยะสั้นและหน่วยความจำระยะยาว ความแตกต่างคือการเข้าถึงระดับหน่วยความจำเหล่านี้ในมนุษย์เป็นเรื่องที่ซับซ้อนและไม่เสมอไปเป็นเช่นนั้น
หน่วยความจำระยะสั้นคือข้อมูลที่เรากำลังทำงานอยู่ในขณะนั้น สำหรับมนุษย์ อาจเป็นสิ่งที่คุณพูดเมื่อ 5 นาทีที่แล้ว: พวกเขาอาจจำได้หรือไม่จำได้ แต่ GPT จะพิจารณาทุกอย่างภายใน “หน้าต่างบริบท” ของมัน – มันไม่สามารถข้ามหรือเพิกเฉยต่อข้อมูลนี้ได้
หน่วยความจำระยะยาวในมนุษย์ประกอบด้วยความทรงจำที่ไม่เสมอ活跃และอาจปรากฏเฉพาะเมื่อมีกระตุ้นเฉพาะ: ความทรงจำจากวัยเด็ก ความบอบช้ำทางจิตใจ หรือตัวอย่างเช่น การทำงานกับนักจิตวิทยา GPT มีตรรกะที่คล้ายกัน: มันไม่ “นึกถึง” ข้อมูลโดยไม่ได้รับการกระตุ้นโดยเฉพาะ ตัวอย่างเช่น คำสั่งเช่น “ไม่ถามคำถามนี้อีก” หรือ “พูดกับฉันอย่างเป็นทางการเสมอ” สามารถเก็บไว้ในหน่วยความจำระยะยาวและใช้ระหว่างเซสชั่น
ตัวอย่างอื่นของหน่วยความจำระยะยาวคือเอกสารที่บันทึกไว้ สมมติว่าคุณอัปโหลดคำแนะนำสำหรับการวิจัยการตลาดไปยัง GPT โมเดลสามารถเก็บไว้ในหน่วยความจำ แต่ไม่ได้หมายความว่ามันจะอ้างอิงเอกสารนั้นด้วยคำถามทุกข้อ หากคุณถามว่า “คุณสามารถส่องไฟฉายไปยังดวงจันทร์ได้ไหม?” GPT จะเพิกเฉยต่อคำแนะนำ แต่หากคำขอมีคำสำคัญที่ตรงกับข้อความในเอกสาร โมเดลสามารถ “นึกถึง” มันได้
กลไกนี้ถูกนำไปใช้โดย RAG (Retrieval-Augmented Generation) ซึ่งเป็นแนวทางที่โมเดลสามารถเข้าถึงข้อมูลที่เก็บไว้โดยการกระตุ้นที่เกี่ยวข้องผ่านฐานข้อมูลเวกเตอร์
ดังนั้น จึงสามารถพูดได้ว่าโมเดลมีหน่วยความจำจริงๆ แต่มันทำงานตามตรรกะที่เป็นทางการและแตกต่างจากหน่วยความจำของมนุษย์
ทำไมการคุยกับ AI บางครั้งรู้สึกเหมือนการบำบัด และบางครั้งรู้สึกเย็นชาและเหมือนหุ่นยนต์
โมเดลภาษาร่วมสมัยมีขนาดใหญ่มาก: มันเก็บข้อมูล ความรู้ และบริบทจำนวนมาก ข้อมูลทั้งหมดนี้ถูกจัดระเบียบเป็น “กลุ่ม” พื้นที่เชิงธีมและเชิงความหมาย โมเดลได้รับการฝึกอบรมจากแหล่งต่างๆ ตั้งแต่เรื่องราวและบทความทางวิทยาศาสตร์ไปจนถึงความคิดเห็นใน YouTube
เมื่อคุณโต้ตอบกับ AI คำถาม (prompt) ของคุณจะชี้โมเดลไปยังกลุ่มใดกลุ่มหนึ่ง
ตัวอย่างเช่น หากคุณเขียนว่า: “คุณเป็นทนายความด้านอสังหาริมทรัพย์ในนิวยอร์กที่มีประสบการณ์ 20 ปี ช่วยฉันซื้ออพาร์ตเมนต์” โมเดลจะกระตุ้นกลุ่มหลายกลุ่มพร้อมกัน: ทนายความ → นิวยอร์ก → อสังหาริมทรัพย์ ในผลลัพธ์ คุณจะได้รับการตอบสนองที่สอดคล้อง เหมือนจริง และสมจริง เช่นเดียวกับการปรึกษากับทนายความที่มีประสบการณ์จริงๆ
หากคำถามเกี่ยวข้องกับหัวข้อส่วนตัวหรือปรัชญา เช่น การพัฒนาตนเองหรืออารมณ์ โมเดลจะ “เปลี่ยน” ไปยังกลุ่มอื่นๆ เช่น จิตวิทยา ปรัชญา หรือการทำงานภายใน ในกรณีนี้ คำตอบของมันอาจดูเหมือนมนุษย์และแม้กระทั่งการบำบัด
อย่างไรก็ตาม ด้วยการเขียนที่คลุมเครือหรือไม่ชัดเจน โมเดลจะ “สับสน” ในโครงสร้างกลุ่มและให้คำตอบโดยอัตโนมัติ ซึ่งเป็นทางการ ไม่มีเสียงและไม่มีสีเจตนา
รูปแบบและความลึกของคำตอบ AI ขึ้นอยู่กับกลุ่มที่คุณชี้ให้โมเดลไปด้วยคำถามของคุณ
ปรัชญาของการฝึกอบรมโมเดลและ RLHF
ปัญญาประดิษฐ์มีแนวทางต่างๆ ในการเรียนรู้ ไม่ใช่ปรัชญา แต่เป็นกลยุทธ์
ตัวเลือกแบบดั้งเดิมคือการเรียนรู้แบบมีคำแนะนำ (supervised learning) โดยที่โมเดลได้รับคำถามและคำตอบที่ถูกต้อง มันเรียนรู้โดยการสังเกตสิ่งที่ถือว่าถูกต้องและจากนั้นสร้างคำตอบที่คล้ายกันในอนาคต
แต่แนวทางอื่นคือ RLHF (Reinforcement Learning from Human Feedback) นี่คือรูปแบบที่แตกต่าง: โมเดลพยายามบางสิ่ง รับ “รางวัล” สำหรับการกระทำที่สำเร็จ และปรับพฤติกรรมของมันอย่างช้าๆ มันพัฒนากลยุทธ์ที่มีประสิทธิภาพ
RLHF สามารถเปรียบเทียบกับกระบวนการเปลี่ยนวัสดุ خامให้เป็นผลิตภัณฑ์สำเร็จรูป เพื่อสร้างโมเดลที่ใช้งานได้สะดวก ต้องใช้การทำงานอย่างมากกับข้อเสนอแนะจากมนุษย์
การฝึกอบรมโมเดลในทางปฏิบัติ
ตัวอย่างที่มีชีวิตชีวาคือ การทดลองของ OpenAI ในการฝึกอบรม Agent โดยใช้การเรียนรู้แบบเสริมกำลังในเกม “Hide and Seek”
มีสองทีมเข้าร่วม: “ผู้ตามหา” (สีแดง) และ “ผู้ซ่อน” (สีน้ำเงิน) กฎเกณฑ์ง่ายๆ: หากผู้ตามหาจับผู้ซ่อนได้ พวกเขาจะได้คะแนน แต่ถ้าไม่ พวกเขาจะเสียคะแนน ในตอนแรก Agents มีเพียงความสามารถทางกายภาพพื้นฐาน เช่น การวิ่งและกระโดด โดยไม่มีกลยุทธ์ที่กำหนดไว้ล่วงหน้า
ในตอนแรก ผู้ตามหาจะกระทำอย่างไม่สอดคล้องกัน และการจับกุมผู้ซ่อนเกิดขึ้นโดยบังเอิญ แต่หลังจากล้านๆ ครั้ง พฤติกรรมของพวกมันพัฒนาไป ผู้ซ่อนเริ่มใช้วัตถุโดยรอบเพื่อขวางประตูและสร้างอุปสรรค
การทดลองแสดงให้เห็นว่าผ่านการลองผิดลองถูกหลายพันล้านครั้ง พฤติกรรมร่วมที่ซับซ้อนสามารถก่อตัวขึ้นได้โดยไม่ต้องมีการแทรกแซงจากผู้พัฒนา นอกจากนี้ Agents เริ่มกระทำการร่วมกัน แม้ว่ากลไกการสื่อสารจะไม่ได้รับการเขียนโปรแกรมไว้ ก็เพราะว่าการทำงานเป็นทีมพิสูจน์ว่ามีประสิทธิภาพมากกว่า
มันเหมือนกับโมเดลภาษาที่มีขนาดใหญ่ ไม่สามารถเขียนสคริปต์สำหรับสถานการณ์ทั้งหมดได้: มีสถานการณ์มากมายและความผันผวนที่มากเกินไปในโลก ดังนั้น เราไม่สอนโมเดลตามกฎที่ตายตัว แต่เราสอนมันวิธีการเรียนรู้
นี่คือคุณค่าของ RLHF หากไม่มีมัน LLM และ Agents จะยังคงเป็นเพียงห้องสมุดข้อความเท่านั้น แต่ด้วยมัน มันจะกลายเป็นคู่สนทนาที่สามารถปรับตัวให้เข้ากับสถานการณ์ใหม่ๆ และพัฒนาต่อไปได้
สิ่งที่จะเกิดขึ้นต่อไป
หลายคนสงสัยว่า LLMs และการพัฒนาของ Agent อาจนำไปสู่ผลลัพธ์ที่ไม่พึงประสงค์หรือแม้กระทั่งอันตราย
เป็นเรื่องสำคัญที่จะต้องเข้าใจว่าสิ่งที่เรามองเห็นในวันนี้ไม่ใช่แม้กระทั่ง MVP แต่เป็นเพียงตัวต้นแบบเท่านั้น
การปฏิวัติจริงๆ จะไม่เกี่ยวกับการช่วยเขียนจดหมายที่สวยงามหรือแปลเป็นภาษาฝรั่งเศส สิ่งเหล่านี้เป็นเรื่องเล็กๆ ทิศทางหลักคือการทำให้กระบวนการทำงานและงานอัตโนมัติเป็นหลัก เพื่อให้เหลือเพียงงานสร้างสรรค์ทางปัญญาหรือเวลาพักผ่อนสำหรับมนุษย์
นวัตกรรมที่แท้จริงมุ่งเน้นไปที่ Agent ระบบที่สามารถคิด ทำงาน และตัดสินใจโดยไม่ต้องมีมนุษย์ นี่คือทิศทางที่บริษัทต่างๆ เช่น OpenAI, Google, Meta และอื่นๆ กำลังมุ่งเน้นความพยายามของพวกเขาในปัจจุบัน
โมเดลภาษาที่มีขนาดใหญ่เพียงเป็นรากฐาน อนาคตที่แท้จริงอยู่ที่ Agent ที่ได้รับการฝึกอบรมให้ใช้ชีวิตในโลกที่มีการเปลี่ยนแปลงได้ รับข้อเสนอแนะ และปรับตัวให้เข้ากับการเปลี่ยนแปลง












