ต้นขั้ว DeepMind ค้นพบเทคนิคการฝึกอบรม AI ที่อาจทำงานในสมองของเราด้วย - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

DeepMind ค้นพบเทคนิคการฝึกอบรม AI ที่อาจทำงานในสมองของเราด้วย

mm
วันที่อัพเดท on

DeepMind เมื่อเร็วๆ นี้ ตีพิมพ์บทความ ให้รายละเอียดว่าการเรียนรู้แบบเสริมแรงประเภทที่พัฒนาขึ้นใหม่อาจอธิบายได้ว่าเส้นทางให้รางวัลภายในสมองมนุษย์ทำงานอย่างไร ตามที่รายงานโดย NewScientistวิธีการฝึกอบรมแมชชีนเลิร์นนิงเรียกว่าการเรียนรู้แบบเสริมแรงแบบกระจาย และกลไกเบื้องหลังดูเหมือนจะอธิบายได้อย่างน่าเชื่อถือว่าเซลล์ประสาทภายในสมองหลั่งโดปามีนอย่างไร

ประสาทวิทยาและวิทยาการคอมพิวเตอร์มีประวัติศาสตร์อันยาวนานร่วมกัน ย้อนกลับไปในปี 1951 Marvin Minksy ใช้ระบบการให้รางวัลและการลงโทษเพื่อสร้างโปรแกรมคอมพิวเตอร์ที่สามารถแก้ปัญหาเขาวงกตได้ Minksy ได้รับแรงบันดาลใจจากผลงานของ Ivan Pavlov นักสรีรวิทยาที่แสดงให้เห็นว่าสุนัขสามารถเรียนรู้ผ่านรางวัลและการลงโทษ บทความใหม่ของ Deepmind ได้เพิ่มประวัติศาสตร์ที่เชื่อมโยงกันของประสาทวิทยาศาสตร์และวิทยาการคอมพิวเตอร์โดยการใช้การเรียนรู้แบบเสริมแรงเพื่อให้ได้รับข้อมูลเชิงลึกว่าเซลล์ประสาทโดปามีนอาจทำงานอย่างไร

เมื่อใดก็ตามที่คนหรือสัตว์กำลังดำเนินการ คอลเล็กชันของเซลล์ประสาทในสมองที่รับผิดชอบในการปล่อยโดปามีนจะคาดการณ์ว่าการกระทำนั้นจะให้ผลตอบแทนเพียงใด เมื่อการกระทำได้ดำเนินการและผล (รางวัล) ของการกระทำนั้นปรากฏชัดเจน สมองจะหลั่งสารโดพามีนออกมา อย่างไรก็ตาม การปลดปล่อยโดพามีนนี้ถูกปรับขนาดตามขนาดของข้อผิดพลาดในการคาดคะเน หากรางวัลมีขนาดใหญ่/ดีกว่าที่คาดไว้ โดปามีนจะหลั่งออกมามากขึ้น ในทางตรงกันข้าม รางวัลที่แย่กว่านั้นนำไปสู่การหลั่งสารโดปามีนน้อยลง โดปามีนทำหน้าที่เป็นตัวแก้ไขที่ทำให้เซลล์ประสาทปรับแต่งการทำนายจนกว่าจะมาบรรจบกับรางวัลจริงที่ได้รับ สิ่งนี้คล้ายกับวิธีการทำงานของอัลกอริธึมการเรียนรู้แบบเสริมแรง

ในปี พ.ศ. 2017 นักวิจัยของ DeepMind ได้เปิดตัวเวอร์ชันปรับปรุงของอัลกอริธึมการเรียนรู้การเสริมแรงที่ใช้กันทั่วไป และวิธีการเรียนรู้ที่เหนือกว่านี้สามารถเพิ่มประสิทธิภาพในงานการเรียนรู้การเสริมแรงมากมาย ทีม DeepMind คิดว่ากลไกที่อยู่เบื้องหลังอัลกอริทึมใหม่สามารถนำมาใช้เพื่ออธิบายได้ดีขึ้นว่าเซลล์ประสาทโดปามีนทำงานอย่างไรภายในสมองของมนุษย์

ตรงกันข้ามกับอัลกอริธึมการเรียนรู้แบบเสริมแรงแบบเก่า อัลกอริทึมแบบใหม่ของ DeepMind จะแสดงรางวัลเป็นการกระจาย วิธีการเรียนรู้แบบเสริมแรงแบบเก่าแสดงถึงรางวัลโดยประมาณเป็นเพียงตัวเลขเดียวที่แสดงถึงผลลัพธ์ที่คาดหวังโดยเฉลี่ย การเปลี่ยนแปลงนี้ทำให้โมเดลแสดงรางวัลที่เป็นไปได้ได้แม่นยำขึ้นและทำงานได้ดีขึ้น ประสิทธิภาพที่เหนือกว่าของวิธีการฝึกอบรมใหม่กระตุ้นให้นักวิจัย DeepMind ตรวจสอบว่าเซลล์ประสาทโดปามีนในสมองของมนุษย์ทำงานในลักษณะเดียวกันหรือไม่

เพื่อตรวจสอบการทำงานของเซลล์ประสาทโดปามีน DeepMind ได้ทำงานร่วมกับมหาวิทยาลัยฮาร์วาร์ดเพื่อวิจัยกิจกรรมของเซลล์ประสาทโดปามีนในหนู นักวิจัยให้หนูทำงานหลายอย่างและให้รางวัลตามการทอยลูกเต๋า บันทึกว่าเซลล์ประสาทโดปามีนของพวกมันทำงานอย่างไร ดูเหมือนว่าเซลล์ประสาทที่แตกต่างกันจะทำนายผลลัพธ์ที่เป็นไปได้ที่แตกต่างกัน โดยปล่อยโดปามีนในปริมาณที่แตกต่างกัน เซลล์ประสาทบางตัวทำนายได้ต่ำกว่ารางวัลจริงในขณะที่บางตัวทำนายรางวัลได้สูงกว่ารางวัลจริง หลังจากวาดกราฟการกระจายของการคาดการณ์รางวัล นักวิจัยพบว่าการกระจายของการคาดการณ์นั้นค่อนข้างใกล้เคียงกับการกระจายรางวัลที่แท้จริง สิ่งนี้ชี้ให้เห็นว่าสมองใช้ประโยชน์จากระบบการกระจายเมื่อทำการคาดคะเนและปรับการคาดคะเนให้ตรงกับความเป็นจริงมากขึ้น

การศึกษาสามารถบอกได้ทั้งประสาทวิทยาและวิทยาการคอมพิวเตอร์ การศึกษาสนับสนุนการใช้การเรียนรู้แบบเสริมแรงแบบกระจายเป็นวิธีการสร้างแบบจำลอง AI ขั้นสูง ยิ่งไปกว่านั้น อาจมีผลกับทฤษฎีของเราเกี่ยวกับวิธีการทำงานของสมองเกี่ยวกับระบบการให้รางวัล ถ้าเซลล์ประสาทโดพามีนกระจายและเซลล์ประสาทบางส่วนมองโลกในแง่ร้ายหรือมองโลกในแง่ดีมากกว่าเซลล์อื่นๆ การทำความเข้าใจการกระจายเหล่านี้อาจเปลี่ยนวิธีที่เราเข้าใกล้แง่มุมต่างๆ ของจิตวิทยา เช่น สุขภาพจิตและแรงจูงใจ

ตามที่ MIT Technology View รายงานMatt Botvinik ผู้อำนวยการฝ่ายวิจัยด้านประสาทวิทยาศาสตร์ของ DeepMind ได้อธิบายถึงความสำคัญของการค้นพบนี้ในการแถลงข่าว Botvinik กล่าวว่า:

“ถ้าสมองกำลังใช้มันก็น่าจะเป็นความคิดที่ดี มันบอกเราว่านี่เป็นเทคนิคการคำนวณที่สามารถปรับขนาดได้ในสถานการณ์จริง มันจะเข้ากันได้ดีกับกระบวนการคำนวณอื่นๆ มันทำให้เรามีมุมมองใหม่เกี่ยวกับสิ่งที่เกิดขึ้นในสมองของเราในชีวิตประจำวัน”