AGI

วาหิด เบซาดาน ผู้อำนวยการ Secured and Assured Intelligent Learning (SAIL) Lab – สัมภาษณ์รายการ

mm

วาหิด เป็น Assistant Professor of Computer Science and Data Science ที่ University of New Haven เขายังเป็นผู้อำนวยการของ Secure and Assured Intelligent Learning (SAIL) Lab อีกด้วย

ความสนใจในการวิจัยของเขารวมถึงความปลอดภัยและความมั่นคงของระบบอัจฉริยะ การสร้างแบบจำลองจิตวิทยาของปัญหาความปลอดภัยของ AI ความมั่นคงของระบบเชิงซ้อน การเล่นเกม ทฤษฎีเกม ระบบหลายตัวแทน และความมั่นคงทางไซเบอร์

คุณมีประสบการณ์ยาวนานในด้านความปลอดภัยทางไซเบอร์และการรักษาความปลอดภัยของ AI คุณสามารถแบ่งปันเรื่องราวของคุณเกี่ยวกับวิธีที่คุณสนใจทั้งสองสาขานี้ได้หรือไม่?

เส้นทางการวิจัยของฉันถูกขับเคลื่อนโดยสองความสนใจหลักของฉัน: การค้นหาว่าสิ่งต่างๆ ล้มเหลวและเรียนรู้เกี่ยวกับกลไกของจิตใจมนุษย์ ฉันเข้าร่วมในด้านความปลอดภัยทางไซเบอร์ตั้งแต่ช่วงวัยรุ่นตอนต้น และสร้างวาระการวิจัยแรกของฉันรอบๆ ปัญหาคลาสสิกของโดเมนนี้ หลายปีต่อมาในระหว่างการศึกษาระดับบัณฑิตศึกษา ฉันพบโอกาสที่จะเปลี่ยนสาขาวิจัยของฉัน ในเวลานั้น ฉันเพิ่งพบกับผลงานแรกของ Szegedy และ Goodfellow เกี่ยวกับการโจมตีแบบ Adversarial Example และพบว่าแนวคิดในการโจมตีเครื่องมือการเรียนรู้ของเครื่องน่าสนใจ เมื่อฉันศึกษาปัญหาเพิ่มเติม ฉันพบว่าสนามกว้างของความปลอดภัยและความมั่นคงของ AI ซึ่งครอบคลุมความสนใจหลักของฉัน เช่น ความปลอดภัยทางไซเบอร์ วิทยาศาสตร์认知 เศรษฐศาสตร์ และปรัชญา ฉันเชื่อว่าการวิจัยในพื้นที่นี้ไม่เพียงแต่น่าสนใจ แต่ยังจำเป็นต่อการรับรองผลประโยชน์และความปลอดภัยในระยะยาวของการปฏิวัติ AI

 

คุณเป็นผู้อำนวยการของ Secure and Assured Intelligent Learning (SAIL) Lab ซึ่งทำงานเพื่อสร้างรากฐานที่มั่นคงสำหรับความปลอดภัยและความมั่นคงของเครื่องจักรอัจฉริยะ คุณสามารถให้รายละเอียดเกี่ยวกับงานที่ดำเนินการโดย SAIL ได้หรือไม่?

ที่ SAIL นักเรียนและฉันทำงานเกี่ยวกับปัญหาที่อยู่ที่จุดตัดกันของความปลอดภัย AI และระบบเชิงซ้อน จุดสนใจหลักของการวิจัยของเราคือการตรวจสอบความปลอดภัยและความมั่นคงของระบบอัจฉริยะ ทั้งจากมุมมองทางทฤษฎีและประยุกต์ ในด้านทฤษฎี เรากำลังตรวจสอบปัญหา value-alignment ในการตั้งค่าหลายตัวแทนและพัฒนาทools คณิตศาสตร์เพื่อประเมินและเพิ่มประสิทธิภาพวัตถุประสงค์ของตัวแทน AI ในด้านความมั่นคงและเสถียรภาพ ในด้านประยุกต์ โครงการบางส่วนของเราตรวจสอบช่องโหว่ด้านความปลอดภัยของเทคโนโลยี AI ที่ทันสมัย เช่น รถยนต์ไร้คนขับและเทรดดิ้งอัลกอริทึม และมุ่งพัฒนาเทคนิคในการประเมินและปรับปรุงความทนทานของเทคโนโลยีเหล่านี้ต่อการโจมตีแบบ Adversarial

เรายังทำงานเกี่ยวกับการใช้เครื่องมือการเรียนรู้ของเครื่องในด้านความปลอดภัยทางไซเบอร์ เช่น การทดสอบการเจาะระบบอัตโนมัติ การตรวจจับการพยายามบุกรุกในระยะแรก และการรวบรวมและวิเคราะห์ข้อมูลภัยคุกคามอัตโนมัติจากแหล่งข้อมูลที่เปิดกว้าง เช่น สื่อสังคม

 

คุณนำความพยายามในการเสนอ การสร้างแบบจำลองปัญหาความปลอดภัยของ AI เป็นโรคจิต คุณสามารถอธิบายสิ่งนี้ได้หรือไม่?

โครงการนี้กล่าวถึงความซับซ้อนของระบบ AI ที่เพิ่มขึ้นอย่างรวดเร็ว: มันค่อนข้างยากที่จะวินิจฉัย คาดการณ์ และควบคุมพฤติกรรมที่ไม่ปลอดภัยของตัวแทนการเรียนรู้แบบเสริมในสถานการณ์ที่ไม่ซับซ้อนโดยการดูการกำหนดค่าระดับต่ำๆ ของพวกมัน ในงานนี้ เราเน้นย้ำถึงความจำเป็นของการสร้างแบบจำลองระดับสูงในการตรวจสอบปัญหาเหล่านี้ โดยได้รับแรงบันดาลใจจากแนวทางวิทยาศาสตร์ในการแก้ไขปัญหาพฤติกรรมในมนุษย์ เราเสนอแนะจิตวิทยาเป็นแบบจำลองระดับสูงที่มีประโยชน์สำหรับการสร้างแบบจำลองและวิเคราะห์พฤติกรรมที่เป็นอันตรายใน AI และ AGI ในฐานะการแสดงแนวคิด เราตรวจสอบปัญหาความปลอดภัยของ AI เรื่องการโจมตีแบบ Reward Hacking ในตัวแทนการเรียนรู้แบบเสริมที่เรียนรู้การเล่นเกม Snake คลาสสิก เราแสดงให้เห็นว่าหากเราบวก “ยาที่มีผลต่อระบบ” ลงในสภาพแวดล้อม ตัวแทนจะเรียนรู้พฤติกรรมที่ไม่เหมาะสมที่สามารถอธิบายได้ด้วยแบบจำลองประสาทวิทยาศาสตร์ของการเสพติด งานนี้ยังเสนอแนวทางการควบคุมที่อิงกับแนวทางรักษาในจิตแพทยศาสตร์ เช่น เราเสนอการใช้สัญญาณรางวัลที่สร้างขึ้นโดยอัลกอริทึมเป็นรูปแบบหนึ่งของการบำบัดด้วยยาที่สามารถเปลี่ยนพฤติกรรมที่เป็นอันตรายของตัวแทน

 

คุณมีความกังวลเกี่ยวกับความปลอดภัยของ AI เมื่อพูดถึงรถยนต์ไร้คนขับหรือไม่?

รถยนต์ไร้คนขับกำลังเป็นตัวอย่างที่โดดเด่นของการนำ AI ไปใช้ในระบบไซเบอร์ฟิสิกส์ เมื่อพิจารณาถึงความอ่อนแอในหลักการของเทคโนโลยีการเรียนรู้ของเครื่องในปัจจุบันต่อข้อผิดพลาดและการโจมตีแบบ Adversarial ฉันรู้สึกกังวลอย่างลึกซึ้งเกี่ยวกับความปลอดภัยและความมั่นคงของรถยนต์ไร้คนขับ แม้ว่าจะเป็นเพียงรถยนต์แบบกึ่งอัตโนมัติก็ตาม นอกจากนี้ สาขาการขับขี่อัตโนมัติยังขาดมาตรฐานความปลอดภัยและโพรโทคอลการประเมินอย่างรุนแรง อย่างไรก็ตาม ฉันยังคงมีความหวัง เช่นเดียวกับปัญญาธรรมชาติ AI ก็จะยังต้องเผชิญกับการทำผิดพลาด แต่วัตถุประสงค์ของรถยนต์ไร้คนขับยังคงสามารถบรรลุได้ หากอัตราและผลกระทบของความผิดพลาดเหล่านี้สามารถลดให้ต่ำกว่าของคนขับได้ เรากำลังเห็นความพยายามที่เพิ่มขึ้นในการแก้ไขปัญหาเหล่านี้ในอุตสาหกรรมและมหาวิทยาลัย รวมถึงรัฐบาล

 

การแฮ็กป้ายถนน โดยใช้สติกเกอร์หรือวิธีอื่นๆ สามารถทำให้โมดูลการมองเห็นของรถยนต์ไร้คนขับสับสนได้ คุณคิดว่านี่เป็นปัญหาใหญ่หรือไม่?

สติกเกอร์เหล่านี้และตัวอย่าง Adversarial โดยทั่วไปทำให้เกิดความท้าทายพื้นฐานต่อความแข็งแกร่งของแบบจำลองการเรียนรู้ของเครื่อง ตามคำกล่าวของ George E. P. Box “ทุกแบบจำลองนั้นไม่ถูกต้อง แต่บางแบบจำลองมีประโยชน์” ตัวอย่าง Adversarial เหล่านี้ใช้ประโยชน์จาก “ความไม่ถูกต้อง” ของแบบจำลอง ซึ่งเกิดจากธรรมชาติของการสรุปและการจำกัดข้อมูลที่ใช้ในการฝึกอบรมแบบจำลองเหล่านี้ ความพยายามล่าสุดในด้านการเรียนรู้ของเครื่องแบบ Adversarial ได้ทำให้เกิดความก้าวหน้าอย่างมากในการเพิ่มความทนทานของแบบจำลองการเรียนรู้ลึกต่อการโจมตีเหล่านี้ จากมุมมองด้านความปลอดภัย จะมีวิธีหลอกลวงแบบจำลองการเรียนรู้ของเครื่องเสมอ แต่วัตถุประสงค์หลักในการรักษาความปลอดภัยของแบบจำลองการเรียนรู้ของเครื่องคือการเพิ่มต้นทุนในการดำเนินการโจมตีเหล่านี้จนถึงจุดที่ไม่คุ้มค่าทางเศรษฐกิจ

 

จุดสนใจของคุณอยู่ที่คุณลักษณะด้านความปลอดภัยและความมั่นคงของการเรียนรู้ลึกและการเรียนรู้แบบเสริมลึก คุณคิดว่าทำไมสิ่งนี้จึงมีความสำคัญ?

การเรียนรู้แบบเสริม (RL) เป็นวิธีการนำการเรียนรู้ของเครื่องไปใช้กับปัญหาการควบคุม ซึ่งโดยคำนิยามเกี่ยวข้องกับการจัดการสภาพแวดล้อมของพวกมัน ดังนั้น ฉันเชื่อว่าระบบที่อาศัย RL มีความเสี่ยงสูงในการก่อให้เกิดความเสียหายครั้งใหญ่ในโลกแห่งความเป็นจริงเมื่อเทียบกับวิธีการเรียนรู้ของเครื่องอื่นๆ เช่น การจำแนกประเภท ปัญหานี้ยังรุนแรงขึ้นเมื่อมีการผสมผสานการเรียนรู้ลึกเข้ากับ RL ซึ่งทำให้สามารถนำ RL ไปใช้ในสถานการณ์ที่ซับซ้อนได้ นอกจากนี้ ฉันเชื่อว่าโครงสร้าง RL มีความเกี่ยวข้องอย่างใกล้ชิดกับกลไกพื้นฐานของการรับรู้ในจิตใจมนุษย์ และการตรวจสอบความปลอดภัยและความอ่อนแอของมันสามารถนำไปสู่การเข้าใจที่ดีขึ้นเกี่ยวกับขีดจำกัดของกระบวนการตัดสินใจในจิตใจของเรา

 

คุณคิดว่าเรากำลังใกล้จะบรรลุความฉลาดเทียมทั่วไป (AGI) หรือไม่?

นี่เป็นคำถามที่ยากที่จะตอบ ฉันเชื่อว่าในปัจจุบันเรามีบล็อกการก่อสร้างของสถาปัตยกรรมบางอย่างที่สามารถอำนวยความสะดวกในการเกิดขึ้นของ AGI ได้ อย่างไรก็ตาม อาจต้องใช้เวลาหลายปีหรือทศวรรษในการปรับปรุงสถาปัตยกรรมเหล่านี้และเพิ่มประสิทธิภาพในการฝึกอบรมและการบำรุงรักษา ในช่วงหลายปีที่จะมาถึง ตัวแทนของเราจะมีความฉลาดมากขึ้นในอัตราที่เพิ่มขึ้นอย่างรวดเร็ว ฉันไม่คิดว่าการเกิดขึ้นของ AGI จะถูกประกาศในรูปแบบของหัวข้อข่าวที่มีหลักฐานทางวิทยาศาสตร์ แต่จะเกิดขึ้นจากการก้าวหน้าอย่างต่อเนื่อง นอกจากนี้ ฉันเชื่อว่าเรายังคงไม่มีวิธีการที่ได้รับการยอมรับอย่างกว้างขวางในการทดสอบและตรวจจับการมีอยู่ของ AGI ซึ่งอาจทำให้เราไม่ทราบถึงตัวอย่างแรกของ AGI

 

เราจะรักษาความปลอดภัยในระบบ AGI ที่สามารถคิดได้ด้วยตนเองและอาจฉลาดกว่ามนุษย์อย่างมากได้อย่างไร?

ฉันเชื่อว่าทฤษฎีเอกภาพของพฤติกรรมอัจฉริยะคือเศรษฐศาสตร์และการศึกษาว่าเอเจนต์กระทำและโต้ตอบกันเพื่อให้บรรลุเป้าหมายของตนได้อย่างไร การตัดสินใจและการกระทำของมนุษย์ถูกกำหนดโดยวัตถุประสงค์ ข้อมูลที่มีอยู่ และทรัพยากรที่พร้อมใช้งาน ความพยายามร่วมกันและสังคมเกิดขึ้นจากผลประโยชน์ที่เกิดขึ้นในกลุ่มเหล่านี้ ตัวอย่างอื่นๆ คือประมวลกฎหมายที่ยับยั้งการตัดสินใจบางอย่างโดยการกำหนดค่าใช้จ่ายสูงกับการกระทำที่อาจก่อให้เกิดอันตรายต่อสังคม ในทำนองเดียวกัน ฉันเชื่อว่าการควบคุมแรงจูงใจและทรัพยากรสามารถทำให้เกิดสถานะของสมดุลระหว่างมนุษย์และตัวอย่างของ AGI ได้ ปัจจุบันชุมชนความปลอดภัยของ AI ตรวจสอบทฤษฎีนี้ภายใต้หัวข้อปัญหา value-alignment

 

หนึ่งในพื้นที่ที่คุณติดตามอย่างใกล้ชิดคือการต่อต้านการก่อการร้าย คุณมีความกังวลเกี่ยวกับกลุ่มก่อการร้ายที่เข้าควบคุมระบบ AI หรือ AGI หรือไม่?

มีความกังวลมากมายเกี่ยวกับการใช้เทคโนโลยี AI ในทางที่ผิด ในกรณีการดำเนินการของกลุ่มก่อการร้าย ปัญหาหลักคือความง่ายในการพัฒนาและดำเนินการโจมตีแบบอัตโนมัติ หลายคนในหมู่เพื่อนร่วมงานของฉันเตือนถึงความเสี่ยงของการสร้างอาวุธอัตโนมัติ (ดู https://autonomousweapons.org/ ) หนึ่งในปัญหาหลักของอาวุธที่ใช้ AI คือความยากในการควบคุมเทคโนโลยีพื้นฐาน AI อยู่ในระดับแนวหน้าของการวิจัยแบบโอเพ่นซอร์ส และใครก็ตามที่มีการเข้าถึงอินเทอร์เน็ตและฮาร์ดแวร์ผู้บริโภคสามารถพัฒนาระบบ AI ที่เป็นอันตรายได้ ฉันสงสัยว่าการเกิดขึ้นของอาวุธอัตโนมัติเป็นเรื่องที่หลีกเลี่ยงไม่ได้ และเชื่อว่าจะมีความจำเป็นในการพัฒนาวิธีแก้ปัญหาใหม่ๆ เพื่อต่อต้านอาวุธเหล่านี้ ซึ่งอาจนำไปสู่การวนซ้ำของการสร้างและต่อต้านอาวุธที่ใช้ AI ซึ่งอาจก่อให้เกิดความเสี่ยงต่อการดำรงอยู่ในระยะยาว

 

เราสามารถทำอะไรเพื่อรักษาความปลอดภัยของระบบ AI จากเอเจนต์ที่เป็นอันตรายเหล่านี้?

ขั้นตอนแรกและสำคัญที่สุดคือการศึกษา: วิศวกรและผู้ปฏิบัติงาน AI ทุกคนต้องเรียนรู้เกี่ยวกับจุดอ่อนของเทคโนโลยี AI และพิจารณาความเสี่ยงที่เกี่ยวข้องในการออกแบบและดำเนินระบบของตน ในส่วนของคำแนะนำทางเทคนิค มีแนวคิดและแนวทางแก้ปัญหาที่สามารถนำมาใช้ได้ ตัวอย่างเช่น การฝึกตัวแทนการเรียนรู้ของเครื่องในสถานการณ์แบบ Adversarial สามารถเพิ่มความทนทานและความแข็งแกร่งของพวกมันต่อการโจมตีแบบหลบหลีกและโจมตีนโยบาย (เช่น ดูงานวิจัยของฉันเรื่อง “Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger“) วิธีแก้ปัญหาอีกอย่างหนึ่งคือการนำความเสี่ยงของการโจมตีแบบ Adversarial มาใช้โดยตรงในการออกแบบตัวแทน (เช่น แนวทางแบบเบย์ในการสร้างแบบจำลองความเสี่ยง) อย่างไรก็ตาม ยังมีช่องว่างที่สำคัญในพื้นที่นี้ ซึ่งก็คือความจำเป็นในมาตรฐานและวิธีการที่เป็นสากลในการประเมินความแข็งแกร่งของตัวแทน AI ต่อการโจมตีแบบ Adversarial วิธีแก้ปัญหาปัจจุบันส่วนใหญ่เป็นแบบเฉพาะเจาะจงและไม่สามารถให้มาตรการโดยทั่วไปเกี่ยวกับความทนทานต่อการโจมตีทั้งหมด

 

คุณมีอะไรที่ต้องการแบ่งปันเกี่ยวกับหัวข้อเหล่านี้หรือไม่?

ในปี 2014 Scully et al. เผยแพร่บทความที่การประชุม NeurIPS ด้วยหัวข้อที่น่าสนใจมาก: “Machine Learning: The High-Interest Credit Card of Technical Debt” แม้จะมีการก้าวหน้าในพื้นที่นี้ในช่วงหลายปีที่ผ่านมา แต่คำกล่าวนี้ยังคงไม่สูญเสียความถูกต้อง สภาพปัจจุบันของ AI และการเรียนรู้ของเครื่องนั้นน่าประทับใจ แต่เรายังคงเติมช่องว่างที่สำคัญในมูลฐานและวิศวกรรมของ AI ไม่เพียงแต่ฉันไม่ต้องการขัดขวางการนำเทคโนโลยี AI ไปใช้ในเชิงพาณิชย์ แต่ฉันต้องการให้ชุมชนวิศวกรรมสามารถพิจารณาความเสี่ยงและข้อจำกัดของเทคโนโลยี AI ปัจจุบันในการตัดสินใจของตน

ฉันสนุกกับการเรียนรู้เกี่ยวกับความท้าทายด้านความปลอดภัยและความมั่นคงของระบบ AI ต่างๆ สิ่งนี้เป็นสิ่งที่บุคคล องค์กร และรัฐบาลต้องตระหนักถึง ผู้อ่านซึ่งต้องการเรียนรู้เพิ่มเติมควรเยี่ยมชม Secure and Assured Intelligent Learning (SAIL) Lab

อ็องตวนเป็นผู้นำที่มีวิสัยทัศน์และเป็นพันธมิตรผู้ก่อตั้งของ Unite.AI โดยมีความหลงใหลที่ไม่สั่นคลอนในการ塑造และส่งเสริมอนาคตของ AI และหุ่นยนต์ เขาเป็นผู้ประกอบการที่มีประสบการณ์หลายครั้ง และเชื่อว่า AI จะมีผลกระทบต่อสังคมมากเท่ากับไฟฟ้า และมักจะพูดถึงศักยภาพของเทคโนโลยีที่เปลี่ยนแปลงและ AGI

As a futurist เขาได้ให้ความสนใจในการสำรวจว่านวัตกรรมเหล่านี้จะเปลี่ยนแปลงโลกของเราอย่างไร นอกจากนี้เขายังเป็นผู้ก่อตั้ง Securities.io ซึ่งเป็นแพลตฟอร์มที่มุ่งเน้นในการลงทุนในเทคโนโลยีที่ทันสมัยซึ่งกำลังกำหนดอนาคตและเปลี่ยนแปลงภาคส่วนต่างๆ