AGI

Vahid Behzadan, Giám đốc Phòng thí nghiệm Học tập Thông minh An toàn và Đảm bảo (SAIL) – Loạt phỏng vấn

Published April 27, 2020

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Vahid là Giáo sư trợ lý về Khoa học Máy tính và Khoa học Dữ liệu tại Đại học New Haven. Ông cũng là giám đốc của Phòng thí nghiệm Học tập Thông minh An toàn và Đảm bảo (SAIL)

Các lĩnh vực nghiên cứu của ông bao gồm an toàn và bảo mật của các hệ thống thông minh, mô hình tâm lý về các vấn đề an toàn của AI, bảo mật của các hệ thống phức tạp thích ứng, lý thuyết trò chơi, hệ thống đa tác nhân và an ninh mạng.

Bạn có một nền tảng rộng lớn về an ninh mạng và giữ cho AI an toàn. Bạn có thể chia sẻ hành trình của mình về cách bạn bị thu hút bởi cả hai lĩnh vực?

Con đường nghiên cứu của tôi đã được thúc đẩy bởi hai lợi ích cốt lõi của tôi: tìm hiểu cách mọi thứ bị hỏng và học về cơ chế của tâm trí con người. Tôi đã tham gia tích cực vào an ninh mạng từ những năm thiếu niên và do đó đã xây dựng chương trình nghiên cứu ban đầu của mình xung quanh các vấn đề kinh điển của lĩnh vực này. Vài năm vào nghiên cứu sau đại học, tôi偶然 gặp một cơ hội hiếm để thay đổi lĩnh vực nghiên cứu của mình. Tại thời điểm đó, tôi vừa mới biết về các công trình đầu tiên của Szegedy và Goodfellow về các cuộc tấn công ví dụ đối lập và thấy ý tưởng tấn công học máy rất thú vị. Khi tôi nhìn sâu vào vấn đề này, tôi đã học về lĩnh vực chung của an toàn và bảo mật AI và thấy rằng nó bao gồm nhiều lợi ích cốt lõi của tôi, chẳng hạn như an ninh mạng, khoa học nhận thức, kinh tế và triết học. Tôi cũng tin rằng nghiên cứu trong lĩnh vực này không chỉ thú vị mà còn quan trọng để đảm bảo lợi ích và an toàn lâu dài của cuộc cách mạng AI.

Bạn là giám đốc của Phòng thí nghiệm Học tập Thông minh An toàn và Đảm bảo (SAIL) đang làm việc để đặt nền móng cụ thể cho an toàn và bảo mật của các máy thông minh. Bạn có thể đi vào một số chi tiết về công việc được thực hiện bởi SAIL?

Tại SAIL, các sinh viên và tôi làm việc trên các vấn đề nằm ở giao điểm của bảo mật, AI và các hệ thống phức tạp. Mục tiêu chính của nghiên cứu của chúng tôi là điều tra an toàn và bảo mật của các hệ thống thông minh, từ cả quan điểm lý thuyết và ứng dụng. Về phía lý thuyết, chúng tôi hiện đang điều tra vấn đề liên kết giá trị trong các thiết lập đa tác nhân và đang phát triển các công cụ toán học để đánh giá và tối ưu hóa các mục tiêu của các tác nhân AI liên quan đến sự ổn định và liên kết mạnh mẽ. Về phía ứng dụng, một số dự án của chúng tôi khám phá các lỗ hổng bảo mật của các công nghệ AI tiên tiến, chẳng hạn như xe tự hành và giao dịch thuật toán, và nhằm phát triển các kỹ thuật để đánh giá và cải thiện khả năng chống lại các cuộc tấn công đối lập của các công nghệ này.

Chúng tôi cũng làm việc về các ứng dụng của học máy trong an ninh mạng, chẳng hạn như kiểm tra thâm nhập tự động, phát hiện sớm các nỗ lực xâm nhập và thu thập và phân tích thông tin về mối đe dọa tự động từ các nguồn dữ liệu mở như truyền thông xã hội.

Bạn gần đây đã dẫn đầu một nỗ lực để đề xuất mô hình hóa các vấn đề an toàn AI như các rối loạn tâm lý. Bạn có thể giải thích điều này là gì?

Dự án này giải quyết sự phức tạp ngày càng tăng của các tác nhân và hệ thống AI: nó đã rất khó để chẩn đoán, dự đoán và kiểm soát các hành vi không an toàn của các tác nhân học tăng cường trong các thiết lập không tầm thường bằng cách chỉ nhìn vào các cấu hình cấp thấp của chúng. Trong công việc này, chúng tôi nhấn mạnh nhu cầu về các trừu tượng cấp cao hơn trong việc điều tra các vấn đề như vậy. Lấy cảm hứng từ các phương pháp khoa học để giải quyết các vấn đề hành vi ở người, chúng tôi đề xuất tâm lý học như một trừu tượng cấp cao hữu ích để mô hình hóa và phân tích các hành vi có hại phát sinh trong AI và AGI. Để chứng minh khái niệm này, chúng tôi nghiên cứu vấn đề an toàn AI của việc hack phần thưởng trong một tác nhân học tăng cường học cách chơi trò chơi Snake kinh điển. Chúng tôi cho thấy rằng nếu chúng tôi thêm một “hạt giống thuốc” vào môi trường, tác nhân học một hành vi không tối ưu có thể được mô tả thông qua các mô hình khoa học thần kinh về nghiện. Công việc này cũng đề xuất các phương pháp điều khiển dựa trên các phương pháp điều trị được sử dụng trong tâm thần học. Ví dụ, chúng tôi đề xuất sử dụng các tín hiệu phần thưởng được tạo ra một cách nhân tạo như các tương tự của liệu pháp thuốc để sửa đổi hành vi có hại của các tác nhân.

Bạn có lo lắng về an toàn AI khi nói đến xe tự hành?

Xe tự hành đang trở thành các ví dụ nổi bật về việc triển khai AI trong các hệ thống mạng và vật lý. Xem xét sự dễ bị tổn thương cơ bản của các công nghệ học máy hiện tại đối với sai lầm và các cuộc tấn công đối lập, tôi rất lo lắng về an toàn và bảo mật của thậm chí các xe tự hành bán tự động. Ngoài ra, lĩnh vực lái xe tự hành bị thiếu nghiêm trọng về các tiêu chuẩn an toàn và giao thức đánh giá. Tuy nhiên, tôi vẫn lạc quan. Giống như trí tuệ tự nhiên, AI cũng sẽ dễ bị mắc sai lầm. Tuy nhiên, mục tiêu của xe tự lái vẫn có thể được thỏa mãn nếu tỷ lệ và tác động của những sai lầm như vậy được giảm xuống thấp hơn so với những của tài xế con người. Chúng tôi đang chứng kiến những nỗ lực ngày càng tăng để giải quyết những vấn đề này trong ngành công nghiệp và học thuật, cũng như chính phủ.

Hack các biển báo đường với các nhãn dán hoặc sử dụng các phương tiện khác có thể làm cho mô-đun tầm nhìn máy tính của xe tự hành bị nhầm lẫn. Bạn nghĩ vấn đề này lớn đến mức nào?

Những nhãn dán này và các ví dụ đối lập nói chung tạo ra những thách thức cơ bản về độ bền của các mô hình học máy. Để trích dẫn George E. P. Box, “tất cả các mô hình đều sai, nhưng một số mô hình hữu ích”. Các ví dụ đối lập khai thác “sự sai lầm” của các mô hình này, điều này là do bản chất trừu tượng của chúng, cũng như các hạn chế của dữ liệu mẫu mà chúng được đào tạo. Những nỗ lực gần đây trong lĩnh vực học máy đối lập đã dẫn đến những bước tiến đáng kể trong việc tăng khả năng chống lại các cuộc tấn công như vậy của các mô hình học sâu. Từ quan điểm bảo mật, sẽ luôn có cách để đánh lừa các mô hình học máy. Tuy nhiên, mục tiêu thực tế của việc bảo mật các mô hình học máy là tăng chi phí thực hiện các cuộc tấn công như vậy lên đến mức không khả thi về mặt kinh tế.

Mục tiêu của bạn tập trung vào các tính năng an toàn và bảo mật của cả học sâu và học tăng cường sâu. Tại sao điều này lại quan trọng?

Học tăng cường (RL) là phương pháp nổi bật để áp dụng học máy cho các vấn đề điều khiển, điều này theo định nghĩa liên quan đến việc thao túng môi trường của chúng. Do đó, tôi tin rằng các hệ thống dựa trên RL có rủi ro cao hơn nhiều về việc gây ra thiệt hại lớn trong thế giới thực so với các phương pháp học máy khác như phân loại. Vấn đề này còn được làm trầm trọng thêm với việc tích hợp học sâu vào RL, điều này cho phép việc áp dụng RL trong các thiết lập phức tạp. Ngoài ra, tôi tin rằng khuôn khổ RL có liên quan chặt chẽ đến các cơ chế cơ bản của nhận thức trong trí tuệ con người và việc nghiên cứu an toàn và dễ bị tổn thương của nó có thể dẫn đến những hiểu biết tốt hơn về giới hạn của việc ra quyết định trong tâm trí chúng ta.

Bạn có tin rằng chúng ta đang gần đạt được Trí tuệ Nhân tạo Tổng quát (AGI)?

Đây là một câu hỏi khó để trả lời. Tôi tin rằng chúng ta hiện có các khối xây dựng của một số kiến trúc có thể tạo điều kiện cho sự xuất hiện của AGI. Tuy nhiên, có thể phải mất vài năm hoặc vài thập kỷ để cải thiện các kiến trúc này và tăng hiệu quả về chi phí của việc đào tạo và duy trì các kiến trúc này. Trong những năm tới, các tác nhân của chúng ta sẽ trở nên thông minh hơn với tốc độ tăng trưởng nhanh. Tôi không nghĩ rằng sự xuất hiện của AGI sẽ được công bố dưới dạng một [tiêu đề khoa học hợp lệ], mà là kết quả của sự tiến bộ dần dần. Ngoài ra, tôi nghĩ rằng chúng ta vẫn chưa có một phương pháp luận được chấp nhận rộng rãi để kiểm tra và phát hiện sự tồn tại của AGI và điều này có thể làm chậm việc nhận ra các trường hợp đầu tiên của AGI.

Làm thế nào chúng ta duy trì an toàn trong một hệ thống AGI có thể suy nghĩ cho chính nó và có khả năng thông minh hơn con người?

Tôi tin rằng lý thuyết thống nhất về hành vi thông minh là kinh tế và nghiên cứu về cách các tác nhân hành động và tương tác để đạt được những gì họ muốn. Các quyết định và hành động của con người được xác định bởi các mục tiêu của họ, thông tin của họ và các nguồn lực có sẵn. Các xã hội và nỗ lực hợp tác xuất hiện từ lợi ích của các thành viên cá nhân của các nhóm như vậy. Một ví dụ khác là mã hình sự, điều này ngăn chặn các quyết định nhất định bằng cách gắn một chi phí cao cho các hành động có thể gây hại cho xã hội. Trong cùng một cách, tôi tin rằng việc kiểm soát các động lực và nguồn lực có thể cho phép sự xuất hiện của một trạng thái cân bằng giữa con người và các trường hợp của AGI. Hiện tại, cộng đồng an toàn AI đang điều tra luận điểm này dưới cái ô của các vấn đề liên kết giá trị.

Một trong những lĩnh vực bạn theo dõi chặt chẽ là chống khủng bố. Bạn có lo lắng về việc các tổ chức khủng bố chiếm quyền kiểm soát các hệ thống AI hoặc AGI?

Có nhiều lo ngại về việc lạm dụng các công nghệ AI. Trong trường hợp của các hoạt động khủng bố, lo ngại chính là sự dễ dàng mà các tổ chức khủng bố có thể phát triển và thực hiện các cuộc tấn công tự động. Một số lượng ngày càng tăng của các đồng nghiệp của tôi đang tích cực cảnh báo về các rủi ro của việc phát triển vũ khí tự động (xem https://autonomousweapons.org/ ). Một trong những vấn đề chính với vũ khí AI là sự khó khăn trong việc kiểm soát công nghệ cơ bản: AI đang ở tiền phong của nghiên cứu mã nguồn mở và bất kỳ ai có quyền truy cập vào internet và phần cứng tiêu dùng có thể phát triển các hệ thống AI có hại. Tôi nghi ngờ rằng sự xuất hiện của vũ khí tự động là không thể tránh khỏi và tin rằng sẽ sớm có nhu cầu về các giải pháp công nghệ mới để chống lại các vũ khí như vậy. Điều này có thể dẫn đến một chu kỳ mèo và chuột thúc đẩy sự tiến hóa của vũ khí AI, điều này có thể gây ra các rủi ro tồn tại nghiêm trọng trong dài hạn.

Có thể làm gì để giữ cho các hệ thống AI an toàn khỏi các tác nhân đối lập?

Bước đầu tiên và quan trọng nhất là giáo dục: Tất cả các kỹ sư và nhà thực hành AI cần phải học về các điểm yếu của các công nghệ AI và xem xét các rủi ro liên quan trong việc thiết kế và triển khai các hệ thống của họ. Về các đề xuất kỹ thuật, có các đề xuất và khái niệm giải pháp có thể được sử dụng. Ví dụ, việc đào tạo các tác nhân học máy trong các thiết lập đối lập có thể cải thiện khả năng chống lại và độ bền của chúng trước các cuộc tấn công trốn tránh và thao túng chính sách (ví dụ, xem bài báo của tôi có tiêu đề “Whatever Does Not Kill Deep Reinforcement Learning, Makes it Stronger“). Một giải pháp khác là trực tiếp tính đến rủi ro của các cuộc tấn công đối lập trong kiến trúc của tác nhân (ví dụ, các phương pháp Bayesian để mô hình hóa rủi ro). Tuy nhiên, có một khoảng trống lớn trong lĩnh vực này và đó là nhu cầu về các thước đo và phương pháp luận phổ quát để đánh giá độ bền của các tác nhân AI trước các cuộc tấn công đối lập. Các giải pháp hiện tại chủ yếu là giải pháp cụ thể và không cung cấp các biện pháp chung về khả năng chống lại tất cả các loại tấn công.

Có điều gì khác mà bạn muốn chia sẻ về bất kỳ chủ đề nào trong số này?

Năm 2014, Scully và cộng sự đã xuất bản một bài báo tại hội nghị NeurIPS với một chủ đề rất thú vị: “Machine Learning: Thẻ tín dụng lãi suất cao của Nợ kỹ thuật“. Dù cho lĩnh vực này đã tiến bộ như thế nào trong những năm qua, tuyên bố này vẫn chưa mất đi tính hợp lệ. Tình trạng hiện tại của AI và học máy không kém gì sự kinh ngạc, nhưng chúng ta vẫn chưa lấp đầy một số khoảng trống lớn trong cả nền tảng và các khía cạnh kỹ thuật của AI. Đây, theo tôi, là thông điệp quan trọng nhất của cuộc trò chuyện của chúng ta. Tôi không có ý định làm giảm sự áp dụng thương mại của các công nghệ AI, mà chỉ muốn cho phép cộng đồng kỹ thuật tính đến các rủi ro và giới hạn của các công nghệ AI hiện tại trong các quyết định của họ.

Tôi thực sự thích tìm hiểu về các thách thức an toàn và bảo mật của các hệ thống AI khác nhau. Đây thực sự là điều mà các cá nhân, tập đoàn và chính phủ cần phải nhận thức được. Những người đọc muốn tìm hiểu thêm nên truy cập Phòng thí nghiệm Học tập Thông minh An toàn và Đảm bảo (SAIL).

Antoine Tardif, CEO & Founder of Unite.AI

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.

Unite.AI

Vahid Behzadan, Giám đốc Phòng thí nghiệm Học tập Thông minh An toàn và Đảm bảo (SAIL) – Loạt phỏng vấn

You may like