Trí tuệ nhân tạo
Các mô hình AI cung cấp thông tin về cách não bộ xử lý ngôn ngữ

Nghiên cứu mới từ Viện Công nghệ Massachusetts cho thấy rằng chức năng cơ bản của các mô hình tính toán ‘dự đoán từ tiếp theo’ giống với chức năng của các trung tâm xử lý ngôn ngữ trong não bộ con người.
Ý nghĩa của Ngôn ngữ
Các mô hình ngôn ngữ dự đoán mới nhất có thể đang học hỏi một điều gì đó về ý nghĩa cơ bản của ngôn ngữ, điều này sẽ là một bước tiến lớn trong lĩnh vực này. Các mô hình dự đoán từ tiếp theo, nhưng chúng cũng thực hiện các nhiệm vụ yêu cầu một mức độ hiểu biết thực sự. Các nhiệm vụ này bao gồm trả lời câu hỏi, tóm tắt tài liệu và hoàn thành câu chuyện.
Các mô hình được thiết kế để tối ưu hóa hiệu suất dự đoán văn bản mà không cố gắng bắt chước bất cứ điều gì về cách não bộ con người hiểu ngôn ngữ. Tuy nhiên, nhóm các nhà khoa học thần kinh tại MIT cho rằng có điều gì đó đang xảy ra trong khía cạnh này.
Một trong những thông tin thú vị hơn của nghiên cứu này là các mô hình máy tính thực hiện tốt các loại nhiệm vụ ngôn ngữ khác không hiển thị sự tương đồng này với não bộ con người. Điều này được coi là bằng chứng rằng não bộ con người có thể đang sử dụng dự đoán từ tiếp theo để thực hiện xử lý ngôn ngữ.
Nancy Kanwisher là giáo sư thần kinh học nhận thức Walter A. Rosenblith. Cô cũng là thành viên của Viện Nghiên cứu Não bộ McGovern tại MIT và Trung tâm Não bộ, Tâm trí và Máy móc (CBMM), và là tác giả của nghiên cứu.
“Mô hình càng tốt trong việc dự đoán từ tiếp theo, thì nó càng phù hợp với não bộ con người”, Kanwisher nói. “Thật tuyệt vời khi các mô hình phù hợp như vậy, và điều này gián tiếp gợi ý rằng có thể hệ thống ngôn ngữ của con người đang dự đoán những gì sẽ xảy ra tiếp theo.”
Nghiên cứu được công bố trên Tạp chí Proceedings of the National Academy of Sciences.
Nó cũng bao gồm các tác giả cao cấp Joshue Tenenbaum, giáo sư khoa học nhận thức tại MIT và thành viên của CBMM và CSAIL của MIT; và Eveline Fedorenko, giáo sư khoa học thần kinh Frederick A. và Carole J. Middleton Career Development và thành viên của Viện Nghiên cứu Não bộ McGovern. Tác giả đầu tiên của bài báo là Martin Schrimpf, một sinh viên sau đại học tại MIT.
Nghiên cứu
Nhóm MIT đã so sánh các trung tâm xử lý ngôn ngữ trong não bộ con người với các mô hình xử lý ngôn ngữ. Họ đã phân tích 43 mô hình ngôn ngữ khác nhau, bao gồm cả những mô hình được tối ưu hóa cho dự đoán từ tiếp theo, như GPT-3. Các mô hình khác được thiết kế để thực hiện các nhiệm vụ ngôn ngữ khác, như điền vào chỗ trống.
Mỗi mô hình được trình bày với một chuỗi từ, và các nhà nghiên cứu đã đo hoạt động của các nút tạo nên mạng lưới. Các mẫu được so sánh với hoạt động trong não bộ, được đo trong các đối tượng thực hiện ba nhiệm vụ ngôn ngữ: nghe câu chuyện, đọc câu một lần và đọc câu với một từ được tiết lộ tại một thời điểm.
Các tập dữ liệu của con người bao gồm dữ liệu cộng hưởng từ chức năng (fMRI) và các phép đo điện não đồ trong sọ được thực hiện trên những người đang phẫu thuật não để điều trị bệnh động kinh.
Các nhà nghiên cứu đã tìm thấy rằng các mô hình dự đoán từ tiếp theo hoạt động tốt nhất có các mẫu hoạt động giống với những gì được thấy trong não bộ con người. Các mô hình đó cũng thể hiện hoạt động tương quan cao với các biện pháp hành vi của con người như tốc độ đọc văn bản.
“Chúng tôi đã tìm thấy rằng các mô hình dự đoán tốt phản ứng thần kinh cũng có xu hướng dự đoán tốt phản ứng hành vi của con người, dưới dạng thời gian đọc. Và sau đó, cả hai đều được giải thích bởi hiệu suất của mô hình dự đoán từ tiếp theo. Tam giác này thực sự kết nối mọi thứ lại với nhau”, Schrimpf nói.
Các nhà nghiên cứu sẽ tiếp tục xây dựng các biến thể của các mô hình xử lý ngôn ngữ, điều này có thể cho phép họ xem xét cách các thay đổi nhỏ trong kiến trúc của mô hình ảnh hưởng đến hiệu suất và khả năng phù hợp với dữ liệu thần kinh của con người.










