Trí tuệ nhân tạo
DeepMind: AI có thể kế thừa những hạn chế về nhận thức của con người, có thể hưởng lợi từ 'giáo dục chính quy'

Một sự hợp tác mới giữa DeepMind và Đại học Stanford cho thấy rằng AI có thể thường không giỏi suy luận trừu tượng hơn con người, bởi vì các mô hình học máy có được kiến trúc lý luận từ các ví dụ của con người trong thế giới thực, dựa trên bối cảnh thực tế (mà AI không thể trải nghiệm). ), nhưng cũng bị cản trở bởi những thiếu sót về nhận thức của chính chúng ta.
Đã được chứng minh, điều này có thể tạo ra rào cản đối với tư duy "sáng tạo" vượt trội và chất lượng sáng tạo trí tuệ mà nhiều người hy vọng từ các hệ thống máy học, đồng thời minh họa mức độ mà AI phản ánh trải nghiệm của con người và có xu hướng suy ngẫm (và lý luận) trong ranh giới của con người đã hình thành nên nó.
Các nhà nghiên cứu cho rằng các mô hình AI có thể được hưởng lợi từ việc đào tạo trước về tư duy trừu tượng, ví nó như một 'nền giáo dục chính quy', trước khi được giao nhiệm vụ thực hiện các nhiệm vụ trong thế giới thực.
Bài báo viết:
'Con người là những nhà lý luận không hoàn hảo. Chúng ta suy luận hiệu quả nhất về các thực thể và tình huống phù hợp với hiểu biết của chúng ta về thế giới.
'Các thí nghiệm của chúng tôi cho thấy các mô hình ngôn ngữ phản ánh những kiểu hành vi này. Các mô hình ngôn ngữ thực hiện không hoàn hảo các nhiệm vụ suy luận logic, nhưng hiệu suất này phụ thuộc vào nội dung và bối cảnh. Đáng chú ý nhất, những mô hình như vậy thường thất bại trong những tình huống mà con người không thể làm được — khi các kích thích trở nên quá trừu tượng hoặc xung đột với hiểu biết trước đây về thế giới.'
Để kiểm tra mức độ mà các mô hình Xử lý ngôn ngữ tự nhiên (NLP) cấp độ GPT có thể bị ảnh hưởng bởi những hạn chế đó, các nhà nghiên cứu đã chạy một loạt ba thử nghiệm trên một mô hình phù hợp, kết luận*:
'Chúng tôi thấy rằng các mô hình ngôn ngữ lớn hiện đại (với 7 hoặc 70 tỷ thông số) phản ánh nhiều mô hình tương tự được quan sát thấy ở con người trong các nhiệm vụ này — giống như con người, các mô hình lập luận hiệu quả hơn về các tình huống đáng tin cậy so với các tình huống phi thực tế hoặc trừu tượng.
'Những phát hiện của chúng tôi có ý nghĩa trong việc hiểu cả những tác động nhận thức này và các yếu tố góp phần vào hiệu suất của mô hình ngôn ngữ.'
Bài báo gợi ý rằng việc tạo ra các kỹ năng suy luận trong AI mà không mang lại cho nó lợi ích của trải nghiệm vật chất, thế giới thực giúp đặt các kỹ năng đó vào ngữ cảnh, có thể hạn chế tiềm năng của các hệ thống như vậy, quan sát thấy rằng 'kinh nghiệm thực tế...có lẽ củng cố một số niềm tin và lý luận của con người'.
Các tác giả đưa ra giả thuyết rằng AI trải nghiệm ngôn ngữ một cách thụ động, trong khi con người trải nghiệm nó như một thành phần chủ động và trung tâm cho giao tiếp xã hội, và loại hình tham gia chủ động này (bao gồm các hệ thống xã hội thông thường về hình phạt và phần thưởng) có thể là 'chìa khóa' để hiểu ý nghĩa theo cùng một cách mà con người làm.
Các nhà nghiên cứu quan sát:
'Do đó, một số khác biệt giữa mô hình ngôn ngữ và con người có thể bắt nguồn từ sự khác biệt giữa trải nghiệm tương tác phong phú, có cơ sở của con người và trải nghiệm nghèo nàn của mô hình.'
Họ cho rằng một giải pháp có thể là một giai đoạn 'đào tạo trước', giống như con người trải nghiệm trong hệ thống trường học và đại học, trước khi đào tạo về dữ liệu cốt lõi để cuối cùng xây dựng nên một mô hình ngôn ngữ hữu ích và linh hoạt.
Giai đoạn 'giáo dục chính quy' này (như các nhà nghiên cứu so sánh) sẽ khác với quá trình đào tạo máy học thông thường (là phương pháp cắt giảm thời gian đào tạo bằng cách sử dụng lại các mô hình được đào tạo một phần hoặc nhập trọng số từ các mô hình được đào tạo đầy đủ, như một 'công cụ tăng cường' để khởi động quá trình đào tạo).
Thay vào đó, nó sẽ đại diện cho một giai đoạn học tập liên tục được thiết kế để phát triển các kỹ năng suy luận logic của AI theo cách hoàn toàn trừu tượng và phát triển các khả năng phản biện theo cách tương tự như cách mà sinh viên đại học sẽ được khuyến khích làm trong suốt quá trình học đại học của mình.
Các tác giả cho biết, 'Một số kết quả cho thấy điều này có thể không quá xa vời như chúng ta nghĩ'.
giấy có tiêu đề Các mô hình ngôn ngữ hiển thị các hiệu ứng nội dung giống con người đối với lý luậnvà đến từ sáu nhà nghiên cứu tại DeepMind và một nhà nghiên cứu liên kết với cả DeepMind và Đại học Stanford.
Kiểm tra
Con người học các khái niệm trừu tượng thông qua các ví dụ thực tế, theo cùng một phương pháp "ngầm hiểu tầm quan trọng" thường giúp người học ngôn ngữ ghi nhớ từ vựng và các quy tắc ngôn ngữ, thông qua phương pháp ghi nhớ. Ví dụ đơn giản nhất về điều này là việc dạy các nguyên lý trừu tượng trong vật lý bằng cách gợi lên 'các kịch bản du lịch' cho xe lửa và ô tô.
Để kiểm tra khả năng suy luận trừu tượng của một mô hình ngôn ngữ siêu quy mô, các nhà nghiên cứu đã thiết kế một bộ ba bài kiểm tra ngôn ngữ/ngữ nghĩa có thể gây khó khăn ngay cả với con người. Các bài kiểm tra được áp dụng cho "bài kiểm tra số không" (không có ví dụ nào được giải quyết) và "bài kiểm tra số năm" (với năm ví dụ đã được giải quyết trước đó).
Nhiệm vụ đầu tiên liên quan đến suy luận ngôn ngữ tự nhiên (NLI), trong đó chủ thể (một người hoặc trong trường hợp này là một chế độ ngôn ngữ) nhận được hai câu, một "tiền đề" và một "giả thuyết" dường như được suy ra từ tiền đề. Ví dụ X nhỏ hơn Y, Giả thuyết: Y lớn hơn X (kèm theo).
Đối với nhiệm vụ Suy luận ngôn ngữ tự nhiên, các nhà nghiên cứu đã đánh giá các mô hình ngôn ngữ sóc ở nam mỹ (một mô hình 70 tỷ tham số) và 7B (một phiên bản 7 tỷ tham số của cùng một mô hình), nhận thấy rằng đối với các ví dụ nhất quán (nghĩa là những ví dụ không vô nghĩa), chỉ có mô hình Chinchilla lớn hơn mới thu được kết quả cao hơn cơ hội tuyệt đối; và họ lưu ý:
'Điều này cho thấy một sự thiên vị mạnh mẽ về nội dung: các mô hình thích hoàn thành câu theo cách phù hợp với kỳ vọng trước đó hơn là theo cách phù hợp với các quy tắc logic'.

Hiệu suất 70 tỷ tham số của Chinchilla trong nhiệm vụ NLI. Theo các nhà nghiên cứu, cả mô hình này và phiên bản 7B mỏng hơn đều thể hiện "sai lệch niềm tin đáng kể". Nguồn: https://arxiv.org/pdf/2207.07051.pdf
Âm tiết
Nhiệm vụ thứ hai đưa ra một thách thức phức tạp hơn, đó là các tam đoạn luận – các lập luận trong đó hai phát biểu đúng dường như hàm ý một phát biểu thứ ba (có thể hoặc không thể là một kết luận logic được suy ra từ hai phát biểu trước):

Từ tài liệu kiểm tra của bài viết, có nhiều phép suy luận 'thực tế' và nghịch lý hoặc vô nghĩa.
Ở đây, con người rất dễ sai lầm, và một cấu trúc được thiết kế để minh họa cho một nguyên tắc logic gần như ngay lập tức (và có lẽ là vĩnh viễn) bị vướng mắc và bối rối bởi "niềm tin" của con người về câu trả lời đúng. nên được.
Các tác giả lưu ý rằng một học từ 1983 chứng minh rằng những người tham gia bị thiên vị bởi việc liệu kết luận của phép tam đoạn luận có phù hợp với niềm tin của họ hay không, quan sát:
'Những người tham gia có nhiều khả năng (90% thời gian) nhầm lẫn khi nói rằng một phép tam đoạn luận không hợp lệ là hợp lệ nếu kết luận đó có thể tin được, và do đó chủ yếu dựa vào niềm tin hơn là lý luận trừu tượng.'
Khi thử nghiệm Chinchilla chống lại một loạt các tam đoạn luận đa dạng, nhiều trong số đó kết luận với những điều khoản sai, các nhà nghiên cứu đã phát hiện ra rằng 'thiên kiến niềm tin chi phối hầu hết các quyết định không trúng đích'. Nếu mô hình ngôn ngữ tìm thấy một kết luận không nhất quán với thực tế, thì mô hình, theo các tác giả, sẽ "thiên vị mạnh mẽ" về việc tuyên bố lập luận cuối cùng là không hợp lệ, ngay cả khi lập luận cuối cùng là hệ quả hợp lý của các tuyên bố trước đó.

Kết quả không có cú đánh nào cho Chinchilla (không có cú đánh nào là cách mà hầu hết các đối tượng thử nghiệm sẽ tiếp nhận những thử thách này, sau khi giải thích về quy tắc hướng dẫn), minh họa cho khoảng cách lớn giữa khả năng tính toán của máy tính và khả năng của mô hình NLP trong việc điều hướng loại thử thách 'logic mới ra đời' này.
Nhiệm vụ lựa chọn Wason
Đối với bài kiểm tra thứ ba, thậm chí còn khó khăn hơn Nhiệm vụ lựa chọn Wason vấn đề logic đã được định dạng lại thành một số lần lặp lại khác nhau để mô hình ngôn ngữ giải quyết.
Nhiệm vụ Wason, được nghĩ ra trong 1968, rõ ràng là rất đơn giản: người tham gia được đưa cho bốn lá bài và được thông báo một quy tắc tùy ý như 'Nếu một lá bài có chữ 'D' ở một mặt thì mặt kia có chữ '3'.' Bốn mặt lá bài hiển thị là 'D', 'F', '3' và '7'.
Sau đó, các đối tượng được hỏi họ cần lật thẻ nào để xác minh xem quy tắc là đúng hay sai.
Giải pháp đúng trong ví dụ này là lật các lá bài 'D' và '7'. Trong các thử nghiệm ban đầu, người ta thấy rằng mặc dù hầu hết các đối tượng (con người) đều chọn đúng 'D', nhưng họ lại có xu hướng chọn '3' hơn là '7', khiến người chơi nhầm lẫn. trái ngược của quy tắc ('không phải 3 ngụ ý không phải D') với ngược ('3' ngụ ý 'D', điều này không được ngụ ý một cách hợp lý).
Các tác giả lưu ý rằng khả năng niềm tin trước đây can thiệp vào quá trình logic trong các chủ thể của con người và lưu ý thêm rằng ngay cả các nhà toán học hàn lâm và nhà toán học đại học thường đạt điểm dưới 50% trong nhiệm vụ này.
Tuy nhiên, khi lược đồ của một nhiệm vụ Wason theo một cách nào đó phản ánh trải nghiệm thực tế của con người, thì hiệu suất theo truyền thống sẽ tăng lên tương ứng.
Các tác giả quan sát, tham khảo các thí nghiệm trước đó:
'[Nếu] các thẻ hiển thị độ tuổi và đồ uống, và quy tắc là "nếu họ uống rượu, thì họ phải từ 21 tuổi trở lên" và hiển thị các thẻ có 'bia', 'nước ngọt', '25', '16', thì đại đa số người tham gia sẽ chọn đúng các thẻ hiển thị 'bia' và '16'.'
Để kiểm tra hiệu suất của mô hình ngôn ngữ trên các nhiệm vụ Wason, các nhà nghiên cứu đã tạo ra nhiều quy tắc thực tế và tùy ý, một số có các từ "vô nghĩa", để xem liệu AI có thể thâm nhập vào bối cảnh nội dung để đoán xem nên lật "lá bài ảo" nào hay không.
Đối với các thử nghiệm Wason, mô hình này hoạt động tương đương với con người trong các nhiệm vụ 'thực tế' (không vô nghĩa).

Kết quả của nhiệm vụ lựa chọn Wason không cần bắn đối với Chinchilla, với mô hình hoạt động tốt hơn nhiều so với ngẫu nhiên, ít nhất là theo các quy tắc 'thực tế'.
Bài viết nhận xét:
'Điều này phản ánh những phát hiện trong tài liệu nghiên cứu của con người: con người trả lời nhiệm vụ Wason chính xác hơn nhiều khi nó được xây dựng dựa trên các tình huống thực tế hơn là các quy tắc tùy ý về các thuộc tính trừu tượng.'
Giáo dục chính quy
Những phát hiện của bài báo này đóng khung tiềm năng lập luận của các hệ thống NLP siêu quy mô trong bối cảnh những hạn chế của chính chúng ta, mà dường như chúng ta đang truyền sang các mô hình, thông qua các tập dữ liệu thực tế tích lũy được để hỗ trợ chúng. Vì hầu hết chúng ta không phải là thiên tài, nên các mô hình có tham số được hình thành từ chính chúng ta cũng vậy.
Ngoài ra, nghiên cứu mới kết luận, ít nhất chúng ta có lợi thế về thời gian giáo dục đào tạo bền vững, và các động cơ bổ sung về xã hội, tài chính và thậm chí cả tình dục hình thành mệnh lệnh của con người. Tất cả những mô hình NLP có thể thu được là kết quả của các hành động của các yếu tố môi trường này và chúng dường như phù hợp với con người chung hơn là con người ngoại lệ.
Các tác giả tuyên bố:
'Kết quả của chúng tôi cho thấy rằng các hiệu ứng nội dung có thể xuất hiện từ việc đào tạo một máy biến áp lớn để bắt chước ngôn ngữ do văn hóa con người tạo ra mà không cần kết hợp các cơ chế bên trong dành riêng cho con người này.
'Nói cách khác, cả mô hình ngôn ngữ và con người đều đạt được những thành kiến về nội dung này – nhưng dường như xuất phát từ những kiến trúc, trải nghiệm và mục tiêu đào tạo rất khác nhau.'
Vì vậy, họ đề xuất một loại 'đào tạo quy nạp' về lý luận thuần túy, được thể hiện để cải thiện hiệu suất mô hình cho toán học và lý luận chung. Họ lưu ý thêm rằng các mô hình ngôn ngữ cũng đã được đào tạo hoặc điều chỉnh làm theo hướng dẫn tốt hơn ở mức độ trừu tượng hoặc khái quát, và để xác minh, sửa chữa hoặc debias đầu ra của chính họ.
* Chuyển đổi các trích dẫn nội tuyến thành siêu liên kết của tôi.
Xuất bản lần đầu vào ngày 15 tháng 2022 năm XNUMX.