sơ khai Trưởng nhóm nghiên cứu của Amazon Alexa cho rằng Thử nghiệm Turing đã lỗi thời - Unite.AI
Kết nối với chúng tôi

Trí tuệ tổng hợp nhân tạo

Trưởng nhóm nghiên cứu của Amazon Alexa lập luận rằng Thử nghiệm Turing đã lỗi thời

mm
cập nhật on

Rohit Prasad, phó chủ tịch và nhà khoa học trưởng của Alexa tại Amazon, Gần đây lập luận rằng Thử nghiệm Turing, từ lâu đã được sử dụng để đo lường mức độ phức tạp của các mô hình AI, nên được loại bỏ làm tiêu chuẩn cho AI.

Nhà khoa học máy tính và nhà toán học Alan Turing ban đầu đã đưa ra khái niệm bài kiểm tra Turing hơn 70 năm trước. Mục đích của bài kiểm tra Turing là hỗ trợ trả lời câu hỏi về trí thông minh của máy, xác định xem máy có khả năng “suy nghĩ” theo nghĩa của con người hay không. Để trả lời câu hỏi này, Turing lập luận rằng nếu máy móc có thể thể hiện hành vi đàm thoại phức tạp đến mức người quan sát là con người không thể phân biệt được giữa cuộc đối thoại của máy tính và cuộc đối thoại của con người thì máy móc phải được coi là có khả năng suy nghĩ.

Hạn chế thử nghiệm Turing

Prasad lập luận rằng bài kiểm tra Turing bị hạn chế theo nhiều cách và chính Turing thậm chí còn nhận xét về một số hạn chế này trong bài báo đầu tiên của mình. Khi AI ngày càng được tích hợp nhiều hơn vào mọi khía cạnh trong cuộc sống của chúng ta, mọi người ít quan tâm đến việc nó không thể phân biệt được với con người mà hơn thế nữa là các tương tác của họ với AI là liền mạch, Prasad lập luận. Vì lý do này, thử nghiệm Turing nên được coi là lỗi thời và được thay thế bằng các tiêu chuẩn hữu ích hơn.

Prasad lưu ý rằng nhiều chatbot ban đầu được thiết kế với mục đích vượt qua bài kiểm tra Turing và trong những năm gần đây, một số chatbot đã liên tục lừa được hơn một phần ba giám khảo là con người (tiêu chuẩn bắt buộc để vượt qua bài kiểm tra Turing). Tuy nhiên, có thể bắt chước thành công các mẫu giọng nói của con người không có nghĩa là một cỗ máy thực sự có thể được coi là “thông minh”. Các mô hình AI có thể cực kỳ thành thạo trong một lĩnh vực và cực kỳ kém ở những lĩnh vực khác, không sở hữu dạng trí thông minh chung nào. Mặc dù vậy, bài kiểm tra Turing vẫn là một tiêu chuẩn thường được sử dụng cho chatbot và trợ lý kỹ thuật số, Prasad lưu ý rằng các nhà lãnh đạo doanh nghiệp và nhà báo liên tục hỏi khi nào Alexa có thể vượt qua bài kiểm tra Turing.

Theo Prasad, một trong những vấn đề chính khi sử dụng phép thử Turing để đánh giá trí thông minh của máy móc là nó gần như làm giảm hoàn toàn khả năng tra cứu thông tin và thực hiện tính toán nhanh như chớp của máy móc. Các chương trình AI tạo ra các khoảng dừng giả tạo để trả lời các câu hỏi toán học và địa lý phức tạp nhằm đánh lừa con người, nhưng chúng có câu trả lời cho những câu hỏi như vậy gần như ngay lập tức. Ngoài ra, bài kiểm tra Turing không tính đến khả năng ngày càng tăng của AI trong việc sử dụng dữ liệu do các cảm biến bên ngoài thu thập, bỏ qua cách AI có thể tương tác với thế giới xung quanh thông qua các thuật toán chuyển động và tầm nhìn, chỉ dựa vào giao tiếp bằng văn bản.

Tạo điểm chuẩn mới

Prasad lập luận rằng nên tạo ra các hình thức đo lường trí thông minh mới, các phương pháp phù hợp hơn để đánh giá một loại trí thông minh chung. Những thử nghiệm này sẽ phản ánh cách AI thực sự được sử dụng trong xã hội hiện đại và mục tiêu của mọi người khi sử dụng nó. Các bài kiểm tra sẽ có thể xác định mức độ AI tăng cường trí thông minh của con người và AI cải thiện cuộc sống hàng ngày của con người tốt như thế nào. Hơn nữa, một bài kiểm tra phải hiểu cách AI thể hiện các đặc điểm trí thông minh giống con người, bao gồm trình độ ngôn ngữ, khả năng tự giám sát và “ý thức chung”.

Các lĩnh vực nghiên cứu AI hiện tại và quan trọng, như lý luận, công bằng, trò chuyện và hiểu biết cảm tính không được đánh giá bằng bài kiểm tra Turing, nhưng chúng có thể được đo lường theo nhiều cách khác nhau. Prasad giải thích rằng một cách để đo lường những đặc điểm này của trí thông minh là chia nhỏ các thử thách thành các nhiệm vụ cấu thành. Một phương pháp khác để đánh giá là tạo ra một thách thức trong thế giới thực quy mô lớn đối với sự tương tác giữa con người và máy tính.

Khi Amazon tạo ra Giải thưởng Alexa, nó đã tạo ra một tiêu chí đánh giá yêu cầu các bot xã hội nói chuyện với con người trong 20 phút. Các bot sẽ được đánh giá dựa trên khả năng trò chuyện mạch lạc về nhiều chủ đề khác nhau như công nghệ, thể thao, chính trị và giải trí. Khách hàng chịu trách nhiệm chấm điểm các bot trong giai đoạn phát triển, chỉ định điểm số cho chúng dựa trên mong muốn trò chuyện lại với bot. Trong vòng chung kết, các giám khảo độc lập chịu trách nhiệm chấm điểm các bot theo thang điểm 5. Phiếu tự đánh giá được ban giám khảo sử dụng dựa trên các phương pháp cho phép AI thể hiện các thuộc tính quan trọng của con người như sự đồng cảm khi thích hợp.

Cuối cùng, Prasad lập luận rằng sự phổ biến ngày càng tăng của các thiết bị hỗ trợ AI như Alexa thể hiện một cơ hội quan trọng để đo lường tiến trình của AI, nhưng chúng ta sẽ cần các số liệu khác nhau để tận dụng cơ hội mới này.

Prasad giải thích: “Những AI như vậy cần phải là chuyên gia trong một số lượng lớn các nhiệm vụ ngày càng tăng, điều này chỉ có thể thực hiện được với khả năng học tập tổng quát hơn thay vì trí thông minh dành riêng cho từng nhiệm vụ”. “Do đó, trong thập kỷ tới và hơn thế nữa, tiện ích của các dịch vụ AI, với khả năng hỗ trợ đàm thoại và chủ động trên các thiết bị xung quanh, là một thử nghiệm xứng đáng.”

 

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.