Lãnh đạo tư tưởng
Khi Trí Tuệ Nhân Tạo Tư Duy Giống Con Người: Khám Phá Tâm Trí Của LLMs và Agents

Ngày nay, LLMs và agents học, phân tích và đưa ra quyết định theo cách có thể làm mờ ranh giới giữa việc “tư duy” thuật toán và tâm trí con người. Các phương pháp chúng được xây dựng dựa trên đã bắt chước các quá trình nhận thức của chúng ta, và quy mô đào tạo của chúng vượt quá kinh nghiệm của con người theo cấp số nhân. Điều này đặt ra câu hỏi: chúng ta có đang tạo ra một công cụ mở rộng khả năng của mình, hay chúng ta đang tạo ra một loại tâm trí mới mà hậu quả vẫn còn không thể dự đoán?
Làm thế nào các mô hình tư duy
Điều quan trọng là phải phân biệt giữa các khái niệm LLMs và agents. Để vẽ một phép tương tự với máy tính, một LLM có thể được so sánh với một trong các thành phần của nó, ví dụ, bộ xử lý. Một agent, tuy nhiên, là toàn bộ hệ thống, một “bo mạch chủ” mà các mô-đun khác nhau được kết nối: bộ nhớ, card đồ họa và mạng. Tương tự, một agent là một hệ thống phức tạp có thể kết hợp một hoặc nhiều LLMs, được bổ sung bởi các cơ chế ra quyết định và công cụ để tương tác với môi trường bên ngoài.
Nếu chúng ta xem xét công việc của một LLM đơn lẻ, tất cả đều giảm xuống thành việc tìm kiếm mẫu. Tuy nhiên, khi một agent kết hợp nhiều LLMs, chúng ta có thể nói nó “tư duy”, mặc dù quá trình này vẫn được xây dựng trên các mẫu. Agent xây dựng logic tương tác giữa các mô hình: ví dụ, một LLM phân tích nhiệm vụ, và dựa trên phân tích này, agent xác định hành động mà một LLM khác nên thực hiện.
Sự tư duy của con người hoạt động theo cách tương tự: chúng ta dựa vào kiến thức và mẫu tích lũy, chọn chúng vào đúng thời điểm, xử lý chúng và đưa ra kết luận. Quá trình này được gọi là suy luận.
ChatGPT, như con người, có hai loại bộ nhớ: ngắn hạn và dài hạn. Sự khác biệt là ở con người, việc truy cập vào các cấp độ bộ nhớ này phức tạp hơn và không luôn tuyến tính.
Bộ nhớ ngắn hạn là thông tin chúng ta đang làm việc ngay bây giờ. Đối với một người, nó có thể là những gì bạn đã nói năm phút trước: họ có thể nhớ hoặc không. GPT, tuy nhiên, luôn tính đến mọi thứ trong “khung cảnh” của nó – nó không thể bỏ qua hoặc bỏ qua dữ liệu này.
Bộ nhớ dài hạn ở con người bao gồm những ký ức không luôn hoạt động và có thể chỉ xuất hiện với các kích hoạt cụ thể: một ký ức thời thơ ấu, một chấn thương, hoặc ví dụ, làm việc với một nhà tâm lý học. GPT có một logic tương tự: nó không “nhớ” thông tin trừ khi nó được kích hoạt cụ thể. Ví dụ, một hướng dẫn như “Không bao giờ hỏi tôi câu hỏi này lại” hoặc “Luôn gọi tôi một cách trang trọng” có thể được lưu trong bộ nhớ dài hạn và áp dụng trong mỗi phiên.
Một ví dụ khác về bộ nhớ dài hạn là các tài liệu đã lưu. Giả sử bạn đã tải lên GPT một hướng dẫn để thực hiện nghiên cứu tiếp thị. Mô hình có thể lưu nó trong bộ nhớ, nhưng điều đó không có nghĩa là nó sẽ tham khảo tài liệu đó với mọi câu hỏi. Nếu bạn hỏi: “Bạn có thể soi đèn pin vào Mặt Trăng không?” GPT sẽ bỏ qua hướng dẫn. Nhưng nếu yêu cầu chứa các từ khóa trùng với văn bản của tài liệu, mô hình có thể “nhớ” nó.
Cơ chế này được thực hiện thông qua RAG (Retrieval-Augmented Generation), một phương pháp mà mô hình có được quyền truy cập vào thông tin được lưu trữ kích hoạt bởi các tín hiệu liên quan qua các cơ sở dữ liệu vector.
Vì vậy, có thể nói rằng mô hình thực sự có bộ nhớ, nhưng nó hoạt động theo một logic khác, được chính thức hóa, khác với bộ nhớ của con người.
Tại sao một cuộc trò chuyện với AI đôi khi cảm giác giống liệu pháp, và đôi khi lạnh lùng và máy móc?
Các mô hình ngôn ngữ hiện đại cực kỳ lớn: chúng lưu trữ một lượng khổng lồ dữ liệu, kiến thức và ngữ cảnh. Tất cả thông tin này được tổ chức thành các “cluster”, khu vực chủ đề và ngữ nghĩa. Mô hình đã được đào tạo trên các nguồn đa dạng, từ tiểu thuyết và bài viết khoa học đến bình luận trên YouTube.
Khi bạn tương tác với AI, yêu cầu (prompt) của bạn hiệu quả chỉ đạo mô hình đến một cluster nhất định.
Ví dụ, nếu bạn viết: “Bạn là một luật sư bất động sản ở New York với 20 năm kinh nghiệm, giúp tôi mua một căn hộ,” mô hình kích hoạt một số cluster cùng một lúc: luật sư → New York → bất động sản. Kết quả là bạn nhận được một phản hồi nhất quán, liên quan và thực tế, như thể bạn thực sự đang tư vấn với một chuyên gia có kinh nghiệm.
Nếu yêu cầu liên quan đến các chủ đề cá nhân hoặc triết học hơn, như phát triển bản thân hoặc cảm xúc, mô hình “chuyển” sang các cluster khác, như tâm lý học, triết học hoặc công việc nội tâm. Trong trường hợp này, câu trả lời của nó có thể似乎 đáng ngạc nhiên con người và thậm chí liệu pháp.
Tuy nhiên, với cách diễn đạt quá chung chung hoặc mơ hồ, mô hình “bị lạc” trong cấu trúc cluster của nó và đưa ra phản hồi mặc định, chính thức, tách biệt và thiếu giọng điệu cảm xúc.
Phong cách và độ sâu của phản hồi AI phụ thuộc vào cluster mà bạn chỉ đạo nó với prompt của bạn.
Triết lý của việc đào tạo mô hình và RLHF
Trí tuệ nhân tạo có các phương pháp học khác nhau. Nó không phải là một triết lý mà là một chiến lược.
Lựa chọn cổ điển là học có giám sát, nơi mô hình được đưa ra một câu hỏi và câu trả lời chính xác. Nó học bằng cách quan sát những gì được coi là đúng và sau đó tái tạo các giải pháp tương tự trong tương lai.
Nhưng một phương pháp khác là RLHF (Reinforcement Learning from Human Feedback). Đây là một phong cách khác: mô hình thử một điều gì đó, nhận được một “phần thưởng” cho các hành động thành công và điều chỉnh hành vi của nó. Từ từ, nó phát triển một chiến lược hiệu quả.
RLHF có thể được so sánh với quá trình biến nguyên liệu thô thành sản phẩm hoàn chỉnh. Để tạo ra một mô hình tiện dụng, một lượng công việc khổng lồ với phản hồi của con người là cần thiết.
Hãy tưởng tượng tôi cho bạn xem một vật mà không đặt tên trực tiếp. Bạn do dự: “Có phải nó là một hộp đựng thuốc lá? Một thẻ giữ?” Tôi chỉ đưa ra các gợi ý như: “Gần hơn,” “Xa hơn,” “60% có.” Sau hàng trăm lần lặp lại như vậy, bạn đoán: “À, nó là một ví.”
LLMs được đào tạo theo cách này. Con người, những người ghi chú và chuyên gia nói chung, đánh giá: câu trả lời này tốt, câu trả lời này không tốt và gán điểm. Các công ty như Keymakr, chuyên về chú thích và xác thực dữ liệu chất lượng cao, đóng vai trò quan trọng trong quá trình này. Phản hồi cũng đến từ người dùng thông thường: thích, khiếu nại và phản ứng. Mô hình diễn giải các tín hiệu này, tạo thành các mẫu hành vi.
Làm thế nào việc đào tạo mô hình trông trong thực tế
Một ví dụ sinh động là thí nghiệm đào tạo của OpenAI sử dụng học tăng cường trong trò chơi “Trốn và Tìm.”
Hai đội tham gia vào đó: “những người tìm kiếm” (đỏ) và “những người trốn” (xanh). Luật chơi đơn giản: nếu một người tìm kiếm bắt được một người trốn, họ kiếm được một điểm; nếu không, họ mất một điểm. Ban đầu, các agent chỉ có khả năng thể chất cơ bản, chạy và nhảy, mà không có chiến lược định sẵn.
Ở đầu, những người tìm kiếm hành động một cách hỗn loạn, và việc bắt đối thủ xảy ra bởi may mắn. Nhưng sau hàng triệu lần lặp lại, hành vi của họ tiến hóa. Những người trốn bắt đầu sử dụng các vật thể xung quanh để chặn cửa và xây dựng rào cản. Những kỹ năng này xuất hiện mà không cần lập trình trực tiếp, chỉ thông qua các thử nghiệm lặp đi lặp lại và phần thưởng cho thành công.
Để đáp lại, những người tìm kiếm bắt đầu sử dụng việc nhảy, một khả năng có sẵn từ đầu nhưng trước đó bị bỏ qua. Sau một loạt thất bại, việc sử dụng ngẫu nhiên việc nhảy đã tiết lộ giá trị chiến thuật của nó. Sau đó, những người trốn phức tạp hóa phòng thủ của họ hơn nữa, loại bỏ các vật thể khỏi tầm nhìn của những người tìm kiếm và xây dựng các nơi ẩn náu đáng tin cậy hơn.
Thí nghiệm cho thấy rằng thông qua hàng tỷ chu kỳ thử nghiệm, sai lầm, phần thưởng và phạt, hành vi hợp tác phức tạp có thể hình thành mà không cần can thiệp của nhà phát triển. Hơn nữa, các agent bắt đầu hành động phối hợp, ngay cả khi các cơ chế giao tiếp không được lập trình, chỉ vì sự hợp tác chứng minh hiệu quả hơn.
Điều này cũng đúng với các mô hình ngôn ngữ lớn. Không thể lập kịch bản tất cả các kịch bản: có quá nhiều tình huống và quá nhiều biến thể trên thế giới. Vì vậy, chúng ta không dạy mô hình các quy tắc cố định; chúng ta dạy nó cách học.
Đây là giá trị của RLHF. Nếu không có nó, một LLM và các agent chỉ còn là một thư viện văn bản. Với nó, nó trở thành một đối tác trò chuyện có khả năng thích nghi, tự sửa lỗi và về cơ bản, tiến hóa.
Cái gì tiếp theo?
Nhiều người tự hỏi liệu sự phát triển của LLMs và agent có thể dẫn đến những hậu quả không mong muốn hoặc thậm chí nguy hiểm.
Điều quan trọng là phải hiểu rằng những gì chúng ta thấy ngày nay không phải là một MVP, mà chỉ là một nguyên mẫu.
Cuộc cách mạng thực sự sẽ không phải là về việc giúp viết một bức thư đẹp hoặc dịch nó sang tiếng Pháp. Đó là những việc nhỏ. Hướng chính là tự động hóa các nhiệm vụ vi mô và quy trình thường xuyên, để lại cho con người chỉ những nhiệm vụ sáng tạo, trí tuệ thực sự hoặc thời gian nghỉ ngơi.
Các đổi mới thực sự tập trung vào các agent, hệ thống có thể tư duy, hành động và đưa ra quyết định thay cho con người. Chính xác nơi đây các công ty như OpenAI, Google, Meta và các công ty khác đang tập trung nỗ lực của mình ngày nay.
Các mô hình ngôn ngữ lớn chỉ là nền tảng. Tương lai thực sự nằm ở các agent được đào tạo để sống trong một thế giới động, nhận phản hồi và thích nghi với thay đổi.












