Công cụ AI 101

Mô hình Hành động Lớn (LAMs): Tiền phong Mới trong Tương tác Được hỗ trợ bởi Trí tuệ Nhân tạo

mm

Gần một năm trước, Mustafa Suleyman, đồng sáng lập của DeepMind, dự đoán rằng kỷ nguyên của trí tuệ nhân tạo sinh sẽ sớm nhường chỗ cho điều gì đó tương tác hơn: các hệ thống có khả năng thực hiện nhiệm vụ bằng cách tương tác với các ứng dụng phần mềm và tài nguyên con người. Ngày nay, chúng ta bắt đầu thấy tầm nhìn này trở thành hiện thực với sự phát triển của hệ điều hành trí tuệ nhân tạo mới của Rabbit AI, R1. Hệ thống này đã chứng minh khả năng ấn tượng trong việc giám sát và bắt chước các tương tác của con người với các ứng dụng. Tại trung tâm của R1 là Mô hình Hành động Lớn (LAM), một trợ lý trí tuệ nhân tạo tiên tiến có khả năng hiểu ý định của người dùng và thực hiện nhiệm vụ thay mặt họ. Mặc dù trước đây được biết đến với các thuật ngữ như Trí tuệ Nhân tạo Tương tácMô hình Đại lý Lớn, khái niệm về LAMs đang thu được động lực như một đổi mới quan trọng trong các tương tác được hỗ trợ bởi trí tuệ nhân tạo. Bài viết này khám phá chi tiết về LAMs, cách chúng khác với các mô hình ngôn ngữ lớn (LLMs) truyền thống, giới thiệu hệ thống R1 của Rabbit AI và xem xét cách Apple đang chuyển hướng tới một cách tiếp cận giống LAM. Nó cũng thảo luận về các ứng dụng tiềm năng của LAMs và các thách thức mà chúng phải đối mặt.

Hiểu về Mô hình Hành động Lớn hoặc Mô hình Đại lý (LAMs)

Một LAM là một tác nhân trí tuệ nhân tạo tiên tiến được thiết kế để nắm bắt ý định của con người và thực hiện các mục tiêu cụ thể. Những mô hình này vượt trội trong việc hiểu nhu cầu của con người, lập kế hoạch cho các nhiệm vụ phức tạp và tương tác với các mô hình, ứng dụng hoặc người khác để thực hiện kế hoạch của họ. LAMs vượt ra ngoài các nhiệm vụ trí tuệ nhân tạo đơn giản như tạo ra phản hồi hoặc hình ảnh; chúng là các hệ thống đầy đủ được thiết kế để xử lý các hoạt động phức tạp như lập kế hoạch du lịch, sắp xếp cuộc hẹn và quản lý email. Ví dụ, trong việc lập kế hoạch du lịch, một LAM sẽ phối hợp với ứng dụng thời tiết để dự báo, tương tác với dịch vụ đặt vé máy bay để tìm các chuyến bay phù hợp và tham gia với hệ thống đặt phòng khách sạn để đảm bảo chỗ ở. Không giống như nhiều mô hình trí tuệ nhân tạo truyền thống chỉ phụ thuộc vào mạng nơ-ron, LAMs sử dụng một phương pháp kết hợp lập trình thần kinh – ký hiệu. Sự tích hợp này của lập trình ký hiệu giúp hỗ trợ việc lập luận logic và lập kế hoạch, trong khi mạng nơ-ron góp phần nhận ra các mẫu cảm biến phức tạp. Sự kết hợp này cho phép LAMs giải quyết một loạt các nhiệm vụ, đánh dấu chúng là một sự phát triển tinh vi trong các tương tác được hỗ trợ bởi trí tuệ nhân tạo.

So sánh LAMs với LLMs

Ngược lại với LAMs, LLMs là các tác nhân trí tuệ nhân tạo chuyên về việc giải thích các lệnh của người dùng và tạo ra phản hồi dựa trên văn bản, hỗ trợ chủ yếu cho các nhiệm vụ liên quan đến xử lý ngôn ngữ. Tuy nhiên, phạm vi của chúng thường bị giới hạn ở các hoạt động liên quan đến văn bản. Mặt khác, LAMs mở rộng khả năng của trí tuệ nhân tạo vượt ra ngoài ngôn ngữ, cho phép chúng thực hiện các hành động phức tạp để đạt được các mục tiêu cụ thể. Ví dụ, trong khi một LLM có thể hiệu quả trong việc soạn thảo email dựa trên hướng dẫn của người dùng, một LAM đi xa hơn bằng không chỉ soạn thảo mà còn hiểu ngữ cảnh, quyết định phản hồi phù hợp và quản lý việc gửi email.

Ngoài ra, LLMs thường được thiết kế để dự đoán token tiếp theo trong một chuỗi văn bản và thực hiện các lệnh viết. Ngược lại, LAMs được trang bị không chỉ khả năng hiểu ngôn ngữ mà còn khả năng tương tác với các ứng dụng và hệ thống thực tế như thiết bị IoT. Chúng có thể thực hiện các hành động vật lý, kiểm soát thiết bị và quản lý các nhiệm vụ yêu cầu tương tác với môi trường bên ngoài, chẳng hạn như đặt lịch hẹn hoặc đặt chỗ. Sự tích hợp này của kỹ năng ngôn ngữ với thực hiện thực tế cho phép LAMs hoạt động trong nhiều kịch bản đa dạng hơn so với LLMs.

LAMs trong Hành động: Rabbit R1

Rabbit R1 là một ví dụ chính về LAMs trong sử dụng thực tế. Thiết bị trí tuệ nhân tạo này có thể quản lý nhiều ứng dụng thông qua một giao diện thân thiện với người dùng. Được trang bị màn hình cảm ứng 2,88 inch, camera xoay và bánh xe cuộn, R1 được đặt trong một vỏ máy tròn tinh tế được thiết kế hợp tác với Teenage Engineering. Nó hoạt động trên bộ xử lý MediaTek 2,3 GHz, được hỗ trợ bởi 4GB bộ nhớ và 128GB bộ lưu trữ.

Ở trung tâm của R1 là LAM của nó, giám sát thông minh các chức năng ứng dụng và đơn giản hóa các nhiệm vụ phức tạp như kiểm soát âm nhạc, đặt phương tiện đi lại, đặt hàng tạp hóa và gửi tin nhắn, tất cả từ một điểm tương tác duy nhất. Điều này giúp R1 loại bỏ sự phức tạp khi phải chuyển đổi giữa nhiều ứng dụng hoặc nhiều lần đăng nhập để thực hiện các nhiệm vụ này.

LAM trong R1 ban đầu được đào tạo bằng cách quan sát các tương tác của con người với các ứng dụng phổ biến như Spotify và Uber. Việc đào tạo này đã cho phép LAM điều hướng giao diện người dùng, nhận ra biểu tượng và xử lý giao dịch. Việc đào tạo rộng rãi này cho phép R1 thích nghi linh hoạt với hầu như bất kỳ ứng dụng nào. Ngoài ra, một chế độ đào tạo đặc biệt cho phép người dùng giới thiệu và tự động hóa các nhiệm vụ mới, liên tục mở rộng phạm vi khả năng của R1 và làm cho nó trở thành một công cụ động trong lĩnh vực tương tác được hỗ trợ bởi trí tuệ nhân tạo.

Apple Tiến gần tới Khả năng Giống LAM trong Siri

Đội ngũ nghiên cứu trí tuệ nhân tạo của Apple gần đây đã chia sẻ những hiểu biết về nỗ lực của họ để nâng cao khả năng của Siri thông qua một sáng kiến mới, tương tự như những gì được thấy ở LAMs. Sáng kiến này, được phác thảo trong một bài báo nghiên cứu về Giải quyết Tham chiếu như Mô hình Ngôn ngữ (ReALM), nhằm cải thiện khả năng của Siri trong việc hiểu ngữ cảnh hội thoại, xử lý nội dung hình ảnh trên màn hình và phát hiện hoạt động xung quanh. Cách tiếp cận được ReALM áp dụng trong việc xử lý đầu vào giao diện người dùng (UI) vẽ ra những nét tương đồng với các chức năng quan sát được trong R1 của Rabbit AI, thể hiện ý định của Apple trong việc nâng cao khả năng của Siri trong việc hiểu các tương tác của người dùng.

Sự phát triển này cho thấy rằng Apple đang xem xét việc áp dụng công nghệ LAM để tinh chỉnh cách người dùng tương tác với thiết bị của họ. Mặc dù không có thông báo rõ ràng về việc triển khai ReALM, nhưng tiềm năng để nâng cao đáng kể khả năng của Siri trong việc tương tác với các ứng dụng gợi ý những tiến bộ đầy hứa hẹn trong việc làm cho trợ lý trở nên trực quan và phản hồi hơn.

Ứng dụng Tiềm năng của LAMs

LAMs có tiềm năng mở rộng tác động của chúng vượt ra ngoài việc nâng cao tương tác giữa người dùng và thiết bị; chúng có thể mang lại lợi ích đáng kể trên nhiều ngành công nghiệp.   

  • Dịch vụ Khách hàng: LAMs có thể nâng cao dịch vụ khách hàng bằng cách xử lý độc lập các truy vấn và khiếu nại trên các kênh khác nhau. Những mô hình này có thể xử lý các truy vấn bằng ngôn ngữ tự nhiên, tự động hóa việc giải quyết và quản lý lịch hẹn, cung cấp dịch vụ cá nhân hóa dựa trên lịch sử của khách hàng để cải thiện sự hài lòng.
  • Chăm sóc Sức khỏe: Trong chăm sóc sức khỏe, LAMs có thể giúp quản lý chăm sóc bệnh nhân bằng cách tổ chức lịch hẹn, quản lý đơn thuốc và tạo điều kiện cho việc giao tiếp giữa các dịch vụ. Chúng cũng hữu ích cho việc theo dõi từ xa, giải thích dữ liệu y tế và cảnh báo nhân viên trong trường hợp khẩn cấp, đặc biệt có lợi cho việc quản lý chăm sóc mãn tính và chăm sóc người cao tuổi.
  • Tài chính: LAMs có thể cung cấp tư vấn tài chính cá nhân hóa và quản lý các nhiệm vụ như cân bằng danh mục đầu tư và đề xuất đầu tư. Chúng cũng có thể theo dõi các giao dịch để phát hiện và ngăn chặn gian lận, tích hợp liền mạch với hệ thống ngân hàng để giải quyết nhanh chóng các hoạt động đáng ngờ.

Thách thức của LAMs

Mặc dù có tiềm năng đáng kể, LAMs phải đối mặt với một số thách thức cần được giải quyết.

  • Riêng tư và Bảo mật Dữ liệu: Nhìn chung, việc đảm bảo quyền riêng tư và bảo mật dữ liệu là một thách thức lớn đối với LAMs. LAMs cần truy cập vào thông tin cá nhân và nhạy cảm để hoạt động, điều này làm dấy lên lo ngại về việc xử lý, lưu trữ và truyền tải thông tin này.
  • Lo ngại Đạo đức và Quy định: Khi LAMs đảm nhận vai trò tự chủ hơn trong việc ra quyết định và tương tác với môi trường con người, các vấn đề đạo đức trở nên quan trọng hơn. Câu hỏi về trách nhiệm, minh bạch và mức độ ra quyết định được ủy quyền cho máy móc là những vấn đề quan trọng. Ngoài ra, có thể có những thách thức về quy định khi triển khai các hệ thống trí tuệ nhân tạo tiên tiến như vậy trên nhiều ngành công nghiệp.
  • Sự Phức tạp của Tích hợp: LAMs yêu cầu tích hợp với nhiều hệ thống phần mềm và phần cứng để thực hiện nhiệm vụ hiệu quả. Việc tích hợp này là phức tạp và có thể khó quản lý, đặc biệt là khi phối hợp các hành động trên nhiều nền tảng và dịch vụ, chẳng hạn như đặt chuyến bay, chỗ ở và các chi tiết hậu cần khác theo thời gian thực.
  • Khả năng Tính toán và Thích nghi: Mặc dù LAMs được thiết kế để thích nghi với nhiều kịch bản và ứng dụng, việc mở rộng các giải pháp này để xử lý môi trường thực tế đa dạng một cách nhất quán và hiệu quả vẫn là một thách thức. Đảm bảo LAMs có thể thích nghi với các điều kiện thay đổi và duy trì hiệu suất trên nhiều nhiệm vụ và nhu cầu của người dùng là điều quan trọng cho thành công lâu dài của chúng.

Kết luận

Mô hình Hành động Lớn (LAMs) đang nổi lên như một đổi mới quan trọng trong trí tuệ nhân tạo, ảnh hưởng không chỉ đến tương tác thiết bị mà còn đến các ứng dụng ngành công nghiệp rộng lớn hơn. Được minh họa bởi Rabbit AI’s R1 và được khám phá trong các tiến bộ của Apple với Siri, LAMs đang thiết lập sân khấu cho các hệ thống trí tuệ nhân tạo tương tác và trực quan hơn.

Tuy nhiên, việc triển khai LAMs đi kèm với những thách thức, bao gồm lo ngại về quyền riêng tư dữ liệu, vấn đề đạo đức, sự phức tạp của tích hợp và khả năng tính toán. Giải quyết những vấn đề này là điều cần thiết khi chúng ta tiến tới việc áp dụng rộng rãi hơn các công nghệ LAM, nhằm tận dụng khả năng của chúng một cách có trách nhiệm và hiệu quả. Khi LAMs tiếp tục phát triển, tiềm năng của chúng trong việc biến đổi các tương tác kỹ thuật số vẫn còn đáng kể, nhấn mạnh tầm quan trọng của chúng trong tương lai của trí tuệ nhân tạo.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.