Công cụ AI 101

Beyond ChatGPT; AI Agent: Một Thế Giới Mới Của Người Lao Động

Published August 28, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Với những tiến bộ trong học sâu, xử lý ngôn ngữ tự nhiên (NLP) và AI, chúng ta đang trong một thời kỳ mà các tác nhân AI có thể chiếm một phần đáng kể trong lực lượng lao động toàn cầu. Những tác nhân AI này, vượt qua các rô-bốt trò chuyện và trợ lý giọng nói, đang định hình một mô hình mới cho cả các ngành công nghiệp và cuộc sống hàng ngày của chúng ta. Nhưng điều gì thực sự có nghĩa là sống trong một thế giới được tăng cường bởi những “người lao động” này? Bài viết này sẽ đi sâu vào phong cảnh đang phát triển này, đánh giá các ý nghĩa, tiềm năng và thách thức nằm ahead.

Một Tóm Tắt Ngắn: Sự Tiến Hóa Của Người Lao Động AI

Trước khi hiểu được cuộc cách mạng sắp tới, điều quan trọng là phải nhận ra sự tiến hóa được thúc đẩy bởi AI mà đã xảy ra.

Hệ Thống Máy Tính Cổ Điển: Từ các thuật toán máy tính cơ bản, hành trình đã bắt đầu. Những hệ thống này có thể giải quyết các nhiệm vụ được định nghĩa trước bằng cách sử dụng một tập hợp quy tắc cố định.
Rô-bốt Trò Chuyện & Trợ Lý Giọng Nói Sớm: Khi công nghệ tiến bộ, nên giao diện của chúng cũng vậy. Các công cụ như Siri, Cortana và rô-bốt trò chuyện sớm đã đơn giản hóa tương tác người dùng-AI nhưng có hiểu biết và khả năng hạn chế.
Mạng Nơ-ron & Học Sâu: Mạng nơ-ron đã đánh dấu một điểm chuyển, mô phỏng các chức năng của não bộ con người và tiến hóa qua kinh nghiệm. Các kỹ thuật học sâu đã nâng cao điều này, cho phép nhận dạng hình ảnh và giọng nói tinh vi.
Architectures Transformer & Mô Hình NLP Tiên Tiến: Sự giới thiệu của các kiến trúc transformer đã cách mạng hóa phong cảnh NLP. Các hệ thống như ChatGPT của OpenAI, BERT và T5 đã cho phép các đột phá trong giao tiếp người-AI. Với sự hiểu biết sâu sắc về ngôn ngữ và ngữ cảnh, các mô hình này có thể giữ các cuộc trò chuyện có ý nghĩa, tạo nội dung và trả lời các câu hỏi phức tạp với độ chính xác chưa từng có.

Nhập Tác Nhân AI: Hơn Chỉ Là Một Cuộc Trò Chuyện

Phong cảnh AI ngày nay đang gợi ý về điều gì đó rộng lớn hơn các công cụ trò chuyện. Các tác nhân AI, vượt qua các chức năng trò chuyện đơn thuần, hiện có thể thực hiện các nhiệm vụ, học hỏi từ môi trường của chúng, đưa ra quyết định và thậm chí thể hiện sự sáng tạo. Chúng không chỉ trả lời các câu hỏi; chúng đang giải quyết các vấn đề.

Các mô hình phần mềm truyền thống hoạt động trên một con đường rõ ràng. Các bên liên quan thể hiện một mục tiêu cho các nhà quản lý phần mềm, những người sau đó thiết kế một kế hoạch cụ thể. Các kỹ sư sẽ thực hiện kế hoạch này thông qua các dòng mã. Mô hình ‘di sản’ của chức năng phần mềm này rõ ràng, liên quan đến nhiều can thiệp của con người.

Tuy nhiên, các tác nhân AI hoạt động khác biệt. Một tác nhân:

Có mục tiêu mà nó tìm cách đạt được.
Có thể tương tác với môi trường của nó.
Định hình một kế hoạch dựa trên những quan sát này để đạt được mục tiêu của nó.
Thực hiện các hành động cần thiết, điều chỉnh phương pháp tiếp cận của nó dựa trên trạng thái thay đổi của môi trường.

Điều thực sự phân biệt các tác nhân AI với các mô hình truyền thống là khả năng tự tạo ra một kế hoạch từng bước để hiện thực hóa một mục tiêu. Về bản chất, trong khi trước đây nhà lập trình cung cấp kế hoạch, ngày nay các tác nhân AI vạch ra con đường của chúng.

Hãy xem xét một ví dụ hàng ngày. Trong thiết kế phần mềm truyền thống, một chương trình sẽ thông báo cho người dùng về các nhiệm vụ quá hạn dựa trên các điều kiện được định nghĩa trước. Các nhà phát triển sẽ đặt các điều kiện này dựa trên các thông số kỹ thuật do người quản lý sản phẩm cung cấp.

Trong mô hình tác nhân AI, chính tác nhân quyết định khi và cách thông báo cho người dùng. Nó đo lường môi trường (thói quen của người dùng, trạng thái ứng dụng) và quyết định hành động tốt nhất. Quá trình này trở nên động hơn, phù hợp với thời điểm.

ChatGPT đã đánh dấu một sự khởi đầu từ việc sử dụng truyền thống của nó với việc tích hợp các plugin, cho phép nó khai thác các công cụ bên ngoài để thực hiện nhiều yêu cầu. Nó trở thành một biểu hiện sớm của khái niệm tác nhân. Nếu chúng ta xem xét một ví dụ đơn giản: một người dùng hỏi về thời tiết của Thành phố New York, ChatGPT, tận dụng các plugin, có thể tương tác với một API thời tiết bên ngoài, giải thích dữ liệu và thậm chí điều chỉnh dựa trên các phản hồi nhận được.

Current Landscape of AI Agents

Các tác nhân AI, bao gồm Auto-GPT, AgentGPT và BabyAGI, đang báo hiệu một kỷ nguyên mới trong vũ trụ AI rộng lớn. Trong khi ChatGPT đã phổ biến Generative AI bằng cách yêu cầu đầu vào của con người, tầm nhìn đằng sau các tác nhân AI là để cho phép AI hoạt động độc lập, hướng tới các mục tiêu với sự can thiệp của con người tối thiểu. Tiềm năng chuyển đổi này đã được nhấn mạnh bởi sự tăng trưởng nhanh chóng của Auto-GPT, thu được hơn 107.000 ngôi sao trên GitHub chỉ trong sáu tuần kể từ khi ra mắt, một sự tăng trưởng chưa từng có so với các dự án thành lập như gói khoa học dữ liệu ‘pandas’.

Tác Nhân AI So Với ChatGPT

Nhiều tác nhân AI tiên tiến, như Auto-GPT và BabyAGI, sử dụng kiến trúc GPT. Mục tiêu chính của chúng là giảm thiểu nhu cầu can thiệp của con người trong việc hoàn thành nhiệm vụ AI. Các thuật ngữ như “GPT trên một vòng lặp” mô tả hoạt động của các mô hình như AgentGPT và BabyAGI. Chúng hoạt động trong các chu kỳ lặp lại để hiểu tốt hơn các yêu cầu của người dùng và tinh chỉnh đầu ra của chúng. Trong khi đó, Auto-GPT đẩy ranh giới xa hơn bằng cách kết hợp khả năng truy cập internet và thực thi mã, mở rộng đáng kể phạm vi giải quyết vấn đề của nó.

Sáng Kiến Trong Tác Nhân AI

Bộ Nhớ Dài Hạn: Các LLM truyền thống có bộ nhớ hạn chế, chỉ giữ lại các đoạn gần đây của tương tác. Đối với các nhiệm vụ toàn diện, việc nhớ lại toàn bộ cuộc trò chuyện hoặc thậm chí các cuộc trò chuyện trước đó trở nên quan trọng. Để vượt qua điều này, các tác nhân AI đã áp dụng các quy trình nhúng, chuyển đổi các cuộc trò chuyện văn bản thành các mảng số, cung cấp một giải pháp cho các hạn chế về bộ nhớ.
Khả Năng Duyệt Web: Để cập nhật các sự kiện gần đây, Auto-GPT đã được trang bị khả năng duyệt web, sử dụng API Tìm kiếm của Google. Điều này đã gây ra các cuộc tranh luận trong cộng đồng AI về phạm vi kiến thức của AI.
Chạy Mã: Ngoài việc tạo mã, Auto-GPT có thể thực thi cả mã shell và Python. Khả năng chưa từng có này cho phép nó giao tiếp với các phần mềm khác, do đó mở rộng phạm vi hoạt động của nó.

Sơ đồ trực quan hóa kiến trúc của một hệ thống AI được cung cấp bởi một Mô Hình Ngôn Ngữ Lớn và Các Tác Nhân.

Đầu Vào: Hệ thống nhận dữ liệu từ các nguồn đa dạng: lệnh của người dùng, cơ sở dữ liệu có cấu trúc, nội dung web và cảm biến môi trường thời gian thực.
LLM & Tác Nhân: Ở trung tâm, LLM xử lý các đầu vào này, hợp tác với các tác nhân chuyên dụng như Auto-GPT cho chuỗi suy nghĩ, AgentGPT cho các nhiệm vụ cụ thể của web, BabyAGI cho các hành động cụ thể của nhiệm vụ và HuggingGPT cho xử lý nhóm.
Đầu Ra: Một khi được xử lý, thông tin được chuyển đổi thành định dạng thân thiện với người dùng và sau đó được chuyển đến các thiết bị có thể thực hiện hoặc ảnh hưởng đến môi trường xung quanh.
Thành Phần Bộ Nhớ: Hệ thống giữ lại thông tin, cả tạm thời và vĩnh viễn, thông qua các bộ nhớ đệm ngắn hạn và cơ sở dữ liệu dài hạn.
Môi Trường: Đây là lĩnh vực bên ngoài, ảnh hưởng đến các cảm biến và bị ảnh hưởng bởi các hành động của hệ thống.

Tác Nhân AI Tiên Tiến: Auto-GPT, BabyAGI và Hơn Thế Nữa

AutoGPT và AgentGPT

AutoGPT, một đứa con tinh thần được phát hành trên GitHub vào tháng 3 năm 2023, là một ứng dụng Python dựa trên sự thông minh của GPT, mô hình tạo sinh biến đổi của OpenAI. Điều phân biệt Auto-GPT với các tiền nhiệm của nó là tính tự chủ – nó được thiết kế để thực hiện các nhiệm vụ với sự hướng dẫn của con người tối thiểu và có khả năng tự khởi xướng các lời nhắc. Người dùng chỉ cần định nghĩa một mục tiêu chung, và Auto-GPT sẽ tạo ra các lời nhắc cần thiết để đạt được mục tiêu đó, làm cho nó trở thành một bước nhảy vĩ đại hướng tới trí tuệ nhân tạo tổng quát (AGI) thực sự.

Với các tính năng trải rộng từ kết nối internet, quản lý bộ nhớ đến khả năng lưu trữ tệp sử dụng GPT-3.5, công cụ này có khả năng xử lý một loạt các nhiệm vụ, từ những việc thông thường như soạn thảo email đến các nhiệm vụ phức tạp sẽ đòi hỏi sự tham gia của con người nhiều hơn.

Mặt khác, AgentGPT, cũng được xây dựng trên khuôn khổ GPT, là một giao diện người dùng hướng tới người dùng không yêu cầu chuyên môn lập trình rộng để thiết lập và sử dụng. AgentGPT cho phép người dùng định nghĩa các mục tiêu AI, sau đó nó sẽ chia nhỏ thành các nhiệm vụ có thể quản lý được.

Giao Diện AgentGPT

Hơn nữa, AgentGPT nổi bật với sự đa năng của nó. Nó không bị giới hạn trong việc tạo ra các rô-bốt trò chuyện. Nền tảng này mở rộng khả năng của mình để tạo ra các ứng dụng đa dạng như bot Discord và thậm chí tích hợp liền mạch với Auto-GPT. Cách tiếp cận này đảm bảo rằng ngay cả những người không có nền tảng lập trình rộng cũng có thể thực hiện các nhiệm vụ như mã hóa tự động, tạo văn bản, dịch ngôn ngữ và giải quyết vấn đề.

LangChain là một khuôn khổ kết nối các Mô Hình Ngôn Ngữ Lớn với các công cụ khác nhau và sử dụng các tác nhân, thường được coi là ‘Bot’, để xác định và thực hiện các nhiệm vụ cụ thể bằng cách chọn công cụ phù hợp. Những tác nhân này tích hợp liền mạch với các tài nguyên bên ngoài, trong khi một cơ sở dữ liệu vector trong LangChain lưu trữ dữ liệu không có cấu trúc, giúp việc thu thập thông tin nhanh chóng cho các LLM.

BabyAGI

Sau đó, có BabyAGI, một tác nhân đơn giản nhưng mạnh mẽ. Để hiểu khả năng của BabyAGI, hãy tưởng tượng một người quản lý dự án kỹ thuật số tự động tạo, tổ chức và thực hiện các nhiệm vụ với sự tập trung sắc nét vào các mục tiêu đã cho. Trong khi hầu hết các nền tảng AI được giới hạn bởi kiến thức đã được đào tạo trước, BabyAGI nổi bật với khả năng thích nghi và học hỏi từ kinh nghiệm. Nó có khả năng phân biệt phản hồi và, giống như con người, đưa ra quyết định dựa trên thử nghiệm và sai lầm.

Đáng chú ý, sức mạnh cơ bản của BabyAGI không chỉ là khả năng thích nghi mà còn là khả năng chạy mã cho các mục tiêu cụ thể. Nó tỏa sáng trong các lĩnh vực phức tạp như giao dịch tiền điện tử, robot và lái xe tự động, khiến nó trở thành một công cụ đa năng trong nhiều ứng dụng.

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Quá trình có thể được phân loại thành ba tác nhân:

Tác Nhân Thực Thi: Trái tim của hệ thống, tác nhân này tận dụng API của OpenAI để xử lý nhiệm vụ. Cho một mục tiêu và nhiệm vụ, nó nhắc API của OpenAI và thu lại kết quả của nhiệm vụ.
Tác Nhân Tạo Nhiệm Vụ: Chức năng này tạo ra các nhiệm vụ mới dựa trên kết quả trước đó và mục tiêu hiện tại. Một lời nhắc được gửi đến API của OpenAI, sau đó trả về các nhiệm vụ tiềm năng, được tổ chức thành một danh sách từ điển.
Tác Nhân Ưu Tiên Nhiệm Vụ: Giai đoạn cuối cùng liên quan đến việc sắp xếp các nhiệm vụ theo thứ tự ưu tiên. Tác nhân này sử dụng API của OpenAI để sắp xếp lại các nhiệm vụ, đảm bảo rằng những nhiệm vụ quan trọng nhất được thực hiện trước tiên.

Trong sự hợp tác với mô hình ngôn ngữ của OpenAI, BabyAGI tận dụng khả năng của Pinecone để lưu trữ và thu hồi kết quả nhiệm vụ dựa trên ngữ cảnh.

Dưới đây là một bản demo của BabyAGI sử dụng liên kết này.

Để bắt đầu, bạn sẽ cần một khóa API OpenAPI hợp lệ. Để dễ dàng truy cập, giao diện người dùng có một phần cài đặt nơi khóa API OpenAPI có thể được nhập. Ngoài ra, nếu bạn đang tìm cách quản lý chi phí, hãy nhớ thiết lập giới hạn số lần lặp.

Khi tôi đã cấu hình ứng dụng, tôi đã thực hiện một thí nghiệm nhỏ. Tôi đã đăng một lời nhắc đến BabyAGI: “Tạo một chuỗi tweet ngắn gọn tập trung vào hành trình phát triển cá nhân, chạm vào các cột mốc, thách thức và sức mạnh chuyển đổi của việc học liên tục.”

BabyAGI đã phản hồi với một kế hoạch được suy nghĩ kỹ lưỡng. Nó không chỉ là một mẫu chung chung mà là một bản đồ đường đầy đủ, cho thấy rằng AI cơ bản đã thực sự hiểu được sự tinh tế của yêu cầu.

Đồng Pilots AI Deepnote

Deepnote AI Copilot thay đổi động lực của việc khám phá dữ liệu trong các sổ tay. Nhưng điều gì làm cho nó khác biệt?

Ở cốt lõi, Deepnote AI nhằm mục đích tăng cường luồng làm việc của các nhà khoa học dữ liệu. Khi bạn cung cấp một hướng dẫn cơ bản, AI sẽ lập kế hoạch, thực hiện các truy vấn SQL, trực quan hóa dữ liệu bằng Python và trình bày các phát hiện của nó một cách rõ ràng.

Một trong những điểm mạnh của Deepnote AI là sự hiểu biết toàn diện về không gian làm việc của bạn. Bằng cách hiểu các lược đồ tích hợp và hệ thống tệp, nó sắp xếp các kế hoạch thực hiện của mình hoàn hảo với bối cảnh tổ chức, đảm bảo rằng các thông tin của nó luôn phù hợp.

Tích hợp AI với các phương tiện sổ tay tạo ra một vòng phản hồi độc đáo. Nó đánh giá tích cực các đầu ra mã, khiến nó trở nên thành thạo trong việc tự sửa lỗi và đảm bảo rằng kết quả của nó nhất quán với các mục tiêu đã đặt.

Deepnote AI nổi bật với các hoạt động minh bạch, cung cấp thông tin chi tiết về các quy trình của nó. Sự kết hợp giữa mã và đầu ra đảm bảo rằng các hành động của nó luôn có thể giải thích và tái tạo được.

CAMEL

CAMEL là một khuôn khổ nhằm thúc đẩy sự hợp tác giữa các tác nhân AI, nhằm hoàn thành nhiệm vụ một cách hiệu quả với sự giám sát của con người tối thiểu.

https://github.com/camel-ai/camel

Nó chia hoạt động của mình thành hai loại tác nhân chính:

Trợ Lý Người Dùng AI đặt ra các hướng dẫn.
Tác Nhân Trợ Lý AI thực hiện các nhiệm vụ dựa trên các chỉ thị được cung cấp.

Một trong những khát vọng của CAMEL là giải quyết các phức tạp của các quá trình suy nghĩ AI, nhằm tối ưu hóa sự hòa hợp giữa các tác nhân đa dạng. Với các tính năng như vai trò và lời nhắc khởi tạo, nó đảm bảo rằng các nhiệm vụ AI được sắp xếp hoàn hảo với các mục tiêu của con người.

Mô Phỏng Westworld: Đưa Cuộc Sống Vào AI

Được lấy cảm hứng từ phần mềm Unity và được điều chỉnh trong Python, mô phỏng Westworld là một bước nhảy vĩ đại trong việc mô phỏng và tối ưu hóa các môi trường nơi nhiều tác nhân AI tương tác, gần như một xã hội kỹ thuật số.

CÁC TÁC NHÂN TẠO

Những tác nhân này không chỉ là các thực thể kỹ thuật số. Chúng mô phỏng các hành vi của con người đáng tin cậy, từ các thói quen hàng ngày đến các tương tác xã hội phức tạp. Kiến trúc của chúng mở rộng một mô hình ngôn ngữ lớn để lưu trữ kinh nghiệm, suy ngẫm về chúng và sử dụng chúng để lập kế hoạch hành vi động.

Môi trường hộp cát tương tác của Westworld, gợi nhớ đến The Sims, mang đến một thị trấn được các tác nhân tạo sinh cư ngụ. Tại đây, người dùng có thể tương tác, quan sát và hướng dẫn những tác nhân này trong ngày của chúng, quan sát các hành vi mới nổi và các động lực xã hội phức tạp.

Mô phỏng Westworld thể hiện sự kết hợp hài hòa giữa sức mạnh tính toán và sự tinh tế của con người. Bằng cách kết hợp các mô hình ngôn ngữ lớn với mô phỏng tác nhân động, nó vạch ra con đường hướng tới việc tạo ra các trải nghiệm AI không thể phân biệt được với thực tế.

Kết Luận

Các tác nhân AI có thể vô cùng đa năng và chúng đang định hình các ngành công nghiệp, thay đổi các quy trình làm việc và cho phép thực hiện các kỳ công mà trước đây dường như không thể.

Nhưng giống như tất cả các đổi mới mang tính đột phá, chúng không hoàn hảo.

Mặc dù chúng có sức mạnh để định hình lại cấu trúc cơ bản của sự tồn tại kỹ thuật số của chúng ta, nhưng những tác nhân này vẫn phải vật lộn với một số thách thức, một số trong đó là bản chất của con người, chẳng hạn như hiểu ngữ cảnh trong các tình huống tinh vi hoặc giải quyết các vấn đề nằm ngoài tập dữ liệu đã được đào tạo của chúng.

Trong bài viết tiếp theo, chúng tôi sẽ đi sâu vào AutoGPT và GPT Engineer, xem xét cách thiết lập và sử dụng chúng. Ngoài ra, chúng tôi sẽ khám phá lý do tại sao những tác nhân AI này đôi khi gặp sự cố, chẳng hạn như bị mắc kẹt trong các vòng lặp, trong số các vấn đề khác. Vì vậy, hãy theo dõi!

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.