Lãnh đạo tư tưởng
Hướng Dẫn Hiểu, Xây Dựng và Tối Ưu Hóa Các Đại Lý Gọi API API Danh Sách Việc Cần Làm version: 1.0.0 paths: /tasks: post: summary: Thêm một nhiệm vụ mới requestBody: required: true

Vai trò của Trí Tuệ Nhân Tạo trong các công ty công nghệ đang phát triển nhanh chóng; các trường hợp sử dụng Trí Tuệ Nhân Tạo đã phát triển từ việc xử lý thông tin thụ động đến các đại lý chủ động có khả năng thực hiện các nhiệm vụ. Theo một cuộc khảo sát vào tháng 3 năm 2025 về việc áp dụng Trí Tuệ Nhân Tạo toàn cầu do Georgian và NewtonX thực hiện, 91% các giám đốc kỹ thuật trong các công ty đang phát triển và doanh nghiệp đang sử dụng hoặc có kế hoạch sử dụng Trí Tuệ Nhân Tạo đại lý.
Các đại lý gọi API là một ví dụ chính của sự chuyển đổi này sang các đại lý. Các đại lý gọi API tận dụng các Mô Hình Ngôn Ngữ Lớn (LLM) để tương tác với các hệ thống phần mềm thông qua các Giao Diện Lập Trình Ứng Dụng (API) của chúng.
Ví dụ, bằng cách dịch các lệnh ngôn ngữ tự nhiên thành các cuộc gọi API chính xác, các đại lý có thể lấy dữ liệu theo thời gian thực, tự động hóa các nhiệm vụ thường xuyên hoặc thậm chí kiểm soát các hệ thống phần mềm khác. Khả năng này biến các đại lý Trí Tuệ Nhân Tạo thành những trung gian hữu ích giữa ý định của con người và chức năng của phần mềm.
Các công ty hiện đang sử dụng các đại lý gọi API trong các lĩnh vực khác nhau, bao gồm:
- Ứng Dụng Người Tiêu Dùng: Các trợ lý như Siri của Apple hoặc Alexa của Amazon đã được thiết kế để đơn giản hóa các nhiệm vụ hàng ngày, chẳng hạn như kiểm soát các thiết bị thông minh và đặt chỗ.
- Quy Trình Làm Việc Doanh Nghiệp: Các doanh nghiệp đã triển khai các đại lý API để tự động hóa các nhiệm vụ lặp đi lặp lại như lấy dữ liệu từ CRM, tạo báo cáo hoặc hợp nhất thông tin từ các hệ thống nội bộ.
- Truy Xuất và Phân Tích Dữ Liệu: Các doanh nghiệp đang sử dụng các đại lý API để đơn giản hóa việc truy cập vào các tập dữ liệu độc quyền, tài nguyên dựa trên đăng ký và API công khai để tạo ra các thông tin chi tiết.
Trong bài viết này, tôi sẽ sử dụng một cách tiếp cận kỹ thuật để hiểu, xây dựng và tối ưu hóa các đại lý gọi API. Nội dung trong bài viết này dựa trên một phần vào nghiên cứu và phát triển thực tế được thực hiện bởi Phòng Thí Nghiệm Trí Tuệ Nhân Tạo của Georgian. Câu hỏi thúc đẩy cho nhiều nghiên cứu của Phòng Thí Nghiệm Trí Tuệ Nhân Tạo trong lĩnh vực các đại lý gọi API đã là: “Nếu một tổ chức có một API, cách hiệu quả nhất để xây dựng một đại lý có thể giao diện với API đó bằng ngôn ngữ tự nhiên là gì?”
Tôi sẽ giải thích cách các đại lý gọi API hoạt động và cách kiến trúc và kỹ thuật thành công những đại lý này cho hiệu suất. Cuối cùng, tôi sẽ cung cấp một quy trình làm việc có hệ thống mà các nhóm kỹ thuật có thể sử dụng để triển khai các đại lý gọi API.
I. Định Nghĩa Chính:
- API hoặc Giao Diện Lập Trình Ứng Dụng: Một tập hợp các quy tắc và giao thức cho phép các ứng dụng phần mềm khác nhau giao tiếp và trao đổi thông tin.
- Đại Lý: Một hệ thống Trí Tuệ Nhân Tạo được thiết kế để nhận thức môi trường của nó, đưa ra quyết định và thực hiện các hành động để đạt được các mục tiêu cụ thể.
- Đại Lý Gọi API: Một đại lý Trí Tuệ Nhân Tạo chuyên dụng dịch các lệnh ngôn ngữ tự nhiên thành các cuộc gọi API chính xác.
- Đại Lý Tạo Mã: Một hệ thống Trí Tuệ Nhân Tạo hỗ trợ phát triển phần mềm bằng cách viết, sửa đổi và gỡ lỗi mã. Mặc dù liên quan, trọng tâm của tôi ở đây chủ yếu là về các đại lý gọi API, mặc dù Trí Tuệ Nhân Tạo cũng có thể giúp xây dựng những đại lý này.
- Giao Thức Context Mô Hình (MCP): Một giao thức, đáng chú ý được phát triển bởi Anthropic, định nghĩa cách các mô hình ngôn ngữ lớn (LLM) có thể kết nối với các công cụ và nguồn dữ liệu bên ngoài.
II. Nhiệm Vụ Cốt Lõi: Dịch Ngôn Ngữ Tự Nhiên thành Hành Động API
Chức năng cơ bản của một đại lý gọi API là giải thích yêu cầu ngôn ngữ tự nhiên của người dùng và chuyển đổi nó thành một hoặc nhiều cuộc gọi API chính xác. Quá trình này thường liên quan đến:
- Nhận Biết Ý Định: Hiểu mục tiêu của người dùng, ngay cả khi được thể hiện một cách mơ hồ.
- Chọn Công Cụ: Xác định điểm cuối API phù hợp (hoặc “công cụ”) từ một tập hợp các tùy chọn có sẵn có thể thực hiện ý định.
- Trích Xuất Tham Số: Xác định và trích xuất các tham số cần thiết cho cuộc gọi API (các) từ truy vấn của người dùng.
- Thực Thi và Tạo Đáp Ứng: Thực hiện cuộc gọi API (các), nhận đáp ứng (các) và sau đó tổng hợp thông tin này thành một câu trả lời hợp lý hoặc thực hiện một hành động tiếp theo.
Hãy xem xét một yêu cầu như, “Hey Siri, thời tiết hôm nay như thế nào?” Đại lý phải xác định nhu cầu gọi API thời tiết, xác định vị trí hiện tại của người dùng (hoặc cho phép chỉ định vị trí) và sau đó tạo cuộc gọi API để lấy thông tin thời tiết.
Đối với yêu cầu “Hey Siri, thời tiết hôm nay như thế nào?”, một cuộc gọi API mẫu có thể trông như thế này:
GET /v1/weather?location=New%20York&units=metric
Các thách thức cấp cao ban đầu là固 có trong quá trình dịch này, bao gồm sự mơ hồ của ngôn ngữ tự nhiên và nhu cầu của đại lý phải duy trì ngữ cảnh trong các tương tác nhiều bước.
Ví dụ, đại lý thường phải “nhớ” các phần trước của cuộc trò chuyện hoặc kết quả cuộc gọi API trước đó để thông báo các hành động hiện tại. Mất ngữ cảnh là một chế độ thất bại phổ biến nếu không được quản lý một cách rõ ràng.
III. Kiến Trúc Giải Pháp: Các Thành Phần và Giao Thức Chính
Xây dựng các đại lý gọi API hiệu quả đòi hỏi một cách tiếp cận kiến trúc có cấu trúc.
1. Định Nghĩa “Công Cụ” cho Đại Lý
Để một mô hình ngôn ngữ lớn (LLM) sử dụng một API, các khả năng của API đó phải được mô tả cho nó theo cách nó có thể hiểu. Mỗi điểm cuối API hoặc chức năng thường được đại diện như một “công cụ”. Một định nghĩa công cụ mạnh mẽ bao gồm:
- Một mô tả ngôn ngữ tự nhiên rõ ràng về mục đích và chức năng của công cụ.
- Một thông số kỹ thuật chính xác về các tham số đầu vào (tên, loại, liệu nó có bắt buộc hay không và mô tả).
- Một mô tả về đầu ra hoặc dữ liệu mà công cụ trả về.
2. Vai Trò của Giao Thức Context Mô Hình (MCP)
MCP là một yếu tố quan trọng cho việc sử dụng công cụ được tiêu chuẩn hóa và mạnh mẽ hơn bởi các mô hình ngôn ngữ lớn (LLM). Nó cung cấp một định dạng có cấu trúc để định nghĩa cách các mô hình có thể kết nối với các công cụ và nguồn dữ liệu bên ngoài.
Tiêu chuẩn hóa MCP có lợi vì nó cho phép tích hợp dễ dàng hơn các công cụ đa dạng, nó thúc đẩy khả năng tái sử dụng các định nghĩa công cụ trên các đại lý hoặc mô hình khác nhau. Hơn nữa, đây là một thực hành tốt cho các nhóm kỹ thuật, bắt đầu với các thông số kỹ thuật API được xác định rõ ràng, chẳng hạn như thông số kỹ thuật OpenAPI. Các công cụ như Stainless.ai được thiết kế để giúp chuyển đổi các thông số kỹ thuật OpenAPI này thành cấu hình MCP,简化 quá trình làm cho các API “sẵn sàng cho đại lý”.
3. Khung Đại Lý và Lựa Chọn Triển Khai
Một số khung có thể giúp xây dựng chính đại lý. Chúng bao gồm:
- Pydantic: Mặc dù không chỉ là một khung đại lý, Pydantic hữu ích cho việc định nghĩa cấu trúc dữ liệu và đảm bảo an toàn kiểu cho đầu vào và đầu ra của công cụ, điều quan trọng cho độ tin cậy. Nhiều triển khai đại lý tùy chỉnh tận dụng Pydantic cho tính toàn vẹn cấu trúc này.
- Đại Lý mcp_agent của LastMile: Khung này được thiết kế đặc biệt để làm việc với MCP, cung cấp một cấu trúc có quan điểm hơn phù hợp với các thực hành xây dựng các đại lý hiệu quả như được mô tả trong nghiên cứu từ các nơi như Anthropic.
- Khung Nội Bộ: Điều cũng ngày càng phổ biến khi sử dụng các đại lý tạo mã Trí Tuệ Nhân Tạo (sử dụng công cụ như Cursor hoặc Cline) để giúp viết mã boilerplate cho đại lý, công cụ của nó và logic xung quanh. Kinh nghiệm của Phòng Thí Nghiệm Trí Tuệ Nhân Tạo của Georgian khi làm việc với các công ty về các triển khai đại lý cho thấy điều này có thể rất tốt để tạo ra các khung tùy chỉnh tối thiểu.
IV. Kỹ Thuật cho Độ Tin Cậy và Hiệu Suất
Đảm bảo rằng một đại lý thực hiện các cuộc gọi API một cách đáng tin cậy và hoạt động tốt đòi hỏi phải có nỗ lực kỹ thuật tập trung. Hai cách để làm điều này là (1) tạo và xác thực tập dữ liệu và (2) kỹ thuật và tối ưu hóa lời nhắc.
1. Tạo và Xác Thực Tập Dữ Liệu
Huấn luyện (nếu áp dụng), thử nghiệm và tối ưu hóa một đại lý đòi hỏi một tập dữ liệu chất lượng cao. Tập dữ liệu này nên bao gồm các truy vấn ngôn ngữ tự nhiên đại diện và các cuộc gọi API hoặc kết quả mong muốn tương ứng.
- Tạo Tập Dữ Liệu Thủ Công: Tạo tập dữ liệu thủ công đảm bảo độ chính xác và liên quan cao nhưng có thể tốn nhiều công sức.
- Tạo Tập Dữ Liệu Tổng Hợp: Tạo dữ liệu theo chương trình hoặc sử dụng các mô hình ngôn ngữ lớn (LLM) có thể mở rộng việc tạo tập dữ liệu, nhưng cách tiếp cận này đưa ra những thách thức đáng kể. Nghiên cứu của Phòng Thí Nghiệm Trí Tuệ Nhân Tạo của Georgian đã tìm thấy rằng đảm bảo tính chính xác và độ phức tạp thực tế của các cuộc gọi API và truy vấn tổng hợp là rất khó. Thường thì các câu hỏi được tạo ra quá tầm thường hoặc quá phức tạp, khiến việc đo lường hiệu suất của đại lý một cách tinh tế trở nên khó khăn. Xác thực cẩn thận dữ liệu tổng hợp là tuyệt đối quan trọng.
Đối với đánh giá quan trọng, một tập dữ liệu nhỏ, chất lượng cao, được xác minh thủ công thường cung cấp thông tin đáng tin cậy hơn so với một tập dữ liệu tổng hợp lớn, ồn ào.
2. Kỹ Thuật và Tối Ưu Hóa Lời Nhắc
Hiệu suất của một đại lý dựa trên mô hình ngôn ngữ lớn (LLM) bị ảnh hưởng nặng nề bởi các lời nhắc được sử dụng để hướng dẫn suy luận và lựa chọn công cụ của nó.
- Đầu vào hiệu quả liên quan đến việc định nghĩa rõ ràng nhiệm vụ của đại lý, cung cấp mô tả về các công cụ có sẵn và cấu trúc lời nhắc để khuyến khích trích xuất tham số chính xác.
- Tối ưu hóa có hệ thống bằng cách sử dụng các khung như DSPy có thể tăng cường đáng kể hiệu suất. DSPy cho phép bạn định nghĩa các thành phần của đại lý (ví dụ: mô-đun cho việc tạo suy nghĩ, lựa chọn công cụ, định dạng tham số) và sau đó sử dụng một cách tiếp cận giống như trình biên dịch với một số ví dụ từ tập dữ liệu của bạn để tìm lời nhắc hoặc cấu hình tối ưu cho các thành phần này.
V. Con Đường Khuyến Nghị đến Các Đại Lý API Hiệu Quả
Phát triển các đại lý Trí Tuệ Nhân Tạo gọi API mạnh mẽ là một kỷ luật kỹ thuật lặp đi lặp lại. Dựa trên các phát hiện của nghiên cứu Phòng Thí Nghiệm Trí Tuệ Nhân Tạo của Georgian, kết quả có thể được cải thiện đáng kể bằng cách sử dụng một quy trình làm việc có hệ thống như sau:
- Bắt Đầu với Định Nghĩa API Rõ Ràng: Bắt đầu với các thông số kỹ thuật OpenAPI được cấu trúc tốt cho các API mà đại lý của bạn sẽ tương tác.
- Tiêu Chuẩn Hóa Truy Cập Công Cụ: Chuyển đổi các thông số kỹ thuật OpenAPI của bạn thành MCP. Các công cụ như Stainless.ai có thể giúp tạo điều kiện cho quá trình này, tạo ra một cách tiêu chuẩn hóa để đại lý của bạn hiểu và sử dụng các API của bạn.
- Triển Khai Đại Lý: Chọn một khung hoặc cách tiếp cận phù hợp. Điều này có thể liên quan đến việc sử dụng Pydantic để mô hình hóa dữ liệu trong một cấu trúc đại lý tùy chỉnh hoặc tận dụng một khung như LastMile’s mcp_agent được thiết kế xung quanh MCP.
- Trước khi làm điều này, hãy xem xét việc kết nối MCP với một công cụ như Claude Desktop hoặc Cline và sử dụng giao diện này một cách thủ công để cảm nhận cách một đại lý chung có thể sử dụng nó, bao nhiêu lần lặp nó thường mất để sử dụng MCP một cách chính xác và bất kỳ chi tiết nào khác có thể giúp bạn tiết kiệm thời gian trong quá trình triển khai.
- Chuẩn Bị Một Tập Dữ Liệu Đánh Giá Chất Lượng: Tạo thủ công hoặc xác thực cẩn thận một tập dữ liệu gồm các truy vấn và tương tác API mong muốn. Điều này là quan trọng cho thử nghiệm và tối ưu hóa đáng tin cậy.
- Tối Ưu Hóa Lời Nhắc và Logic của Đại Lý: Sử dụng các khung như DSPy để tinh chỉnh lời nhắc và logic nội bộ của đại lý của bạn, sử dụng tập dữ liệu của bạn để thúc đẩy sự cải thiện về độ chính xác và độ tin cậy.
VI. Một Ví Dụ Minh Họa về Quy Trình Làm Việc
Dưới đây là một ví dụ đơn giản minh họa quy trình làm việc được khuyến nghị để xây dựng một đại lý gọi API:
Bước 1: Bắt Đầu với Định Nghĩa API Rõ Ràng
Hãy tưởng tượng một API để quản lý một danh sách việc cần làm đơn giản, được định nghĩa trong OpenAPI:
openapi: 3.0.0
info:
application/json:
schema:
type: object
properties:
description:
type: string
responses:
‘201’:
description: Nhiệm vụ được tạo thành công
get:
summary: Lấy tất cả các nhiệm vụ
responses:
‘200’:
description: Danh sách các nhiệm vụ
Bước 2: Tiêu Chuẩn Hóa Truy Cập Công Cụ
Chuyển đổi thông số kỹ thuật OpenAPI thành cấu hình Giao Thức Context Mô Hình (MCP). Sử dụng một công cụ như Stainless.ai, điều này có thể tạo ra:
| Tên Công Cụ | Mô Tả | Tham Số Đầu Vào | Mô Tả Đầu Ra |
| Thêm Nhiệm Vụ | Thêm một nhiệm vụ mới vào danh sách việc cần làm. | `description` (string, bắt buộc): Mô tả của nhiệm vụ. | Xác nhận tạo nhiệm vụ. |
| Lấy Nhiệm Vụ | Lấy tất cả các nhiệm vụ từ danh sách việc cần làm. | Không | Danh sách các nhiệm vụ với mô tả của chúng. |
Bước 3: Triển Khai Đại Lý
Sử dụng Pydantic để mô hình hóa dữ liệu, tạo các hàm tương ứng với các công cụ MCP. Sau đó, sử dụng một mô hình ngôn ngữ lớn (LLM) để giải thích các truy vấn ngôn ngữ tự nhiên và chọn công cụ và tham số phù hợp.
Bước 4: Chuẩn Bị Một Tập Dữ Liệu Đánh Giá Chất Lượng
Tạo một tập dữ liệu:
| Truy Vấn | Cuộc Gọi API Mong Muốn | Kết Quả Mong Muốn |
| “Thêm ‘Mua sắm’ vào danh sách của tôi.” | `Thêm Nhiệm Vụ` với `description` = “Mua sắm” | Xác nhận tạo nhiệm vụ |
| “Danh sách của tôi là gì?” | `Lấy Nhiệm Vụ` | Danh sách các nhiệm vụ, bao gồm “Mua sắm” |
Bước 5: Tối Ưu Hóa Lời Nhắc và Logic của Đại Lý
Sử dụng DSPy để tinh chỉnh lời nhắc, tập trung vào hướng dẫn rõ ràng, lựa chọn công cụ và trích xuất tham số bằng cách sử dụng tập dữ liệu được tạo để đánh giá và cải thiện.
Bằng cách tích hợp các khối xây dựng này – từ các định nghĩa API được cấu trúc và các giao thức công cụ được tiêu chuẩn hóa đến các thực hành dữ liệu nghiêm ngặt và tối ưu hóa có hệ thống – các nhóm kỹ thuật có thể xây dựng các đại lý Trí Tuệ Nhân Tạo gọi API mạnh mẽ, đáng tin cậy và bảo trì hơn.












