sơ khai Tác nhân di động: Tác nhân thiết bị di động đa phương thức tự động với nhận thức trực quan - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Tác nhân di động: Tác nhân thiết bị di động đa phương thức tự động với nhận thức trực quan

mm

Được phát hành

 on

Sự ra đời của Mô hình ngôn ngữ lớn đa phương thức (MLLM) đã mở ra một kỷ nguyên mới của các tác nhân thiết bị di động, có khả năng hiểu và tương tác với thế giới thông qua văn bản, hình ảnh và giọng nói. Các tác nhân này đánh dấu một bước tiến đáng kể so với AI truyền thống, cung cấp cách thức phong phú và trực quan hơn để người dùng tương tác với thiết bị của họ. Bằng cách tận dụng MLLM, các đại lý này có thể xử lý và tổng hợp lượng thông tin khổng lồ từ nhiều phương thức khác nhau, cho phép họ cung cấp hỗ trợ được cá nhân hóa và nâng cao trải nghiệm người dùng theo những cách mà trước đây không thể tưởng tượng được.

Các tác nhân này được hỗ trợ bởi các kỹ thuật học máy tiên tiến và khả năng xử lý ngôn ngữ tự nhiên tiên tiến, cho phép chúng hiểu và tạo ra văn bản giống con người, cũng như diễn giải dữ liệu thị giác và thính giác với độ chính xác vượt trội. Từ việc nhận dạng các đối tượng và cảnh trong hình ảnh đến hiểu lệnh nói và phân tích cảm xúc văn bản, các tác nhân đa phương thức này được trang bị để xử lý liền mạch nhiều loại dữ liệu đầu vào. Tiềm năng của công nghệ này là rất lớn, cung cấp các dịch vụ phức tạp hơn và phù hợp với ngữ cảnh hơn, chẳng hạn như trợ lý ảo hòa hợp với cảm xúc của con người và các công cụ giáo dục thích ứng với phong cách học tập của từng cá nhân. Chúng cũng có tiềm năng cách mạng hóa khả năng tiếp cận, giúp công nghệ trở nên dễ tiếp cận hơn qua các rào cản ngôn ngữ và giác quan.

Trong bài viết này, chúng ta sẽ nói về Mobile-Agent, một tác nhân thiết bị đa phương thức tự động, lần đầu tiên tận dụng khả năng của các công cụ nhận thức trực quan để xác định và định vị chính xác các thành phần hình ảnh và văn bản với giao diện ngoại vi của ứng dụng di động. Bằng cách sử dụng bối cảnh tầm nhìn nhận thức này, khung Tác nhân di động lập kế hoạch và phân tách nhiệm vụ vận hành phức tạp một cách tự động, đồng thời điều hướng qua các ứng dụng di động thông qua các hoạt động từng bước. Khung Tác nhân di động khác với các giải pháp hiện có vì nó không dựa vào siêu dữ liệu hệ thống di động hoặc tệp XML của ứng dụng di động, cho phép tăng cường khả năng thích ứng trên các môi trường điều hành di động đa dạng theo cách lấy tầm nhìn làm trung tâm. Cách tiếp cận theo sau trong khung Tác nhân di động sẽ loại bỏ yêu cầu tùy chỉnh dành riêng cho hệ thống, dẫn đến hiệu suất được nâng cao và yêu cầu tính toán thấp hơn. 

Mobile-Agent: Tác nhân thiết bị di động đa phương thức tự động

Trong thế giới công nghệ di động phát triển nhanh chóng, một khái niệm tiên phong nổi bật: Mô hình ngôn ngữ lớn, đặc biệt là Mô hình ngôn ngữ lớn đa phương thức hoặc MLLM có khả năng tạo ra nhiều văn bản, hình ảnh, video và giọng nói trên các ngôn ngữ khác nhau. Sự phát triển nhanh chóng của các khung MLLM trong vài năm qua đã tạo ra một ứng dụng MLLM mới và mạnh mẽ: các tác nhân di động tự trị. Tác nhân di động tự động là các thực thể phần mềm hoạt động, di chuyển và hoạt động độc lập mà không cần lệnh trực tiếp của con người, được thiết kế để đi qua mạng hoặc thiết bị để hoàn thành nhiệm vụ, thu thập thông tin hoặc giải quyết vấn đề. 

Tác nhân di động được thiết kế để vận hành thiết bị di động của người dùng dựa trên hướng dẫn người dùng và hình ảnh trên màn hình, một nhiệm vụ yêu cầu tác nhân phải sở hữu cả khả năng hiểu ngữ nghĩa và nhận thức trực quan. Tuy nhiên, các tác nhân di động hiện tại còn lâu mới hoàn hảo vì chúng dựa trên các mô hình ngôn ngữ lớn đa phương thức và ngay cả các khung MLLM hiện đại bao gồm GPT-4V cũng thiếu khả năng nhận thức trực quan cần thiết để hoạt động hiệu quả. đại lý di động. Hơn nữa, mặc dù các khuôn khổ hiện tại có thể tạo ra các hoạt động hiệu quả nhưng chúng gặp khó khăn trong việc xác định chính xác vị trí của các hoạt động này trên màn hình, hạn chế các ứng dụng và khả năng hoạt động của các tác nhân di động trên thiết bị di động. 

Để giải quyết vấn đề này, một số khung đã chọn tận dụng các tệp bố cục giao diện người dùng để hỗ trợ GPT-4V hoặc các MLLM khác có khả năng bản địa hóa, với một số khung quản lý để trích xuất các vị trí có thể thao tác trên màn hình bằng cách truy cập các tệp XML của ứng dụng trong khi các khung khác đã chọn sử dụng mã HTML từ các ứng dụng web. Có thể thấy, phần lớn các khung này dựa vào việc truy cập các tệp ứng dụng cơ bản và cục bộ, khiến phương thức này gần như không hiệu quả nếu khung không thể truy cập các tệp này. Để giải quyết vấn đề này và loại bỏ sự phụ thuộc của các tác nhân cục bộ vào các tệp cơ bản theo phương pháp bản địa hóa, các nhà phát triển đã làm việc trên Mobile-Agent, một tác nhân di động tự trị với khả năng nhận thức trực quan ấn tượng. Bằng cách sử dụng mô-đun nhận thức trực quan, khung Tác nhân di động sử dụng ảnh chụp màn hình từ thiết bị di động để xác định chính xác các hoạt động. Mô-đun nhận thức trực quan chứa OCR và các mô hình phát hiện chịu trách nhiệm xác định văn bản trong màn hình và mô tả nội dung trong một vùng cụ thể của màn hình di động. Khung Tác nhân di động sử dụng các lời nhắc được soạn thảo cẩn thận và tạo điều kiện tương tác hiệu quả giữa các công cụ và tác nhân, do đó tự động hóa các hoạt động của thiết bị di động. 

Hơn nữa, khung Tác nhân di động nhằm mục đích tận dụng khả năng theo ngữ cảnh của các khung MLLM hiện đại như GPT-4V để đạt được khả năng tự lập kế hoạch cho phép mô hình lập kế hoạch nhiệm vụ dựa trên lịch sử hoạt động, hướng dẫn người dùng và ảnh chụp màn hình một cách tổng thể. Để nâng cao hơn nữa khả năng của tác nhân trong việc xác định các hướng dẫn không đầy đủ và các thao tác sai, khung Tác nhân di động giới thiệu một phương pháp tự phản ánh. Dưới sự hướng dẫn của các lời nhắc được soạn thảo cẩn thận, nhân viên sẽ phản ánh một cách nhất quán về các hoạt động không chính xác và không hợp lệ, đồng thời tạm dừng các hoạt động sau khi hoàn thành nhiệm vụ hoặc hướng dẫn. 

Nhìn chung, những đóng góp của khung Tác nhân di động có thể được tóm tắt như sau:

  1. Mobile-Agent hoạt động như một tác nhân thiết bị di động tự trị, sử dụng các công cụ nhận thức trực quan để thực hiện nội địa hóa hoạt động. Nó lập kế hoạch một cách có phương pháp cho từng bước và tham gia vào việc xem xét nội tâm. Đáng chú ý, Mobile-Agent chỉ dựa vào ảnh chụp màn hình thiết bị mà không sử dụng bất kỳ mã hệ thống nào, giới thiệu một giải pháp hoàn toàn dựa trên kỹ thuật thị giác.
  2. Mobile-Agent giới thiệu Mobile-Eval, một tiêu chuẩn được thiết kế để đánh giá các tác nhân trên thiết bị di động. Điểm chuẩn này bao gồm nhiều ứng dụng trong số mười ứng dụng di động được sử dụng phổ biến nhất, cùng với các hướng dẫn thông minh dành cho các ứng dụng này, được phân loại thành ba cấp độ khó.

Mobile-Agent: Kiến trúc và phương pháp luận

Về cốt lõi, khung Tác nhân di động bao gồm một công nghệ hiện đại Mô hình ngôn ngữ lớn đa phương thức, GPT-4V, mô-đun phát hiện văn bản được sử dụng cho các tác vụ bản địa hóa văn bản. Cùng với GPT-4V, Mobile-Agent cũng sử dụng mô-đun phát hiện biểu tượng để bản địa hóa biểu tượng. 

Nhận thức trực quan

Như đã đề cập trước đó, GPT-4V MLLM mang lại kết quả thỏa đáng cho hướng dẫn và ảnh chụp màn hình, nhưng nó không xuất ra vị trí nơi các hoạt động diễn ra một cách hiệu quả. Do hạn chế này, khung Mobile-Agent triển khai mô hình GPT-4V cần dựa vào các công cụ bên ngoài để hỗ trợ bản địa hóa hoạt động, từ đó tạo điều kiện thuận lợi cho việc xuất hoạt động trên màn hình di động. 

Bản địa hóa văn bản

Khung Tác nhân di động triển khai công cụ OCR để phát hiện vị trí của văn bản tương ứng trên màn hình bất cứ khi nào tác nhân cần nhấn vào một văn bản cụ thể được hiển thị trên màn hình di động. Có ba kịch bản bản địa hóa văn bản duy nhất. 

Tình huống 1: Không phát hiện thấy văn bản cụ thể

Vấn đề: OCR không phát hiện được văn bản được chỉ định, điều này có thể xảy ra trong các hình ảnh phức tạp hoặc do hạn chế của OCR.

Đáp ứng: Hướng dẫn đại lý thực hiện:

  • Chọn lại văn bản để nhấn, cho phép chỉnh sửa thủ công phần giám sát của OCR hoặc
  • Chọn một thao tác thay thế, chẳng hạn như sử dụng phương thức nhập khác hoặc thực hiện một hành động khác có liên quan đến nhiệm vụ hiện tại.

Lý do: Tính linh hoạt này là cần thiết để quản lý những sai sót hoặc ảo giác không thường xuyên của GPT-4V, đảm bảo tác nhân vẫn có thể tiến hành một cách hiệu quả.

Tình huống 2: Đã phát hiện một trường hợp văn bản được chỉ định

hoạt động: Tự động tạo hành động nhấp vào tọa độ trung tâm của hộp văn bản được phát hiện.

Biện minh Chỉ với một trường hợp được phát hiện, khả năng nhận dạng chính xác là rất cao, giúp việc tiến hành hành động trực tiếp trở nên hiệu quả.

Tình huống 3: Đã phát hiện nhiều trường hợp văn bản được chỉ định

Đánh giá: Đầu tiên, đánh giá số lượng trường hợp được phát hiện:

Nhiều trường hợp: Biểu thị một màn hình lộn xộn với nội dung tương tự, làm phức tạp quá trình lựa chọn.

Hoạt động: Yêu cầu tác nhân chọn lại văn bản, nhằm mục đích tinh chỉnh lựa chọn hoặc điều chỉnh các tham số tìm kiếm.

Một số trường hợp: Số lượng phát hiện có thể quản lý được cho phép cách tiếp cận có nhiều sắc thái hơn.

Hoạt động: Cắt các vùng xung quanh các trường hợp này, mở rộng hộp phát hiện văn bản ra bên ngoài để nắm bắt ngữ cảnh bổ sung. Việc mở rộng này đảm bảo rằng nhiều thông tin được lưu giữ hơn, hỗ trợ việc ra quyết định.

Bước tiếp theo: Vẽ các hộp phát hiện trên các hình ảnh đã cắt và trình bày chúng cho nhân viên. Hỗ trợ trực quan này giúp tác nhân quyết định nên tương tác với phiên bản nào, dựa trên manh mối ngữ cảnh hoặc yêu cầu nhiệm vụ.

Cách tiếp cận có cấu trúc này tối ưu hóa sự tương tác giữa kết quả OCR và hoạt động của tác nhân, nâng cao độ tin cậy và khả năng thích ứng của hệ thống trong việc xử lý các tác vụ dựa trên văn bản trong nhiều tình huống khác nhau. Toàn bộ quá trình được thể hiện trong hình ảnh sau đây.

Bản địa hóa biểu tượng

Khung tác nhân di động triển khai công cụ phát hiện biểu tượng để xác định vị trí của biểu tượng khi tác nhân cần nhấp vào biểu tượng đó trên màn hình thiết bị di động. Cụ thể hơn, trước tiên, khung yêu cầu tác nhân cung cấp các thuộc tính cụ thể của hình ảnh bao gồm hình dạng và màu sắc, sau đó khung triển khai phương pháp Grounding DINO với biểu tượng nhắc nhở để xác định tất cả các biểu tượng có trong ảnh chụp màn hình. Cuối cùng, Mobile-Agent sử dụng khung CLIP để tính toán độ tương tự giữa mô tả vùng nhấp chuột và tính toán độ tương tự giữa các biểu tượng đã xóa và chọn vùng có độ tương tự cao nhất cho một nhấp chuột. 

Thực thi lệnh

Để chuyển các hành động thành các thao tác trên màn hình của các tác nhân, khung Tác nhân di động xác định 8 thao tác khác nhau. 

  • Khởi chạy ứng dụng (Tên ứng dụng): Khởi chạy ứng dụng được chỉ định từ giao diện máy tính để bàn.
  • Nhấn vào Văn bản (Nhãn văn bản): Tương tác với phần màn hình hiển thị nhãn “Nhãn văn bản”.
  • Tương tác với Icon (Mô tả Icon, Vị trí): Nhắm mục tiêu và nhấn vào vùng biểu tượng được chỉ định, trong đó “Mô tả biểu tượng” nêu chi tiết các thuộc tính như màu sắc và hình dạng của biểu tượng. Chọn “Vị trí” từ các tùy chọn như trên, dưới, trái, phải hoặc giữa, có thể kết hợp cả hai để điều hướng chính xác và giảm sai sót.
  • Nhập văn bản (Input Text): Nhập “Văn bản đầu vào” đã cho vào trường văn bản hiện hoạt.
  • Cuộn lên & xuống: Điều hướng lên hoặc xuống thông qua nội dung của trang hiện tại.
  • Quay lại: Trở lại trang đã xem trước đó.
  • Gần: Điều hướng trở lại màn hình nền trực tiếp từ màn hình hiện tại.
  • Tạm dừng lại: Kết thúc hoạt động sau khi hoàn thành nhiệm vụ.

Tự lập kế hoạch

Mỗi bước của hoạt động được khung thực thi lặp đi lặp lại và trước khi bắt đầu mỗi lần lặp, người dùng được yêu cầu cung cấp hướng dẫn đầu vào và mô hình Tác nhân di động sử dụng hướng dẫn để tạo lời nhắc hệ thống cho toàn bộ quá trình. Hơn nữa, trước khi bắt đầu mỗi lần lặp lại, khung sẽ chụp ảnh màn hình và cung cấp cho tác nhân. Sau đó, nhân viên sẽ quan sát ảnh chụp màn hình, lịch sử hoạt động và lời nhắc của hệ thống để đưa ra bước tiếp theo của hoạt động. 

Suy ngẫm về bản thân

Trong quá trình hoạt động, tác nhân có thể gặp phải các lỗi khiến nó không thể thực hiện thành công lệnh. Để nâng cao tỷ lệ hoàn thành chỉ dẫn, phương pháp tự đánh giá đã được triển khai, kích hoạt trong hai trường hợp cụ thể. Ban đầu, nếu tác nhân thực hiện một hành động thiếu sót hoặc không hợp lệ làm dừng tiến trình, chẳng hạn như khi nó nhận ra ảnh chụp màn hình không thay đổi sau thao tác hoặc hiển thị một trang không chính xác, thì nó sẽ được hướng dẫn xem xét các hành động thay thế hoặc điều chỉnh các tham số của thao tác hiện có. Thứ hai, tác nhân có thể bỏ lỡ một số thành phần của một lệnh phức tạp. Sau khi tác nhân đã thực hiện một loạt hành động dựa trên kế hoạch ban đầu, nó sẽ được nhắc xem lại trình tự hành động, ảnh chụp màn hình mới nhất và chỉ thị của người dùng để đánh giá xem tác vụ đã được hoàn thành hay chưa. Nếu phát hiện thấy sự khác biệt, tác nhân có nhiệm vụ tự động tạo ra các hành động mới để thực hiện chỉ thị.

Mobile-Agent: Thử nghiệm và kết quả

Để đánh giá khả năng của nó một cách toàn diện, khung Mobile-Agent giới thiệu điểm chuẩn Mobile-Eval bao gồm 10 ứng dụng được sử dụng phổ biến và thiết kế ba hướng dẫn cho mỗi ứng dụng. Thao tác đầu tiên rất đơn giản và chỉ bao gồm các thao tác ứng dụng cơ bản trong khi thao tác thứ hai phức tạp hơn một chút so với thao tác đầu tiên vì nó có một số yêu cầu bổ sung. Cuối cùng, thao tác thứ ba là phức tạp nhất vì nó chứa hướng dẫn người dùng trừu tượng mà người dùng không chỉ định rõ ràng ứng dụng nào sẽ sử dụng hoặc thao tác nào cần thực hiện. 

Tiếp theo, để đánh giá hiệu suất từ ​​các góc độ khác nhau, khung Tác nhân di động thiết kế và triển khai 4 số liệu khác nhau. 

  • Su hoặc Thành công: Nếu tác nhân di động hoàn thành các hướng dẫn thì coi như thành công. 
  • Điểm quy trình hoặc PS: Số liệu Điểm quy trình đo lường độ chính xác của từng bước trong quá trình thực hiện hướng dẫn người dùng và được tính bằng cách chia số bước đúng cho tổng số bước. 
  • Hiệu quả tương đối hoặc RE: Điểm hiệu quả tương đối là tỷ lệ hoặc sự so sánh giữa số bước mà con người cần để thực hiện lệnh theo cách thủ công và số bước mà tác nhân cần để thực hiện cùng một lệnh. 
  • Tỷ lệ hoàn thành hoặc CR: Chỉ số tỷ lệ hoàn thành chia số bước do con người thực hiện mà khung hoàn thành thành công với tổng số bước do con người thực hiện để hoàn thành hướng dẫn. Giá trị của CR là 1 khi tác nhân hoàn thành lệnh thành công. 

Các kết quả được thể hiện trong hình dưới đây. 

Ban đầu, đối với ba nhiệm vụ nhất định, Mobile-Agent đạt tỷ lệ hoàn thành lần lượt là 91%, 82% và 82%. Mặc dù không phải tất cả nhiệm vụ đều được thực hiện hoàn hảo nhưng tỷ lệ hoàn thành của từng loại nhiệm vụ đều vượt quá 90%. Hơn nữa, số liệu PS cho thấy Mobile-Agent luôn thể hiện khả năng cao trong việc thực hiện các hành động chính xác cho ba nhiệm vụ, với tỷ lệ thành công khoảng 80%. Ngoài ra, theo số liệu RE, Tác nhân di động thể hiện hiệu suất 80% trong việc thực hiện các hoạt động ở mức tương đương với mức tối ưu của con người. Những kết quả này cùng nhau nhấn mạnh sự thành thạo của Tác nhân di động với tư cách là trợ lý thiết bị di động.

Hình dưới đây minh họa khả năng của Mobile-Agent trong việc nắm bắt các lệnh của người dùng và sắp xếp các hành động của nó một cách độc lập. Ngay cả khi không có chi tiết hoạt động rõ ràng trong hướng dẫn, Tác nhân di động vẫn giải thích một cách khéo léo nhu cầu của người dùng, chuyển chúng thành các nhiệm vụ có thể thực hiện được. Theo sự hiểu biết này, đại lý đã thực hiện các hướng dẫn thông qua quy trình lập kế hoạch có hệ thống.

Kết luận:

Trong bài viết này, chúng ta đã nói về Mobile-Agent, một tác nhân thiết bị tự động đa phương thức ban đầu sử dụng các công nghệ nhận thức trực quan để phát hiện và xác định chính xác cả thành phần hình ảnh và văn bản trong giao diện của ứng dụng di động. Với bối cảnh trực quan này, khung Tác nhân di động tự động phác thảo và chia nhỏ các nhiệm vụ phức tạp thành các hành động có thể quản lý được, điều hướng trơn tru qua các ứng dụng di động từng bước. Khung này nổi bật so với các phương pháp hiện có vì nó không phụ thuộc vào siêu dữ liệu của hệ thống di động hoặc tệp XML của ứng dụng di động, do đó tạo điều kiện linh hoạt hơn trên các hệ điều hành di động khác nhau, tập trung vào xử lý tập trung vào hình ảnh. Chiến lược được sử dụng bởi khung Tác nhân di động loại bỏ nhu cầu điều chỉnh dành riêng cho hệ thống, dẫn đến cải thiện hiệu quả và giảm nhu cầu tính toán.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.