sơ khai Ferret: Tham khảo và tiếp đất ở mọi mức độ chi tiết - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Ferret: Tham khảo và tiếp đất ở mọi mức độ chi tiết

mm

Được phát hành

 on

FERRET: THAM KHẢO VÀ NỀN TẢNG Ở MỌI CHI TIẾT CHI TIẾT

Cho phép hiểu biết không gian trong các mô hình học ngôn ngữ bằng thị giác vẫn là một thách thức nghiên cứu cốt lõi. Sự hiểu biết này củng cố hai khả năng quan trọng: căn cứ và giới thiệu. Việc tham chiếu cho phép mô hình diễn giải chính xác ngữ nghĩa của các vùng cụ thể, trong khi việc căn cứ liên quan đến việc sử dụng các mô tả ngữ nghĩa để bản địa hóa các vùng này.

Các nhà phát triển đã giới thiệu Ferret, Mô hình ngôn ngữ lớn đa phương thức (MLLM), có khả năng hiểu tham chiếu không gian qua bất kỳ mức độ chi tiết hoặc hình dạng nào trong hình ảnh và tạo cơ sở chính xác cho các mô tả từ vựng mở. Ferret sử dụng cách biểu diễn lai mới kết hợp các đặc điểm liên tục và tọa độ rời rạc để biểu diễn các vùng hình ảnh. Bộ lấy mẫu trực quan nhận biết không gian của nó xử lý các hình dạng thưa thớt khác nhau, cho phép nó xử lý các đầu vào vùng đa dạng như hình dạng tự do, hộp giới hạn và điểm.

Cách tiếp cận của Ferret cho phép nó vượt trội trong các nhiệm vụ giới thiệu và nối đất cổ điển, đồng thời vượt qua các MLLM khác trong giao tiếp đa phương thức dựa trên khu vực và yêu cầu bản địa hóa. Bài viết này đi sâu vào kiến ​​trúc và phương pháp luận của Ferret, nêu bật hiệu suất ấn tượng của nó trong các tác vụ ngôn ngữ đa phương thức khác nhau. Hãy khám phá điều này hơn nữa.

Ferret: Hiệu suất vượt trội trong các nhiệm vụ giới thiệu và tiếp đất

Tham chiếu trong mô hình là khả năng cho phép mô hình hiểu chính xác ngữ nghĩa của các vùng cụ thể nhất định trong khi việc căn cứ khiến mô hình cần sử dụng các mô tả ngữ nghĩa nhất định để bản địa hóa các vùng. Mặc dù chúng có thể khác nhau về các nhiệm vụ tương ứng, nhưng cả việc giới thiệu và nền tảng đều có cùng một khái niệm cơ bản: sự liên kết giữa ngữ nghĩa và thông tin không gian. Tuy nhiên, mặc dù có chung một khái niệm, nhưng các mô hình hiện tại vẫn tìm hiểu nền tảng và đề cập riêng lẻ. Mặc dù phương pháp này hoạt động nhưng nó đặt ra trở ngại trong việc đạt được các khả năng giống con người vì con người có thể học hỏi từ một nhiệm vụ và áp dụng những điều đã học được vào các nhiệm vụ khác một cách liền mạch, đồng thời có thể dễ dàng tích hợp các khả năng căn cứ/tham khảo với lý luận và đối thoại hàng ngày. Khung Ferret lấy cảm hứng từ khoảng trống được đề cập ở trên trong các khung MLLM hiện có và nghiên cứu ba câu hỏi chính:

  1. Làm cách nào để thống nhất các khả năng căn cứ và giới thiệu trong khuôn khổ và sự đồng lòng của chúng sẽ mang lại lợi ích cho nhau như thế nào?
  2. Con người sử dụng các loại vùng linh hoạt như hộp, điểm, nét vẽ nguệch ngoạc, hình dạng tự do để tham khảo? Làm thế nào để đại diện cho các khu vực linh hoạt này?
  3. Làm cách nào để tạo nền tảng và giới thiệu từ vựng theo hướng dẫn, mạnh mẽ và cởi mở, điều quan trọng đối với các ứng dụng thực tế và thời gian thực của họ?

Khung Ferret là một mô hình ngôn ngữ lớn đa phương thức được giới thiệu và nền tảng mới nhằm cố gắng nhắm mục tiêu vào những câu hỏi này. Khung Ferret chọn một Mô hình ngôn ngữ lớn đa phương thức làm nền tảng nhờ tầm nhìn toàn cầu và khả năng hiểu ngôn ngữ vượt trội của họ. Hơn nữa, để thống nhất khả năng nối đất và tham chiếu, khung Ferret thể hiện tọa độ của các vùng ở dạng số ngôn ngữ tự nhiên. Tuy nhiên, trong thực tế, sẽ không hiệu quả khi sử dụng tọa độ hộp hoặc thậm chí các điểm đơn lẻ để biểu thị các hình dạng vùng linh hoạt như nét vẽ nguệch ngoạc, nét vẽ hoặc đa giác phức tạp vì những hình dạng này rất quan trọng để nâng cao độ chính xác và tương tác phổ biến hơn giữa người và mô hình. Để giải quyết vấn đề này, khung Ferret sử dụng bộ lấy mẫu trực quan nhận biết không gian để thu thập các vùng trực quan cho các vùng bất kể hình dạng, do đó điều chỉnh được độ thưa thớt khác nhau trong các hình dạng này. Sau đó, khung này kết hợp các tính năng trực quan liên tục với các tọa độ riêng biệt để biểu thị các vùng trực quan trong đầu vào, dẫn đến việc tạo ra biểu diễn vùng kết hợp trong Ferret. 

Khung Ferret triển khai các phương pháp trên để giải quyết đầu vào trộn văn bản dạng tự do với các vùng được tham chiếu và có thể tạo liền mạch tọa độ cho từng đối tượng có thể nối đất bằng cách tạo văn bản để nối đất các đối tượng được đề cập trong đầu ra. Bằng cách đó, Ferret là khung đầu tiên xử lý các vùng đầu vào được hình thành tự do trong Mô hình ngôn ngữ lớn đa phương thức. Hơn nữa, khung Ferret hấp thụ các khả năng từ vựng mở đáng chú ý về bản địa hóa và hiểu biết không gian, cho phép khung đạt được hiệu suất vượt trội khi được đánh giá trên các nhiệm vụ nối đất và tham chiếu thông thường. 

Tiếp theo, khung Ferret tìm kiếm nguồn cảm hứng từ ba khung AI hiện có bao gồm Mô hình ngôn ngữ lớn đa phương thức, MLLM để giới thiệu và tiếp đất cũng như Thống nhất nền tảng và hiểu biết VL. 

Sự ra đời của Mô hình ngôn ngữ lớn bao gồm GPT, DALL-E, PaLM, LLaMA và BLOOM, đã thay đổi cục diện trong nghiên cứu NLP, dẫn đến những tiến bộ đáng kể của các mô hình ngôn ngữ đa phương thức. Các mô hình ngôn ngữ đa phương thức trước đó tập trung chủ yếu vào việc tạo văn bản hình ảnh quy mô lớn với một số ví dụ đáng chú ý là PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 và PaLI-X. Tuy nhiên, do khung Flamingo đã đạt được sự tích hợp hiệu quả của LLM với bộ mã hóa hình ảnh CLIP được đào tạo trước thông qua các khối chú ý chéo cổng dẫn đến khả năng học tập vài lần chụp đa phương thức đáng chú ý. Nghiên cứu hiện tại đang tìm cách sử dụng các mô hình ngôn ngữ lớn được đào tạo trước để điều chỉnh hướng dẫn trực quan với các ví dụ đáng chú ý là miniGPT-4, Rái cá, Hướng dẫnBLIP và hơn thế nữa. Hơn nữa, các mô hình gần đây như Emu và GILL đã cho thấy thành công đáng kể trong việc sử dụng MLLM để tạo và truy xuất hình ảnh. Khung Ferret cũng đề cập đến nghiên cứu trước đó tập trung vào việc thống nhất văn bản và đầu ra hộp giới hạn cho các mô hình Ngôn ngữ Thị giác. 

Ferret: Phương pháp luận và kiến ​​trúc

Đại diện vùng lai

Hình dạng điểm, hình hộp và dạng tự do là ba định dạng phổ biến mà mô hình ngôn ngữ sử dụng khi đề cập đến các vùng cụ thể. Một mặt, định dạng điểm và hộp có thể được biểu diễn chính xác bằng tọa độ, việc ánh xạ các hình dạng dạng tự do là một chút thách thức vì các hình dạng dạng tự do rất linh hoạt. Là hình dạng linh hoạt, có dạng tự do có thể bao gồm nhiều vùng bao gồm mặt nạ, đa giác và nét vẽ nguệch ngoạc. Sử dụng tọa độ để mô tả các hình dạng tự do là một nhiệm vụ phức tạp cản trở khả năng của mô hình trong việc học cách thiết lập mối tương quan giữa các vùng và tọa độ tương ứng. Hơn nữa, việc sử dụng tọa độ cho các hình dạng tự do rất tốn kém và khó hiểu về mặt tính toán. 

Để giải quyết vấn đề này và khái quát hóa trên cả ba định dạng, khung Ferret đề xuất một biểu diễn vùng kết hợp kết hợp các đặc điểm hình ảnh liên tục với tọa độ riêng biệt để đề cập đến một vùng cụ thể. 

Đối với các tính năng trực quan liên tục, đối với một vùng nhất định, khung Ferret trước tiên sẽ xây dựng mặt nạ nhị phân 2D có cùng kích thước với hình ảnh và đánh dấu giá trị 1 trong vùng được nhắm mục tiêu trong khi gán giá trị 0 bên ngoài vùng. Sau đó, mô hình sẽ trích xuất mặt nạ nhị phân cùng với bản đồ đặc trưng hình ảnh được trích xuất, sau đó gửi nó đến bộ lấy mẫu hình ảnh nhận biết không gian. 

Kiến trúc

Kiến trúc của mô hình Ferret bao gồm ba thành phần chính

  1. Một bộ mã hóa hình ảnh để trích xuất các hình ảnh nhúng. 
  2. Mẫu trực quan nhận biết không gian để trích xuất các tính năng liên tục trong khu vực. 
  3. Mô hình ngôn ngữ lớn để mô hình hóa các tính năng văn bản, hình ảnh và vùng cùng nhau. 

Hình ảnh đầu tiên được đưa vào bộ mã hóa hình ảnh được đào tạo trước để trích xuất các phần nhúng hình ảnh. Đối với đầu vào văn bản, trước tiên, khung sử dụng mã thông báo LLM được đào tạo trước để mã hóa chuỗi văn bản, sau đó chiếu các mã thông báo này vào các phần nhúng văn bản. Đối với các vùng được giới thiệu, Ferret gắn thêm một mã thông báo đặc biệt và tọa độ làm phần giữ chỗ cho các đối tượng địa lý liên tục sau tên vùng. Nếu tên của khu vực không xác định hoặc phức tạp để mô tả do bao gồm một số đối tượng thì khung chỉ sử dụng tên khu vực hoặc khu vực. 

Một trong những thách thức lớn đối với các vùng được tham chiếu là hình dạng của chúng có thể khá khác nhau, nghĩa là chúng có thể có các hình dạng khác nhau và không chỉ giới hạn ở các hộp hoặc điểm hình chữ nhật. Các vùng được giới thiệu có hình dạng không đều không thể được xử lý bằng các phương pháp truyền thống như Xử lý dựa trên lưới bao gồm kỹ thuật chú ý bản vá hoặc kỹ thuật tích chập. Để giải quyết vấn đề này, khung Ferret đề xuất Bộ lấy mẫu trực quan nhận biết không gian. Đối với một bản đồ đặc trưng được trích xuất nhất định có mặt nạ vùng nhị phân, trước tiên, mô hình Ferret lấy mẫu ngẫu nhiên N số điểm trong mặt nạ vùng nhị phân. 

Đối với mỗi điểm riêng lẻ, mô hình có được đặc điểm của nó bằng cách thực hiện phép nội suy song tuyến tính. N điểm sau đó được đưa vào một thác các khối với mỗi khối trải qua ba giai đoạn khác nhau: lấy mẫu, thu thập và gộp. Trong giai đoạn Lấy mẫu, một số điểm cố định được lấy mẫu từ N số điểm có sẵn bằng cách sử dụng thuật toán Lấy mẫu điểm xa nhất hoặc FPS để đảm bảo phạm vi bao phủ đầy đủ. Ở bước thứ hai, đối với mỗi điểm mẫu, khung sẽ tìm kiếm k lân cận gần nhất của nó từ nhóm N điểm có sẵn. Đối với mỗi nhóm, mô hình sau đó sẽ kết hợp các đặc điểm của một điểm mẫu với các điểm lân cận của nó. Ở bước cuối cùng, khung Ferret tiến hành gộp tối đa để hợp nhất k tính năng lân cận thành một tính năng để đóng vai trò đại diện cho điểm được lấy mẫu. Bằng cách thực hiện ba bước này, khung Ferret sẽ có ít điểm hơn nhưng có không gian với mật độ cao hơn vì nó không chỉ kết hợp các tính năng của các nước láng giềng địa phương mà còn cả vị trí tương đối của chúng. 

Tạo dữ liệu trực quan được GPT hỗ trợ

Dữ liệu điều chỉnh hướng dẫn đối thoại có tầm quan trọng đặc biệt đối với Đa phương thức Mô hình ngôn ngữ lớn chúng không chỉ giúp chuyển đổi tập dữ liệu hiện có theo mẫu mà còn giúp mô hình hiểu được ý định của con người và tạo ra phản hồi thích hợp. Phần lớn MLLM sử dụng phương pháp nhắc nhở vài cảnh quay để thu được dữ liệu điều chỉnh hướng dẫn trực quan, trong đó mô hình cung cấp mô tả bằng văn bản về các cảnh trong ảnh cùng với các đoạn hội thoại có chú thích của con người dưới dạng minh họa vài cảnh quay. Tuy nhiên, các phương pháp điều chỉnh lệnh hiện tại tập trung chủ yếu vào việc mô tả toàn bộ hình ảnh mà không chỉ định rõ ràng thông tin liên quan đến không gian. Khung Ferret nhấn mạnh vào kiến ​​thức dựa trên khu vực để thu thập dữ liệu điều chỉnh hướng dẫn tham khảo và hướng dẫn mặt đất theo ba bước. 

  1. Ngoài việc sử dụng các chú thích và đối tượng chung, khung này còn cung cấp mô tả cảnh mang tính biểu tượng để mô tả mối quan hệ vật lý giữa chú thích vùng và đối tượng đồng thời cung cấp tọa độ của chúng. 
  2. Đối với các cuộc đối thoại do con người chú thích, khung này sẽ thêm tọa độ sau các đối tượng hoặc vùng có thể nối đất ở đầu vào hoặc đầu ra hoặc cả hai với các cuộc đối thoại tập trung chủ yếu vào các vùng cụ thể giúp thúc đẩy mô hình ngôn ngữ ngầm tuân theo các mẫu tương tự để tạo ra cuộc đối thoại mới. 
  3. Có thể đoạn hội thoại do khung tạo ra có thể không tuân theo các quy tắc và mẫu như được hướng dẫn bởi một vài ví dụ ngắn gọn và lời nhắc của hệ thống. Để giải quyết vấn đề này, khung này lại sử dụng mô hình ngôn ngữ để tinh chỉnh các đoạn hội thoại do mô hình tạo ra ban đầu. 

Khai thác tiêu cực không gian

Nghiên cứu trước đây đã chứng minh rằng các mô hình ngôn ngữ lớn đa phương thức có khả năng gây ảo giác cao khi trả lời các câu hỏi Có hoặc Không. Để đảm bảo mô hình Ferret không gây ảo giác trong các điều kiện tương tự, khung này sử dụng phương pháp Khai thác tiêu cực theo không gian với Bản địa hóa danh mục có điều kiện hình ảnh và Bản địa hóa danh mục có điều kiện ngữ nghĩa. Cả hai phương pháp này đều yêu cầu mô hình bản địa hóa các danh mục đối tượng cụ thể để cho phép mô hình nhận ra sự vắng mặt của một số đối tượng nhất định trong ảnh. 

Ferret: Kết quả và thử nghiệm

Để phân tích hiệu suất của nó, khung Ferret được đánh giá dựa trên các điểm chuẩn giới thiệu và nối đất thông thường, sau đó khung này được đánh giá trong một nhiệm vụ trò chuyện đa phương thức phức tạp hơn và kiểm tra khả năng giới thiệu và nối đất của nó. 

Khả năng hiểu tham chiếu của mô hình được đánh giá bằng mức độ chính xác mà mô hình có thể hiểu ngữ nghĩa của vùng được tham chiếu cho một vùng được tham chiếu trong hình ảnh hoặc câu hỏi. Để đo lường độ chính xác của mô hình, các đối tượng, ngữ nghĩa cơ bản nhất được xem xét đầu tiên vì nó không chỉ cơ bản mà còn dễ xác định. Để bắt chước tính linh hoạt ở cấp độ con người, khung này thay thế vị trí của đối tượng trong hình ảnh bằng hình dạng tự do, hình hộp và điểm. Đối với hình dạng tự do, mô hình tạo ngẫu nhiên các nét bên trong đối tượng Ground Truth để mô phỏng. Đối với hộp, khung Ferret sử dụng hộp giới hạn thực tế cơ bản do thành phần LVIS cung cấp. Cuối cùng, đối với điểm, mô hình lấy mẫu ngẫu nhiên một điểm trong đối tượng sự thật cơ bản cũng gần ranh giới của đối tượng sự thật cơ bản. Kết quả của ba loại giới thiệu được thể hiện trong hình ảnh sau đây. 

Khung Ferret thể hiện hiệu suất vượt trội trong các nhiệm vụ đối thoại tham chiếu, tạo cơ hội cho việc tích hợp với các nhiệm vụ học tập trực quan khác nhau, đặc biệt là những nhiệm vụ có đầu ra nền tảng. Để đánh giá khả năng tiếp đất của nó, khung Ferret trước tiên phải tự đánh giá các nhiệm vụ tiếp đất trực quan bằng một mô hình tổng quát. Sau đó, khung này sẽ đánh giá khả năng của nó đối với các nhiệm vụ tạo phụ đề có căn cứ để đo lường sự liên kết giữa các vùng và các từ. 

Trong các nhiệm vụ nền tảng trực quan, khung này nhằm mục đích đặt các truy vấn ngôn ngữ vào các vùng được căn chỉnh của hình ảnh và như có thể thấy trong hình ảnh sau, khung Ferret thể hiện hiệu suất vượt trội trên tất cả các điểm chuẩn và hiệu suất có thể so sánh với hiệu suất đạt được bởi phương pháp tinh chỉnh chuyên dụng. 

Đối với các nhiệm vụ tạo phụ đề có căn cứ, mô hình cần tạo chú thích, sau đó đưa các cụm danh từ được tạo vào các vùng hình ảnh. Dự đoán cuối cùng do mô hình đưa ra bao gồm ba thành phần: vùng trực quan dưới dạng hộp, chú thích văn bản và căn chỉnh nền tảng giữa các hộp và từ. Các kết quả được thể hiện trong hình ảnh sau đây và như có thể thấy, khung này mang lại hiệu suất tương đương với các phương pháp hiện đại. 

Cuối cùng, trò chuyện đa phương thức là một trong những khả năng được mong muốn nhất trong MLLM và các MLLM hiện tại chủ yếu đánh giá các mô tả chi tiết, cuộc trò chuyện và lý luận phức tạp bằng mô hình ngôn ngữ với tư cách là giám khảo. Tuy nhiên, vì không có tập dữ liệu nào đánh giá trò chuyện đa phương thức với các hành động giới thiệu hoặc căn cứ bắt buộc nên nó để lại một khoảng trống. Để thu hẹp khoảng cách này, khung Ferret bao gồm ba câu hỏi dựa trên khu vực để đánh giá khả năng giới thiệu và nền tảng của nó trong các nhiệm vụ trò chuyện đa phương thức. Các kết quả được thể hiện trong hình ảnh sau đây. 

Cuối cùng, khung Ferret được so sánh trực tiếp với khung GPT hiện đại và kết quả được trình bày bên dưới. 

Kết luận:

Trong bài viết này, chúng ta đã nói về Ferret, một mô hình ngôn ngữ lớn đa phương thức thể hiện khả năng căn cứ và tham chiếu vượt trội. Khung Ferret có thể tham chiếu đến các vùng hình ảnh bất kể hình dạng của nó và có thể thiết lập nền tảng cho văn bản được mô hình dự đoán một cách tự động. Ferret sử dụng bộ lấy mẫu trực quan nhận biết không gian có khả năng xử lý độ thưa thớt khác nhau được hiển thị bằng các hình dạng khác nhau để trích xuất các đặc điểm liên tục của các vùng linh hoạt. Do đó, khung Ferret có thể nhập các đầu vào khu vực đa dạng bao gồm các bộ định dạng dạng tự do, hộp giới hạn và các điểm. 

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.