sơ khai Mini-Gemini: Khai thác tiềm năng của các mô hình ngôn ngữ tầm nhìn đa phương thức - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Mini-Gemini: Khai thác tiềm năng của các mô hình ngôn ngữ thị giác đa phương thức

mm

Được phát hành

 on

Mini-Gemini: Khai thác tiềm năng của các mô hình ngôn ngữ thị giác đa phương thức

Những tiến bộ trong mô hình ngôn ngữ lớn đã thúc đẩy đáng kể sự phát triển của xử lý ngôn ngữ tự nhiênhoặc NLP. Sự ra đời của khung biến áp được chứng minh là một cột mốc quan trọng, tạo điều kiện cho sự phát triển của một làn sóng mô hình ngôn ngữ mới, bao gồm OPT và BERT, thể hiện sự hiểu biết ngôn ngữ sâu sắc. Hơn nữa, sự ra đời của GPT, hay các mô hình Generative Pre-training Transformer, đã giới thiệu một mô hình mới với mô hình tự hồi quy và thiết lập một phương pháp mạnh mẽ để dự đoán và tạo ngôn ngữ. Sự ra đời của các mô hình ngôn ngữ như GPT-4, ChatGPT, Mixtral, LLaMA và các mô hình khác đã thúc đẩy sự phát triển nhanh chóng hơn nữa, với mỗi mô hình đều thể hiện hiệu suất được nâng cao trong các nhiệm vụ liên quan đến xử lý ngôn ngữ phức tạp. Trong số các phương pháp hiện có, điều chỉnh hướng dẫn đã nổi lên như một kỹ thuật quan trọng để tinh chỉnh đầu ra của các mô hình ngôn ngữ lớn được đào tạo trước và việc tích hợp các mô hình này với các công cụ cụ thể cho các tác vụ trực quan đã làm nổi bật khả năng thích ứng của chúng và mở ra cánh cửa cho các ứng dụng trong tương lai. Những điều này vượt xa việc xử lý LLM dựa trên văn bản truyền thống để bao gồm các tương tác đa phương thức.

Hơn nữa, sự hội tụ của các mô hình xử lý ngôn ngữ tự nhiên và thị giác máy tính đã tạo ra VLM, hay Mô hình ngôn ngữ thị giác, kết hợp các mô hình ngôn ngữ và thị giác để đạt được khả năng hiểu và suy luận đa phương thức. Sự tích hợp và ra đời của các mô hình hình ảnh và ngôn ngữ đã đóng một vai trò quan trọng trong việc thúc đẩy các nhiệm vụ đòi hỏi cả xử lý ngôn ngữ và hiểu biết hình ảnh. Sự xuất hiện của các mô hình mang tính cách mạng như CLIP đã tiếp tục thu hẹp khoảng cách giữa nhiệm vụ tầm nhìn và mô hình ngôn ngữ, chứng tỏ tính khả thi và thực tiễn của các ứng dụng đa phương thức. Các khung gần đây hơn như LLaMA và BLIP tận dụng dữ liệu hướng dẫn phù hợp để đưa ra các chiến lược hiệu quả thể hiện khả năng mạnh mẽ của mô hình. Ngoài ra, việc kết hợp các mô hình ngôn ngữ lớn với đầu ra hình ảnh là trọng tâm của nghiên cứu đa phương thức gần đây, với các phương pháp gần đây có thể bỏ qua việc tạo trực tiếp bằng cách sử dụng phương pháp truy xuất hình ảnh để tạo ra đầu ra hình ảnh và văn bản xen kẽ.

Như đã nói, và bất chấp những tiến bộ nhanh chóng trong các mô hình ngôn ngữ thị giác tạo điều kiện thuận lợi cho lý luận cơ bản và đối thoại trực quan, vẫn tồn tại khoảng cách hiệu suất đáng kể giữa các mô hình tiên tiến như GPT-4 và các mô hình ngôn ngữ thị giác. Mini-Gemini là một nỗ lực nhằm thu hẹp khoảng cách tồn tại giữa các mô hình ngôn ngữ tầm nhìn và các mô hình nâng cao hơn bằng cách khai thác tiềm năng của VLM để có hiệu suất tốt hơn từ ba khía cạnh: tạo hướng dẫn VLM, dữ liệu chất lượng cao và mã thông báo hình ảnh có độ phân giải cao. Để nâng cao mã thông báo trực quan, khung Mini-Gemini đề xuất sử dụng bộ mã hóa hình ảnh bổ sung để sàng lọc độ phân giải cao mà không làm tăng số lượng mã thông báo trực quan. Khung Mini-Gemini tiếp tục xây dựng một bộ dữ liệu chất lượng cao nhằm cố gắng thúc đẩy sự hiểu biết chính xác về hình ảnh và tạo ra dựa trên lý luận. Nhìn chung, khung Mini-Gemini cố gắng khai thác tiềm năng của các mô hình ngôn ngữ thị giác và nhằm mục đích trao quyền cho các khung hiện có bằng khả năng suy luận, hiểu biết và sáng tạo hình ảnh cùng một lúc. Bài viết này nhằm mục đích trình bày sâu về khung Mini-Gemini và chúng tôi khám phá cơ chế, phương pháp, kiến ​​trúc của khung cùng với sự so sánh của nó với các khung hiện đại. Vậy hãy bắt đầu. 

Mini-Gemini: Tăng tốc VLM đa phương thức

Qua nhiều năm, các mô hình ngôn ngữ lớn đã phát triển và giờ đây chúng tự hào về khả năng đa phương thức đáng chú ý và đang trở thành một phần thiết yếu của các mô hình ngôn ngữ thị giác hiện tại. Tuy nhiên, tồn tại một khoảng cách giữa hiệu suất đa phương thức của mô hình ngôn ngữ lớn và mô hình ngôn ngữ thị giác với nghiên cứu gần đây đang tìm cách kết hợp tầm nhìn với mô hình ngôn ngữ lớn bằng hình ảnh và video. Đối với bản thân các nhiệm vụ về thị giác, độ phân giải hình ảnh là một yếu tố quan trọng để phân biệt rõ ràng môi trường xung quanh với ảo giác thị giác tối thiểu. Để thu hẹp khoảng cách, các nhà nghiên cứu đang phát triển các mô hình để cải thiện sự hiểu biết trực quan trong mô hình ngôn ngữ tầm nhìnvà hai trong số các cách tiếp cận phổ biến nhất là: tăng độ phân giải và tăng số lượng mã thông báo trực quan. Mặc dù việc tăng số lượng mã thông báo trực quan với hình ảnh có độ phân giải cao hơn giúp nâng cao hiểu biết trực quan, nhưng việc tăng cường này thường đi kèm với yêu cầu tính toán tăng lên và chi phí liên quan, đặc biệt là khi xử lý nhiều hình ảnh. Hơn nữa, khả năng của các mô hình hiện có, chất lượng dữ liệu hiện có và khả năng ứng dụng vẫn chưa đủ cho quá trình phát triển nhanh chóng, khiến các nhà nghiên cứu đặt ra câu hỏi, “cách đẩy nhanh quá trình phát triển các mô hình ngôn ngữ tầm nhìn với chi phí chấp nhận được"?

Khung Mini-Gemini là một nỗ lực nhằm trả lời câu hỏi khi nó cố gắng khám phá tiềm năng của các mô hình ngôn ngữ thị giác từ ba khía cạnh: các ứng dụng mở rộng hoặc tạo ứng dụng được hướng dẫn bằng VLM, dữ liệu chất lượng cao và mã thông báo hình ảnh có độ phân giải cao. Đầu tiên, khung Mini-Gemini triển khai kiến ​​trúc ConvNet để tạo ra các ứng cử viên có độ phân giải cao hơn một cách hiệu quả, nâng cao chi tiết hình ảnh trong khi vẫn duy trì số lượng mã thông báo trực quan cho mô hình ngôn ngữ lớn. Khung Mini-Gemini hợp nhất các bộ dữ liệu chất lượng cao có sẵn công khai nhằm nỗ lực nâng cao chất lượng dữ liệu và tích hợp các cải tiến này với các mô hình ngôn ngữ lớn và tổng quát hiện đại nhằm nỗ lực nâng cao hiệu suất của VLM và cải thiện trải nghiệm của người dùng. Chiến lược nhiều mặt được triển khai bởi khung Mini-Gemini cho phép nó khám phá các khả năng tiềm ẩn của các mô hình ngôn ngữ tầm nhìn và đạt được những tiến bộ đáng kể với những hạn chế về nguồn lực rõ ràng. 

Nói chung, khung Mini-Gemini sử dụng mô hình bất kỳ cho bất kỳ vì nó có khả năng xử lý cả văn bản và hình ảnh làm đầu vào và đầu ra. Đặc biệt, khung Mini-Gemini giới thiệu một quy trình hiệu quả để nâng cao mã thông báo trực quan cho hình ảnh đầu vào và có hệ thống mã hóa kép bao gồm các bộ mã hóa kép: bộ mã hóa đầu tiên dành cho hình ảnh có độ phân giải cao, trong khi bộ mã hóa thứ hai dành cho hình ảnh có độ phân giải thấp. nhúng trực quan chất lượng. Trong quá trình suy luận, bộ mã hóa hoạt động theo cơ chế chú ý, trong đó bộ mã hóa có độ phân giải thấp tạo ra các truy vấn trực quan, trong khi bộ mã hóa có độ phân giải cao cung cấp khóa và giá trị để tham khảo. Để nâng cao chất lượng dữ liệu, khung Mini-Gemini thu thập và tạo ra nhiều dữ liệu hơn dựa trên các tài nguyên công cộng, bao gồm hướng dẫn theo định hướng nhiệm vụ, dữ liệu liên quan đến thế hệ và phản hồi có độ phân giải cao, với số lượng tăng lên và chất lượng được nâng cao sẽ cải thiện hiệu suất tổng thể và khả năng của mô hình. Hơn nữa, khung Mini-Gemini hỗ trợ tạo văn bản và hình ảnh đồng thời nhờ sự tích hợp mô hình ngôn ngữ tầm nhìn với các mô hình tổng quát tiên tiến. 

Mini-Gemini: Phương pháp luận và kiến ​​trúc

Về cốt lõi, khung Mini-Gemini có khái niệm đơn giản và bao gồm ba thành phần. 

  1. Khung này sử dụng bộ mã hóa tầm nhìn kép để cung cấp các phần nhúng hình ảnh có độ phân giải thấp và các ứng cử viên có độ phân giải cao. 
  2. Khung này đề xuất triển khai khai thác thông tin bản vá để tiến hành khai thác ở cấp độ bản vá giữa các truy vấn trực quan có độ phân giải thấp và các vùng có độ phân giải cao. 
  3. Khung Mini-Gemini sử dụng mô hình ngôn ngữ lớn để kết hợp văn bản với hình ảnh cho cả việc tạo và hiểu cùng một lúc. 

Bộ mã hóa tầm nhìn kép

Khung Mini-Gemini có thể xử lý cả đầu vào văn bản và hình ảnh, với tùy chọn xử lý chúng riêng lẻ hoặc kết hợp. Như được minh họa trong hình ảnh sau đây, khung Mini-Gemini bắt đầu quá trình bằng cách sử dụng phép nội suy song tuyến tính để tạo ra hình ảnh có độ phân giải thấp từ hình ảnh có độ phân giải cao tương ứng. 

Sau đó, khung này xử lý những hình ảnh này và mã hóa chúng thành một hình ảnh đa lưới được nhúng vào hai luồng hình ảnh song song. Cụ thể hơn, khung Mini-Gemini duy trì quy trình truyền thống cho các luồng có độ phân giải thấp và sử dụng Bộ biến đổi hình ảnh đã được huấn luyện trước CLIP để mã hóa các phần nhúng trực quan, tạo điều kiện cho mô hình duy trì mối quan hệ tầm xa giữa các bản vá hình ảnh cho các tương tác tiếp theo bằng ngôn ngữ lớn các mô hình. Đối với các luồng có độ phân giải cao, khung Mini-Gemini sử dụng bộ mã hóa dựa trên CNN hoặc Convolution Neural Networks để xử lý hình ảnh có độ phân giải cao thích ứng và hiệu quả. 

Khai thác thông tin bản vá

Với bộ mã hóa tầm nhìn kép tạo ra các tính năng nhúng LR và nhân sự, khung Mini-Gemini đề xuất triển khai khai thác thông tin bản vá nhằm mục đích mở rộng tiềm năng của các mô hình ngôn ngữ tầm nhìn bằng mã thông báo hình ảnh nâng cao. Để duy trì số lượng mã thông báo trực quan nhằm mang lại hiệu quả trong các mô hình ngôn ngữ lớn, khung Mini-Gemini lấy các phần nhúng trực quan có độ phân giải thấp làm truy vấn và nhằm mục đích truy xuất các tín hiệu trực quan có liên quan từ các ứng viên thuộc tính năng nhân sự, với khung lấy Bản đồ tính năng nhân sự là chìa khóa và giá trị.

Như được minh họa trong hình ảnh trên, công thức gói gọn quá trình tinh chỉnh và tổng hợp các tín hiệu thị giác, dẫn đến việc tạo ra các mã thông báo trực quan nâng cao để xử lý mô hình ngôn ngữ lớn tiếp theo. Quy trình này đảm bảo rằng khung có thể giới hạn việc khai thác cho từng truy vấn ở vùng phụ tương ứng của nó trong bản đồ tính năng HR với số lượng tính năng theo pixel, giúp nâng cao hiệu quả. Nhờ thiết kế này, khung Mini-Gemini có thể trích xuất các chi tiết tính năng nhân sự mà không cần tăng số lượng mã thông báo trực quan và duy trì sự cân bằng giữa tính khả thi tính toán và mức độ chi tiết phong phú. 

Tạo văn bản và hình ảnh

Khung Mini-Gemini kết hợp các mã thông báo trực quan và mã thông báo văn bản đầu vào làm đầu vào cho các mô hình ngôn ngữ lớn để tạo tự động hồi quy. Không giống như các mô hình ngôn ngữ thị giác truyền thống, khung Mini-Gemini hỗ trợ việc tạo văn bản cũng như văn bản-hình ảnh làm đầu vào và đầu ra, tức là bất kỳ suy luận nào và đó là kết quả của khả năng lý luận và hiểu văn bản hình ảnh vượt trội này, Mini-Gemini có thể tạo ra hình ảnh chất lượng cao. Không giống như các công trình gần đây tập trung vào khoảng cách miền giữa phần nhúng văn bản của mô hình thế hệ và mô hình ngôn ngữ lớn, khung Mini-Gemini cố gắng tối ưu hóa khoảng cách trong miền lời nhắc ngôn ngữ bằng cách dịch hướng dẫn người dùng thành lời nhắc chất lượng cao tạo ra hình ảnh phù hợp với ngữ cảnh trong các mô hình khuếch tán tiềm ẩn. Hơn nữa, để hiểu rõ hơn về tinh chỉnh lệnh và căn chỉnh phương thức chéo, khung Mini-Gemini thu thập các mẫu từ các bộ dữ liệu chất lượng cao có sẵn công khai và sử dụng khung turbo GPT-4 để xây dựng thêm tập dữ liệu theo lệnh 13K nhằm hỗ trợ tạo hình ảnh. 

Mini-Gemini: Thử nghiệm và kết quả

Để đánh giá hiệu suất của nó, khung Mini-Gemini được khởi tạo bằng khung ConvNext-L được đào tạo trước cho bộ mã hóa tầm nhìn nhân sự và với CLIP được đào tạo trước Máy biến áp tầm nhìn cho bộ mã hóa tầm nhìn LR. Để đảm bảo hiệu quả đào tạo, khung Mini-Gemini giữ cố định hai bộ mã hóa thị giác và tối ưu hóa máy chiếu khai thác thông tin bản vá trong tất cả các giai đoạn và tối ưu hóa mô hình ngôn ngữ lớn trong chính giai đoạn điều chỉnh hướng dẫn. 

Bảng sau đây so sánh hiệu suất của khung Mini-Gemini với các mô hình hiện đại trên các cài đặt khác nhau và cũng xem xét các mô hình riêng tư. Như có thể thấy, Mini-Gemini vượt trội hơn các khung hiện có trên nhiều loại LLM một cách nhất quán ở độ phân giải bình thường và thể hiện hiệu suất vượt trội khi được định cấu hình với Gemma-2B trong danh mục mô hình hiệu quả. Hơn nữa, khi sử dụng các mô hình ngôn ngữ lớn hơn, khả năng mở rộng của khung Mini-Gemini là điều hiển nhiên. 

Để đánh giá hiệu suất của nó trên mã thông báo hình ảnh mở rộng và độ phân giải cao, các thử nghiệm được thực hiện với kích thước đầu vào là 672 đối với bộ mã hóa hình ảnh LR và 1536 đối với bộ mã hóa hình ảnh. Như đã đề cập trước đó, mục đích chính của bộ mã hóa hình ảnh nhân sự là cung cấp thông tin ứng viên có độ phân giải cao. Như có thể thấy, khung Mini-Gemini mang lại hiệu suất vượt trội khi so sánh với các khung công nghệ hiện đại. 

Hơn nữa, để đánh giá khả năng hiểu trực quan của khung Mini-Gemini trong môi trường thực tế, các nhà phát triển áp dụng mô hình này cho nhiều nhiệm vụ lý luận và hiểu biết khác nhau như minh họa trong hình ảnh sau đây. Như có thể thấy, khung Mini-Gemini có thể giải quyết một loạt các nhiệm vụ phức tạp nhờ triển khai khai thác thông tin bản vá và dữ liệu chất lượng cao. Nhưng điều ấn tượng hơn là thực tế là khung Mini-Gemini thể hiện sự bổ sung sắc sảo đến từng chi tiết vượt xa khả năng nhận dạng đơn thuần và mô tả các yếu tố phức tạp một cách phức tạp. 

Hình dưới đây cung cấp đánh giá toàn diện về khả năng sáng tạo của khung Mini-Gemini. 

Khi so sánh với các mô hình gần đây như ChatIllusion và AnyGPT, khung Mini-Gemini thể hiện khả năng hiểu đa phương thức mạnh mẽ hơn, cho phép nó tạo ra văn bản thành hình ảnh chú thích phù hợp với hướng dẫn nhập tốt hơn và dẫn đến câu trả lời từ hình ảnh đến văn bản có độ tương đồng về khái niệm mạnh hơn. Điều ấn tượng hơn là thực tế là khung Mini-Gemini thể hiện khả năng vượt trội trong việc tạo nội dung chất lượng cao bằng cách sử dụng hướng dẫn đa mô hình của con người chỉ với dữ liệu đào tạo văn bản, một khả năng minh họa kỹ năng diễn giải ngữ nghĩa mạnh mẽ và căn chỉnh văn bản hình ảnh của Mini-Gemini. 

Kết luận:

Trong bài viết này, chúng ta đã nói về Mini-Gemini, một khuôn khổ mạnh mẽ và được sắp xếp hợp lý cho các mô hình ngôn ngữ tầm nhìn đa phương thức. Mục đích chính của khung Mini-Gemini là khai thác các khả năng tiềm ẩn của các mô hình ngôn ngữ thị giác bằng cách sử dụng dữ liệu chất lượng cao, thiết kế chiến lược của khung và phạm vi chức năng mở rộng. Mini-Gemini là một nỗ lực nhằm thu hẹp khoảng cách tồn tại giữa các mô hình ngôn ngữ tầm nhìn và các mô hình nâng cao hơn bằng cách khai thác tiềm năng của VLM để có hiệu suất tốt hơn từ ba khía cạnh: tạo hướng dẫn VLM, dữ liệu chất lượng cao và mã thông báo hình ảnh có độ phân giải cao. Để nâng cao mã thông báo trực quan, khung Mini-Gemini đề xuất sử dụng bộ mã hóa hình ảnh bổ sung để sàng lọc độ phân giải cao mà không làm tăng số lượng mã thông báo trực quan. Khung Mini-Gemini tiếp tục xây dựng một bộ dữ liệu chất lượng cao nhằm cố gắng thúc đẩy sự hiểu biết chính xác về hình ảnh và tạo ra dựa trên lý luận. Nhìn chung, khung Mini-Gemini cố gắng khai thác tiềm năng của các mô hình ngôn ngữ thị giác và nhằm mục đích trao quyền cho các khung hiện có bằng khả năng suy luận, hiểu biết và sáng tạo hình ảnh cùng một lúc.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.