Trí tuệ nhân tạo

MINT-1T: Tăng quy mô dữ liệu đa phương tiện mã nguồn mở lên 10 lần

Đã xuất bản 29 tháng 7, 2024

Đã cập nhật 21 tháng 5, 2026

Kunal Kejriwal

MINT-1T: Scaling Open-Source Multimodal Data by 10x

Việc đào tạo các mô hình đa phương tiện lớn (LMMs) đòi hỏi các tập dữ liệu lớn với các chuỗi hình ảnh và văn bản xen kẽ. Mặc dù các mô hình LMM mã nguồn mở đã phát triển nhanh chóng, nhưng vẫn còn thiếu các tập dữ liệu đa phương tiện xen kẽ ở quy mô lớn và mã nguồn mở. Sự quan trọng của các tập dữ liệu này không thể bị đánh giá thấp, vì chúng tạo thành nền tảng cho việc tạo ra các hệ thống AI tiên tiến có khả năng hiểu và tạo ra nội dung trên các phương tiện khác nhau. Nếu không có đủ nguồn cung cấp các tập dữ liệu toàn diện và xen kẽ, tiềm năng phát triển các mô hình LMM tinh vi và mạnh mẽ hơn sẽ bị hạn chế đáng kể. Các tập dữ liệu này cho phép các mô hình học hỏi từ nhiều nguồn đầu vào đa dạng, khiến chúng trở nên linh hoạt và hiệu quả hơn trong nhiều ứng dụng. Hơn nữa, sự khan hiếm các tập dữ liệu như vậy đặt ra thách thức cho cộng đồng mã nguồn mở, những người phụ thuộc vào các tài nguyên được chia sẻ để thúc đẩy đổi mới và hợp tác.

Các mô hình LMM mã nguồn mở đã đạt được những tiến bộ đáng kể trong những năm gần đây, nhưng sự phát triển của chúng bị hạn chế bởi sự sẵn có hạn chế của các tập dữ liệu đa phương tiện xen kẽ lớn. Để vượt qua chướng ngại vật này, cần có những nỗ lực chung để thu thập, chú thích và phát hành các tập dữ liệu toàn diện hơn có thể hỗ trợ sự phát triển và tinh chỉnh liên tục của các mô hình đa phương tiện. Ngoài ra, việc tạo ra và phổ biến các tập dữ liệu này liên quan đến việc vượt qua nhiều chướng ngại vật kỹ thuật và hậu cần. Việc thu thập dữ liệu phải được thực hiện rộng rãi và đại diện cho các ngữ cảnh đa dạng mà các mô hình LMM sẽ được triển khai. Việc chú thích đòi hỏi phải xem xét cẩn thận để đảm bảo rằng các chuỗi hình ảnh và văn bản xen kẽ được sắp xếp theo cách mà tăng cường khả năng học hỏi của mô hình. Hơn nữa, việc đảm bảo các tập dữ liệu là mã nguồn mở đòi hỏi phải giải quyết các vấn đề pháp lý và đạo đức liên quan đến quyền riêng tư và quyền sử dụng dữ liệu. Việc mở rộng sự sẵn có của các tập dữ liệu đa phương tiện xen kẽ lớn và chất lượng cao là điều cần thiết cho tương lai của nghiên cứu và phát triển AI. Bằng cách giải quyết sự khan hiếm hiện tại, cộng đồng AI có thể thúc đẩy sự đổi mới và hợp tác nhiều hơn, dẫn đến việc tạo ra các mô hình LMM mạnh mẽ và linh hoạt hơn có khả năng giải quyết các vấn đề thực tế phức tạp.

Dựa trên quan điểm đó, MINT-1T là tập dữ liệu đa phương tiện xen kẽ mã nguồn mở lớn nhất và đa dạng nhất cho đến nay. MINT-1T: Một tập dữ liệu có quy mô lớn hơn 10 lần, bao gồm một nghìn tỷ token văn bản và 3,4 tỷ hình ảnh so với các tập dữ liệu mã nguồn mở hiện có. Tập dữ liệu MINT-1T cũng giới thiệu các nguồn chưa từng được sử dụng trước đây như tệp PDF và bài báo ArXiv. Vì các tập dữ liệu đa phương tiện xen kẽ không thể mở rộng dễ dàng, nên việc tập dữ liệu MINT-1T chia sẻ quá trình thu thập dữ liệu là rất quan trọng để người khác cũng có thể thực hiện các thí nghiệm trên các biến thể giàu thông tin như vậy. Tập dữ liệu MINT-1T chứng minh rằng phương pháp của nó; các mô hình LM được đào tạo trên MINT-1T có khả năng cạnh tranh (mặc dù không hoàn toàn) với các mô hình OBELICS hiện có trước đây.

MINT-1T: Một Tập Dữ Liệu Đa Phương Tiện Với Một Nghìn Tỷ Token

Các tập dữ liệu mã nguồn mở lớn đã đóng vai trò quan trọng trong cộng đồng nghiên cứu trong việc khám phá kỹ thuật dữ liệu và đào tạo các mô hình mã nguồn mở minh bạch. Trong lĩnh vực văn bản, các công việc ban đầu như C4 và The Pile đã đóng vai trò quan trọng trong việc cho phép cộng đồng đào tạo các mô hình ngôn ngữ lớn mã nguồn mở đầu tiên như GPT-J, GPT-Neo và các mô hình khác. Những nỗ lực cơ bản này cũng mở đường cho các cải tiến sau này trong các phương pháp lọc dữ liệu và mở rộng quy mô. Tương tự, trong không gian hình ảnh-văn bản, các tập dữ liệu mã nguồn mở lớn đã thúc đẩy sự đổi mới trong các phương pháp thu thập dữ liệu tốt hơn, chẳng hạn như mạng lọc dữ liệu và T-MARS. Có một sự thay đổi rõ ràng từ các phòng thí nghiệm tiên phong sang đào tạo các mô hình đa phương tiện lớn (LMMs) đòi hỏi các tập dữ liệu đa phương tiện xen kẽ lớn và mã nguồn mở bao gồm các chuỗi hình ảnh và văn bản tự do. Khi khả năng của các mô hình tiên phong phát triển nhanh chóng, một khoảng cách đáng kể đang xuất hiện trong dữ liệu đào tạo đa phương tiện giữa các mô hình mã nguồn mở và đóng. Các tập dữ liệu đa phương tiện xen kẽ mã nguồn mở hiện tại nhỏ hơn và ít đa dạng hơn so với các đối tác chỉ có văn bản, chủ yếu được lấy từ các tài liệu HTML, điều này hạn chế phạm vi và sự đa dạng của dữ liệu. Giới hạn này cản trở sự phát triển của các mô hình LMM mã nguồn mở mạnh mẽ và tạo ra sự chênh lệch về khả năng giữa các mô hình mã nguồn mở và đóng.

Để giải quyết khoảng cách này, MINT-1T được tạo ra như là tập dữ liệu đa phương tiện xen kẽ mã nguồn mở lớn nhất và đa dạng nhất cho đến nay. MINT-1T chứa tổng cộng một nghìn tỷ token văn bản và ba tỷ hình ảnh, được lấy từ các nguồn đa dạng như HTML, PDF và ArXiv. Trước MINT-1T, tập dữ liệu mã nguồn mở lớn nhất trong lĩnh vực này là OBELICS, bao gồm 115 tỷ token văn bản và 353 triệu hình ảnh, tất cả đều được lấy từ HTML.

Các đóng góp của MINT-1T bao gồm:

Kỹ Thuật Dữ Liệu: Việc mở rộng quy mô dữ liệu đa phương tiện xen kẽ này đặt ra nhiều thách thức về kỹ thuật hơn là xây dựng các tập dữ liệu chỉ có văn bản hoặc các cặp hình ảnh-văn bản. Việc xử lý các kích thước tài liệu lớn hơn và bảo tồn thứ tự ban đầu của hình ảnh và văn bản là rất quan trọng.
Đa Dạng: MINT-1T là tập dữ liệu đầu tiên trong không gian đa phương tiện xen kẽ thu thập các tài liệu đa phương tiện chất lượng cao ở quy mô lớn từ các nguồn như CommonCrawl PDF và ArXiv.
Thí Nghiệm Mô Hình: Các thí nghiệm cho thấy rằng các mô hình LMM được đào tạo trên MINT-1T không chỉ匹 với mà còn có thể vượt qua hiệu suất của các mô hình được đào tạo trên tập dữ liệu mã nguồn mở tốt nhất hiện có, OBELICS, trong khi cung cấp sự tăng quy mô 10 lần.

MINT-1T: Xây Dựng Tập Dữ Liệu

MINT-1T thu thập một tập dữ liệu mã nguồn mở lớn sử dụng các nguồn đa dạng hơn của các tài liệu xen kẽ, chẳng hạn như tệp PDF và bài báo ArXiv. Phần này mô tả các phương pháp của MINT-1T để thu thập tài liệu đa phương tiện, lọc nội dung chất lượng thấp, khử trùng lặp dữ liệu và loại bỏ nội dung không an toàn hoặc không mong muốn. Tập dữ liệu cuối cùng bao gồm 922 tỷ token HTML, 106 tỷ token PDF và 9 tỷ token ArXiv.

Thu Thập Số Lượng Lớn Các Tài Liệu Đa Phương Tiện

Quy Trình HTML

MINT-1T theo dõi phương pháp của OBELICS để trích xuất các tài liệu đa phương tiện xen kẽ từ các tệp WARC của CommonCrawl bằng cách phân tích cây DOM của từng mục WARC. Trong khi OBELICS chỉ xử lý các tài liệu từ các bản dump của CommonCrawl từ tháng 2 năm 2020 đến tháng 2 năm 2023, MINT-1T đã mở rộng nhóm tài liệu để bao gồm các tài liệu HTML từ tháng 5 năm 2017 đến tháng 4 năm 2024 (với các bản dump đầy đủ từ tháng 10 năm 2018 đến tháng 4 năm 2024 và các bản dump một phần từ các năm trước). Tương tự như OBELICS, MINT-1T lọc ra các tài liệu không chứa hình ảnh, nhiều hơn 30 hình ảnh hoặc bất kỳ hình ảnh nào có URL chứa các chuỗi con không phù hợp như logo, ảnh đại diện, khiêu dâm và xxx.

Quy Trình PDF

MINT-1T thu thập các tài liệu PDF từ các tệp WAT của CommonCrawl từ các bản dump từ tháng 2 năm 2023 đến tháng 4 năm 2024. Ban đầu, tất cả các liên kết PDF được trích xuất từ các bản dump này. MINT-1T sau đó cố gắng tải xuống và đọc các tệp PDF bằng PyMuPDF, loại bỏ các tệp PDF quá lớn (có thể chứa hình ảnh lớn) và những tệp quá dài (hơn 50 trang). Các trang không chứa văn bản được loại bỏ và thứ tự đọc được thiết lập cho các trang còn lại. Thứ tự đọc được xác định bằng cách tìm hộp giới hạn của tất cả các khối văn bản trên một trang, nhóm các khối dựa trên cột và sắp xếp chúng từ trái trên xuống phải dưới.

Quy Trình ArXiv

MINT-1T xây dựng các tài liệu xen kẽ ArXiv từ mã nguồn LaTeX bằng cách sử dụng TexSoup để tìm các thẻ hình và xen kẽ hình ảnh với văn bản của bài báo. Đối với các bài báo nhiều tệp, MINT-1T xác định tệp chính và thay thế các thẻ nhập bằng nội dung của các tệp đó. Mã LaTeX được làm sạch bằng cách loại bỏ các lệnh nhập, thư viện, bảng và thẻ trích dẫn. Vì ArXiv đã là một nguồn dữ liệu được kiểm duyệt cao, nên không thực hiện bất kỳ lọc hoặc khử trùng lặp nào thêm.

Lọc Chất Lượng Văn Bản

MINT-1T tránh sử dụng các phương pháp lọc dựa trên mô hình để lọc văn bản, tuân theo các phương pháp được thiết lập bởi RefinedWeb, Dolma và FineWeb. Ban đầu, các tài liệu không phải tiếng Anh được loại bỏ bằng cách sử dụng mô hình nhận dạng ngôn ngữ Fasttext (với ngưỡng tin cậy 0,65). Các tài liệu có URL chứa các chuỗi con không an toàn cũng được loại bỏ để loại bỏ nội dung khiêu dâm và không mong muốn. Các phương pháp lọc văn bản từ RefinedWeb được áp dụng, cụ thể là loại bỏ các tài liệu có n-gram trùng lặp quá mức hoặc được xác định là chất lượng thấp bằng các quy tắc MassiveText.

Lọc Hình Ảnh

Sau khi thu thập các tệp PDF và tài liệu HTML, MINT-1T cố gắng tải xuống tất cả các URL hình ảnh trong tập dữ liệu HTML, loại bỏ các liên kết không thể tải xuống và loại bỏ các tài liệu không có liên kết hình ảnh hợp lệ. Các hình ảnh nhỏ hơn 150 pixel được loại bỏ để tránh các hình ảnh nhiễu như biểu trưng và biểu tượng, và các hình ảnh lớn hơn 20.000 pixel cũng được loại bỏ vì chúng thường tương ứng với các hình ảnh không liên quan. Đối với các tài liệu HTML, các hình ảnh có tỷ lệ khung hình lớn hơn 2 được loại bỏ để lọc ra các hình ảnh chất lượng thấp như biểu ngữ quảng cáo. Đối với các tệp PDF, ngưỡng được điều chỉnh thành 3 để bảo tồn các hình ảnh và bảng khoa học.

Hình ảnh trên thể hiện cách MINT-1T độc đáo bao gồm dữ liệu từ các tệp PDF và bài báo ArXiv ngoài các nguồn HTML.

Lọc An Toàn

Lọc Hình Ảnh Không An Toàn: MINT-1T áp dụng bộ lọc hình ảnh không an toàn cho tất cả các hình ảnh trong tập dữ liệu. Nếu một tài liệu chứa một hình ảnh không an toàn, toàn bộ tài liệu sẽ bị loại bỏ.
Loại Bỏ Thông Tin Cá Nhân: Để giảm thiểu rủi ro về泄露 thông tin cá nhân, các địa chỉ email và địa chỉ IP trong dữ liệu văn bản được ẩn danh. Các email được thay thế bằng các mẫu như “[email protected]” và các địa chỉ IP được thay thế bằng các địa chỉ IP không hoạt động được tạo tự động.

Khử Trùng Lặp

MINT-1T thực hiện khử trùng lặp đoạn văn và tài liệu trong mỗi bản dump của CommonCrawl và khử trùng lặp hình ảnh để loại bỏ các hình ảnh không cung cấp thông tin như biểu trưng và biểu tượng. Tất cả các bước khử trùng lặp được thực hiện riêng biệt cho từng nguồn dữ liệu.

Khử Trùng Lặp Đoạn Văn và Tài Liệu

Theo phương pháp của Dolma, MINT-1T sử dụng bộ lọc Bloom để khử trùng lặp văn bản hiệu quả, đặt tỷ lệ dương tính giả ở mức 0,01 và khử trùng lặp các đoạn văn 13-gram (được chỉ định bởi các dấu phân cách dòng đôi) từ mỗi tài liệu. Nếu hơn 80% các đoạn văn của một tài liệu là trùng lặp, toàn bộ tài liệu sẽ bị loại bỏ.

Loại Bỏ Văn Bản Mẫu Của Trang Web

Sau khi khử trùng lặp đoạn văn, MINT-1T loại bỏ các câu văn bản mẫu ngắn trong các tài liệu HTML, chẳng hạn như “Bỏ qua nội dung” hoặc “Lưu trữ blog”. Điều này được thực hiện bằng cách chạy khử trùng lặp đoạn văn chính xác trên 2% của mỗi bản dump của CommonCrawl, theo các phương pháp của CCNet, đảm bảo chủ yếu loại bỏ văn bản mẫu.

Hình ảnh trên minh họa quá trình lọc cho MINT-1T và cho thấy cách các token được loại bỏ trong toàn bộ quy trình đường ống dữ liệu cho HTML, PDF và bài báo ArXiv.

Khử Trùng Lặp Hình Ảnh

Trong mỗi bản dump của CommonCrawl, MINT-1T loại bỏ các hình ảnh xuất hiện thường xuyên dựa trên các băm SHA256. Thay vì khử trùng lặp nghiêm ngặt, chỉ các hình ảnh xuất hiện hơn 10 lần trong một bản dump mới bị loại bỏ, theo các phương pháp của Multimodal-C4. Tương tự như OBELICS, các hình ảnh lặp lại trong một tài liệu được loại bỏ, chỉ giữ lại sự xuất hiện đầu tiên.

Cơ Sở Hạ Tầng

Trong suốt quá trình xử lý dữ liệu, MINT-1T đã có quyền truy cập vào trung bình 2.350 lõi CPU từ hỗn hợp các nút 190 bộ xử lý và 90 bộ xử lý. Tổng cộng, khoảng 4,2 triệu giờ CPU đã được sử dụng để xây dựng tập dữ liệu này.

So Sánh Thành Phần Tài Liệu Trong MINT-1T Với OBELICS

Khi đánh giá thành phần của các tập dữ liệu xen kẽ, hai đặc điểm chính được xem xét: phân phối token văn bản trên mỗi tài liệu và số hình ảnh trên mỗi tài liệu. Đối với phân tích này, 50.000 tài liệu được chọn ngẫu nhiên từ cả OBELICS và mỗi nguồn dữ liệu trong MINT-1T. Bộ phân tích cú pháp của GPT-2 được sử dụng để tính số token văn bản. Các giá trị ngoại lệ được loại bỏ bằng cách loại bỏ các tài liệu nằm ngoài phạm vi 1,5 khoảng bốn phân vị cho số token văn bản và hình ảnh. Như được hiển thị trong hình ảnh sau, tập con HTML của MINT-1T phù hợp chặt chẽ với phân phối token trong OBELICS. Tuy nhiên, các tài liệu được lấy từ các tệp PDF và ArXiv có xu hướng dài hơn so với các tài liệu HTML về trung bình, nhấn mạnh lợi ích của việc lấy dữ liệu từ các nguồn đa dạng. Hình 5 kiểm tra mật độ hình ảnh trên tất cả các tài liệu, tiết lộ rằng các tệp PDF và ArXiv chứa nhiều hình ảnh hơn so với các tài liệu HTML, với các mẫu ArXiv là những tài liệu dày đặc hình ảnh nhất.

Làm Thế Nào Các Nguồn Dữ Liệu Khác Nhau Cải Thiện Sự Đa Dạng Của Tài Liệu?

Một động lực quan trọng để mở rộng nhóm tài liệu đa phương tiện ngoài các tài liệu HTML là cải thiện phạm vi miền. Để định lượng sự đa dạng và độ sâu của phạm vi này, một mô hình LDA được đào tạo trên 100.000 tài liệu được chọn ngẫu nhiên từ tập dữ liệu OBELICS, tập con HTML của MINT-1T và tập con PDF (không bao gồm ArXiv) từ MINT-1T để có 200 chủ đề. GPT-4 sau đó được sử dụng để phân loại tập hợp các từ để xác định các miền thống trị – chẳng hạn như Y Tế & Y Học, Khoa Học, Kinh Doanh, Nhân Văn, Lịch Sử, v.v. – dựa trên các miền MMMU. Phân tích này tiết lộ các xu hướng riêng biệt trong phân phối miền:

OBELICS: Tập dữ liệu này cho thấy sự tập trung rõ ràng vào “Khoa Học Xã Hội và Nhân Văn”. Điều này có thể được quy cho quá trình xây dựng dữ liệu của nó, liên quan đến việc lọc ra các tài liệu không giống như các bài viết Wikipedia, do đó có thể thay đổi phân phối để tập trung vào kiến thức chung và tài liệu nhân văn.
Tập Con HTML Của MINT-1T: Ngược lại với OBELICS, tập con HTML của MINT-1T không bị thiên vị mạnh mẽ về bất kỳ miền nào, cho thấy sự đại diện miền cân bằng và rộng rãi hơn.
Tập Con PDF Của MINT-1T: Có một tỷ lệ cao hơn của các tài liệu “Khoa Học và Công Nghệ” trong các tài liệu PDF của MINT-1T. Xu hướng này có thể là do bản chất của việc truyền đạt khoa học, nơi các tệp PDF là định dạng được ưu tiên để chia sẻ các bài báo nghiên cứu và báo cáo kỹ thuật chi tiết.

MINT-1T: Kết Quả và Thí Nghiệm

Đối với tất cả các thí nghiệm, MINT-1T đào tạo mô hình trên 50% lô chú thích hình ảnh-văn bản và 50% lô đa phương tiện xen kẽ. Tối đa 2048 token đa phương tiện được lấy mẫu từ mỗi tài liệu xen kẽ và 340 token từ mỗi mẫu hình ảnh-văn bản. Tương tự như Flamingo, một token “kết thúc” được thêm vào để chỉ ra kết thúc của một chuỗi hình ảnh-văn bản liền kề. Trong quá trình đào tạo, 50% tài liệu hình ảnh-văn bản đơn được loại bỏ ngẫu nhiên để tăng tỷ lệ tài liệu đa hình ảnh. Tập dữ liệu hình ảnh-văn bản được tạo thành từ sự kết hợp của các tập dữ liệu chú thích được thu thập nội bộ. Khả năng của mô hình trong việc suy luận về các chuỗi đa phương tiện xen kẽ được đánh giá thông qua khả năng học trong ngữ cảnh và hiệu suất suy luận đa hình ảnh.

Hình ảnh trên minh họa tỷ lệ phần trăm của các tài liệu từ mỗi miền trong MMMU cho OBELICS và các tập con của MINT-1T.

Học Trong Ngữ Cảnh: Các mô hình được đánh giá trên hiệu suất học trong ngữ cảnh 4-shot và 8-shot trên các điểm chuẩn chú thích (COCO (kiểm tra Karpathy) và TextCaps (xác thực)) và các tập dữ liệu hỏi đáp hình ảnh (VQAv2 (xác thực), OK-VQA (xác thực), TextVQA (xác thực) và VizWiz (xác thực)). Các bản demo được lấy mẫu ngẫu nhiên từ tập dữ liệu đào tạo. Điểm số được tính trung bình trên nhiều lần chạy đánh giá, với các bản demo được chọn ngẫu nhiên để tính đến độ nhạy đối với các bản demo được chọn. Các bản demo khác nhau được loại bỏ cho từng nhiệm vụ để chọn bản demo hoạt động tốt nhất.

Suy Luận Đa Hình Ảnh: Các mô hình được đánh giá trên MMMU (chứa cả câu hỏi đơn hình ảnh và đa hình ảnh) và Mantis-Eval (tất cả câu hỏi đa hình ảnh) để kiểm tra khả năng suy luận đa hình ảnh vượt ra ngoài đánh giá học trong ngữ cảnh.

Đào Tạo Trên Tài Liệu HTML

Ban đầu, phần HTML của MINT-1T được so sánh với OBELICS, vì OBELICS là tập dữ liệu xen kẽ hàng đầu trước đó, cũng được thu thập từ các tài liệu HTML. Hai mô hình được đào tạo trên các phần HTML của MINT-1T và OBELICS với tổng cộng 10 tỷ token đa phương tiện. Hiệu suất học trong ngữ cảnh của chúng được đánh giá. Bảng sau trình bày hiệu suất 4-shot và 8-shot trên các điểm chuẩn chung; mô hình được đào tạo trên các tài liệu HTML của MINT-1T hoạt động tốt hơn OBELICS trên các nhiệm vụ VQA nhưng hoạt động kém hơn trên các điểm chuẩn chú thích. Trung bình, OBELICS hoạt động tốt hơn một chút so với MINT-1T (HTML).

Thêm Tài Liệu PDF và ArXiv

Tiếp theo, đào tạo được thực hiện trên toàn bộ nguồn dữ liệu của MINT-1T, với sự kết hợp của các tài liệu HTML, PDF và ArXiv. Các tài liệu xen kẽ được lấy mẫu với 50% từ HTML, 45% từ PDF và 5% từ ArXiv. Mô hình được đào tạo với tổng cộng 10 tỷ token đa phương tiện. Như được hiển thị trong bảng trên, mô hình được đào tạo trên sự kết hợp đầy đủ của dữ liệu MINT-1T vượt qua OBELICS và MINT-1T (HTML) trên hầu hết các điểm chuẩn học trong ngữ cảnh. Trên các điểm chuẩn suy luận đa phương tiện phức tạp hơn, mô hình MINT-1T vượt qua OBELICS trên MMMU nhưng hoạt động kém hơn trên Mantis-Eval.

Xu Hướng Tinh Vi

Làm Thế Nào Hiệu Suất Học Trong Ngữ Cảnh Thay Đổi Khi Số Lượng Bản Demo Tăng?

Hiệu suất học trong ngữ cảnh được đánh giá khi được cung cấp một đến tám bản demo. Một thử nghiệm duy nhất được chạy cho mỗi số lượng bản demo trên mỗi điểm chuẩn đánh giá. Như được hiển thị trong hình ảnh sau, mô hình được đào tạo trên MINT-1T vượt qua mô hình được đào tạo trên tập con HTML của MINT-1T và OBELICS trên tất cả các bản demo. Mô hình MINT-1T (HTML) hoạt động kém hơn một chút so với OBELICS.

Hiệu Suất Trên Các Nhiệm Vụ Chú Thích và Hỏi Đáp Hình Ảnh

Hình ảnh sau trình bày hiệu suất học trong ngữ cảnh trung bình trên các điểm chuẩn chú thích và hỏi đáp hình ảnh (VQA). OBELICS vượt qua tất cả các biến thể của MINT-1T trên các điểm chuẩn chú thích 4-shot và hoạt động kém hơn một chút so với MINT-1T trên các điểm chuẩn chú thích 8-shot. Tuy nhiên, MINT-1T vượt qua OBELICS trên các điểm chuẩn VQA. MINT-1T (HTML) cũng vượt qua OBELICS trên các nhiệm vụ VQA.

Hiệu Suất Trên Các Miền Khác Nhau

Bao gồm các miền đa dạng trong MINT-1T nhằm cải thiện sự khái quát hóa của mô hình. Hình ảnh trước đó phân chia hiệu suất trên MMMU cho từng miền. Ngoại trừ miền Kinh Doanh, MINT-1T vượt qua OBELICS và MINT-1T (HTML). Sự tăng hiệu suất trong các miền Khoa Học và Công Nghệ cho MINT-1T được quy cho sự hiện diện của các miền này trong các tài liệu ArXiv và PDF.

Tư Duy Cuối Cùng

Trong bài viết này, chúng ta đã thảo luận về MINT-1T, tập dữ liệu đa phương tiện xen kẽ mã nguồn mở lớn nhất và đa dạng nhất cho đến nay. MINT-1T: Một tập dữ liệu có quy mô lớn hơn 10 lần, bao gồm một nghìn tỷ token văn bản và 3,4 tỷ hình ảnh so với các tập dữ liệu mã nguồn mở hiện có. Tập dữ liệu MINT-1T cũng giới thiệu các nguồn chưa từng được sử dụng trước đây như tệp PDF và bài báo ArXiv. Vì các tập dữ liệu đa phương tiện xen kẽ không thể mở rộng dễ dàng, nên việc tập dữ liệu MINT-1T chia sẻ quá trình thu thập dữ liệu là rất quan trọng để người khác cũng có thể thực hiện các thí nghiệm trên các biến thể giàu thông tin như vậy. Tập dữ liệu MINT-1T chứng minh rằng phương pháp của nó; các mô hình LM được đào tạo trên MINT-1T có khả năng cạnh tranh (mặc dù không hoàn toàn) với các mô hình OBELICS hiện có trước đây.