Kecerdasan buatan
MINT-1T: Mengembangkan Data Multimodal Terbuka dengan 10x
Pelatihan model multimodal besar (LMM) memerlukan dataset besar dengan urutan gambar dan teks yang terkait. Meskipun model LMM terbuka sumber telah berkembang pesat, masih ada kekurangan besar dataset multimodal terkait skala besar yang terbuka sumber. Pentingnya dataset ini tidak dapat dilebihkan, karena mereka membentuk dasar untuk menciptakan sistem AI canggih yang dapat memahami dan menghasilkan konten di berbagai modality. Tanpa pasokan dataset terkait yang komprehensif, potensi untuk mengembangkan LMM yang lebih canggih dan mampu sangat terhambat. Dataset ini memungkinkan model untuk belajar dari berbagai input, membuatnya lebih serbaguna dan efektif dalam berbagai aplikasi. Selain itu, kelangkaan dataset seperti itu merupakan tantangan bagi komunitas sumber terbuka, yang mengandalkan sumber daya bersama untuk menggerakkan inovasi dan kolaborasi.
Model LMM terbuka sumber telah membuat kemajuan signifikan dalam beberapa tahun terakhir, tetapi pertumbuhannya terhambat oleh ketersediaan dataset terkait skala besar yang terbatas. Untuk mengatasi hambatan ini, upaya terkoordinasi diperlukan untuk mengkurasi, menandai, dan merilis dataset yang lebih komprehensif yang dapat mendukung pengembangan dan penyempurnaan model multimodal. Selain itu, penciptaan dan penyebaran dataset ini melibatkan mengatasi beberapa hambatan teknis dan logistik. Pengumpulan data harus ekstensif dan representatif dari konteks yang beragam di mana LMM akan diterapkan. Penandaan memerlukan pertimbangan hati-hati untuk memastikan bahwa urutan terkait gambar dan teks diselaraskan dengan cara yang meningkatkan kemampuan belajar model. Selain itu, memastikan dataset terbuka sumber melibatkan mengatasi pertimbangan hukum dan etika yang terkait dengan privasi data dan hak penggunaan. Mengekspansi ketersediaan dataset multimodal terkait skala besar yang berkualitas tinggi sangat penting untuk masa depan penelitian dan pengembangan AI. Dengan mengatasi kelangkaan saat ini, komunitas AI dapat mendorong inovasi dan kolaborasi yang lebih besar, menghasilkan LMM yang lebih kuat dan serbaguna yang dapat menangani masalah dunia nyata yang kompleks.
Membangun pada catatan itu, MINT-1T, dataset multimodal terkait terbuka sumber terbesar dan paling beragam hingga saat ini. MINT-1T: Skala 10x lebih besar, termasuk satu triliun token teks & 3,4 miliar gambar daripada dataset terbuka sumber yang ada. Dataset MINT-1T juga memperkenalkan sumber yang belum pernah terungkap sebelumnya seperti file PDF dan makalah ArXiv. Karena dataset multimodal terkait tidak mudah diskalakan, penting bahwa dataset MINT-1T berbagi proses pengkurasi data sehingga orang lain juga dapat melakukan eksperimen pada varian yang kaya informasi seperti itu. Dataset MINT-1T menunjukkan bahwa metodenya; model LM yang dilatih pada MINT-1T kompetitif (meskipun sedikit) dengan OBELICS sebelumnya yang merupakan standar tertinggi.
MINT-1T: Dataset Multimodal dengan Satu Triliun Token
Dataset pra-pelatihan terbuka sumber besar telah menjadi penting bagi komunitas penelitian dalam mengeksplorasi teknik data dan melatih model terbuka sumber yang transparan. Di domain teks, karya awal seperti C4 dan The Pile memainkan peran penting dalam memungkinkan komunitas untuk melatih set pertama model bahasa besar terbuka sumber seperti GPT-J, GPT-Neo, dan lain-lain. Upaya dasar ini juga membuka jalan bagi perbaikan selanjutnya dalam metode penyaringan data dan penskalaan. Serupa, di ruang gambar-teks, dataset terbuka sumber skala besar telah memicu inovasi dalam metode pengkurasi data yang lebih baik, seperti jaringan penyaringan data dan T-MARS. Ada pergeseran yang jelas dari laboratorium depan ke pelatihan model multimodal besar (LMM) yang memerlukan dataset multimodal terkait skala besar yang terdiri dari urutan gambar dan teks bebas. Seiring kemampuan model depan berkembang pesat, celah signifikan muncul dalam data pelatihan multimodal antara model tertutup dan terbuka sumber. Dataset multimodal terkait terbuka sumber saat ini lebih kecil dan kurang beragam daripada rekan-rekan teks-saja, yang bersumber utama dari dokumen HTML, yang membatasi keluasan dan keragaman data. Keterbatasan ini menghambat pengembangan LMM terbuka sumber yang kuat dan menciptakan disparitas antara kemampuan model tertutup dan terbuka sumber.
… (translation continues)












