Штучний інтелект

MINT-1T: Масштабування відкритих đa модальних даних у 10 разів

Published July 29, 2024

Updated April 4, 2026

Kunal Kejriwal

MINT-1T: Scaling Open-Source Multimodal Data by 10x

Навчання великих моделей з декількома модальностями (LMM) вимагає великомасштабних наборів даних з чергованими послідовностями зображень і тексту у вільній формі. Хоча відкриті моделі LMM розвивалися швидко, все ще існує велика нестача đa модальних чергованих наборів даних у масштабі, які відкриті. Значення цих наборів даних не можна перебільшувати, оскільки вони утворюють основу для створення передових систем штучного інтелекту, здатних розуміти та генерувати контент у різних модальностях. Без достатнього постачання повних, чергованих наборів даних потенціал для розробки більш досконалих та здатних LMM суттєво гальмується. Ці набори даних дозволяють моделям навчатися у різноманітному діапазоні входів, роблячи їх більш універсальними та ефективними у різних застосуваннях. Крім того, нестача таких наборів даних становить виклик для відкритої спільноти, яка залежить від спільних ресурсів для стимулювання інновацій та співробітництва.

Відкриті моделі LMM зробили значні кроки за останні роки, але їхній розвиток гальмується через обмежену доступність великомасштабних, чергованих наборів даних. Для подолання цього перешкоди потрібні злагоджені зусилля для кураторства, анотації та випуску більш повних наборів даних, які можуть підтримувати тривале розвиток та вдосконалення моделей з декількома модальностями. Крім того, створення та поширення цих наборів даних передбачає подолання кількох технічних та логістичних перешкод. Збір даних повинен бути широким та репрезентативним для різноманітних контекстів, у яких будуть розгорнуті LMM. Анотація вимагає ретельного розгляду, щоб забезпечити, що черговані послідовності зображень і тексту вишиковані у спосіб, який підвищує можливості навчання моделі. Крім того, забезпечення того, щоб набори даних були відкритими, передбачає вирішення юридичних та етичних питань, пов’язаних з конфіденційністю даних та правами на використання. Розширення доступності високоякісних, великомасштабних đa модальних чергованих наборів даних є суттєвим для майбутнього досліджень та розробок штучного інтелекту. Подолавши поточну нестачу, спільнота штучного інтелекту може стимулювати більші інновації та співробітництво, що призведе до створення більш потужних та універсальних LMM, здатних вирішувати складні, реальні проблеми.

Розробляючи цю думку, MINT-1T – найбільший і найрізноманітніший відкритий đa модальний черговий набір даних на сьогодні. MINT-1T: у 10 разів більший масштаб, включаючи один трильйон текстових токенів та 3,4 мільярда зображень, ніж існуючі відкриті набори даних. Набір даних MINT-1T також вводить раніше не використані джерела, такі як файли PDF та статті ArXiv. Оскільки đa модальні чергові набори даних не масштабуються легко, важливо, щоб процес кураторства даних MINT-1T був доступний, щоб інші також могли проводити експерименти з таких інформаційно-багатих варіантів. Набір даних MINT-1T демонструє, що його метод; моделі LM, навчені на MINT-1T, є конкурентоспроможними (хоча й дещо) до попередніх найкращих відкритих наборів даних OBELICS.

MINT-1T: Два модального набору даних з одним трильйоном токенів

Великі відкриті набори даних для попереднього навчання були суттєвими для дослідницької спільноти у вивченні інженерії даних та навчання прозорих, відкритих моделей. У текстовому домені раннє дослідження, таке як C4 та The Pile, відіграло важливу роль у дозволі спільноті тренувати першу серію відкритих великих мовних моделей, таких як GPT-J, GPT-Neo та інші. Ці фундаментальні зусилля також проклали шлях для подальших удосконалень методів фільтрації даних та масштабування. Аналогічно, у просторі зображень та тексту великі відкриті набори даних спонукали інновації у кращих методах кураторства даних, таких як мережі фільтрації даних та T-MARS. Відбувається помітний зсув від передових лабораторій до тренування великих моделей з декількома модальностями (LMM), які вимагають великомасштабних đa модальних чергових наборів даних, що складаються з вільних послідовностей зображень і тексту. По мірі того, як можливості передових моделей швидко просунуться, суттєва прогалина виникає у навчальних даних між закритими та відкритими моделями. Поточні відкриті đa модальні чергові набори даних менші та менш різноманітні, ніж їхні текстові аналоги, і в основному походять з документів HTML, що обмежує ширину та різноманіття даних. Це обмеження гальмує розвиток стійких відкритих LMM та створює диспропорцію між можливостями відкритих та закритих моделей.

Для подолання цієї прогалини був створений MINT-1T як найбільший і найрізноманітніший відкритий đa модальний черговий набір даних на сьогодні. MINT-1T містить загалом один трильйон текстових токенів і три мільярди зображень, отриманих з різноманітних джерел, таких як HTML, PDF та ArXiv. До MINT-1T найбільшим відкритим набором даних у цій галузі був OBELICS, який включав 115 мільярдів текстових токенів і 353 мільйони зображень, усі отримані з HTML.

Вклад MINT-1T полягає в наступному:

Інженерія даних: Масштабування цього đa модального чергового даних представляє більший інженерний виклик, ніж побудова текстових або пар зображень-тексту наборів даних. Обробка великих розмірів документів та збереження початкового порядку зображень і тексту є суттєвим.
Різноманітність: MINT-1T є першим у đa модальному черговому просторі, який збирає високоякісні đa модальні документи у великих масштабах з джерел, таких як CommonCrawl PDF та ArXiv.
Експерименти з моделями: Експерименти показують, що LMM, навчені на MINT-1T, не тільки дорівнюють, але й потенційно перевершують продуктивність моделей, навчених на кращому існуючому відкритому наборі даних OBELICS, при цьому пропонуючи десятикратне збільшення масштабу.

…

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.

Unite.AI

MINT-1T: Масштабування відкритих đa модальних даних у 10 разів

You may like