Künstliche Intelligenz

MINT-1T: Skalierung von Open-Source-Multimodal-Daten um das 10-fache

Published July 29, 2024

Updated April 4, 2026

Kunal Kejriwal

MINT-1T: Scaling Open-Source Multimodal Data by 10x

Das Training von großen multimodalen Modellen (LMMs) erfordert große Datensätze mit ineinander verflochtenen Sequenzen von Bildern und Texten in freier Form. Obwohl Open-Source-LMMs rasch fortgeschritten sind, gibt es immer noch einen großen Mangel an multimodalen, ineinander verflochtenen Datensätzen im großen Maßstab, die Open-Source sind. Die Bedeutung dieser Datensätze kann nicht überbetont werden, da sie die Grundlage für die Erstellung von fortschrittlichen KI-Systemen bilden, die in der Lage sind, Inhalte über verschiedene Modalitäten hinweg zu verstehen und zu generieren. Ohne eine ausreichende Versorgung mit umfassenden, ineinander verflochtenen Datensätzen wird das Potenzial für die Entwicklung von komplexeren und leistungsfähigeren LMMs erheblich behindert. Diese Datensätze ermöglichen es Modellen, aus einer Vielzahl von Eingaben zu lernen, was sie vielseitiger und effektiver in verschiedenen Anwendungen macht. Darüber hinaus stellt die Knappheit solcher Datensätze eine Herausforderung für die Open-Source-Community dar, die auf gemeinsam genutzte Ressourcen angewiesen ist, um Innovation und Zusammenarbeit voranzutreiben.

Open-Source-LMMs haben in den letzten Jahren große Fortschritte gemacht, aber ihr Wachstum wird durch die begrenzte Verfügbarkeit von großen, ineinander verflochtenen Datensätzen behindert. Um dieses Hindernis zu überwinden, sind konzentrierte Anstrengungen erforderlich, um umfassendere Datensätze zu kuratieren, zu annotieren und zu veröffentlichen, die die anhaltende Entwicklung und Verfeinerung von multimodalen Modellen unterstützen können. Darüber hinaus erfordert die Erstellung und Verbreitung dieser Datensätze die Überwindung mehrerer technischer und logistischer Hürden. Die Datenerfassung muss umfassend und repräsentativ für die vielfältigen Kontexte sein, in denen LMMs eingesetzt werden. Die Annotation erfordert sorgfältige Überlegung, um sicherzustellen, dass die ineinander verflochtenen Sequenzen von Bildern und Texten auf eine Weise ausgerichtet sind, die die Lernfähigkeit des Modells verbessert. Darüber hinaus erfordert die Sicherstellung, dass die Datensätze Open-Source sind, die Berücksichtigung rechtlicher und ethischer Aspekte im Zusammenhang mit Datenschutz und Nutzungsrechten. Die Erweiterung der Verfügbarkeit von hochwertigen, großen multimodalen ineinander verflochtenen Datensätzen ist für die Zukunft der KI-Forschung und -Entwicklung von entscheidender Bedeutung. Durch die Überwindung der aktuellen Knappheit kann die KI-Community größere Innovation und Zusammenarbeit fördern, was zur Schaffung von leistungsfähigeren und vielseitigeren LMMs führt, die in der Lage sind, komplexe, reale Probleme zu lösen.

Aufbauend auf diesem Gedanken ist MINT-1T der größte und vielfältigste multimodale ineinander verflochtene Open-Source-Datensatz bis heute. MINT-1T: Ein 10-mal größerer Umfang, einschließlich einer Billion Texttoken und 3,4 Milliarden Bildern als bestehende Open-Source-Datensätze. Der MINT-1T-Datensatz führt auch noch nie veröffentlichte Quellen wie PDF-Dateien und ArXiv-Papiere ein. Da multimodale ineinander verflochtene Datensätze nicht leicht skalieren, ist es wichtig, dass der MINT-1T-Datensatz den Datenerfassungsprozess teilt, damit andere auch Experimente mit solchen informationsreichen Varianten durchführen können. Der MINT-1T-Datensatz zeigt, dass seine Methode LM-Modelle trainiert auf MINT-1T wettbewerbsfähig (wenn auch etwas) zu vorherigen State-of-the-Art-OBELICS sind.

MINT-1T: Ein Multimodaler Datensatz mit einer Billion Token

Große Open-Source-Prätrainingsdatensätze haben für die Forschungsgemeinschaft eine wichtige Rolle bei der Erforschung von Datenengineering und der Schulung transparenter, Open-Source-Modelle gespielt. Im Textbereich haben frühe Arbeiten wie C4 und The Pile eine wichtige Rolle bei der Ermöglichung der Gemeinschaft gespielt, die ersten Open-Source-Großsprachmodelle wie GPT-J, GPT-Neo und andere zu trainieren. Diese grundlegenden Bemühungen ebneten auch den Weg für nachfolgende Verbesserungen bei der Datenfilterung und Skalierung. Ähnlich verhält es sich im Bild-Text-Raum, wo große Open-Source-Datensätze Innovationen in besseren Datenkuriermethoden wie Datenfilternetzwerken und T-MARS ausgelöst haben. Es gibt einen bemerkenswerten Wechsel von Frontier-Labors hin zur Schulung von großen multimodalen Modellen (LMMs), die umfangreiche multimodale ineinander verflochtene Datensätze erfordern, die aus freien Sequenzen von Bildern und Texten bestehen. Da die Fähigkeiten von Frontier-Modellen rasch voranschreiten, entsteht eine signifikante Lücke in den multimodalen Trainingsdaten zwischen geschlossenen und Open-Source-Modellen. Aktuelle Open-Source-Multimodale ineinander verflochtene Datensätze sind kleiner und weniger vielfältig als ihre Text-only-Gegenstücke, die hauptsächlich aus HTML-Dokumenten stammen, was die Breite und Vielfalt der Daten begrenzt. Diese Einschränkung behindert die Entwicklung von robusten Open-Source-LMMs und schafft eine Diskrepanz zwischen den Fähigkeiten von Open-Source- und geschlossenen Modellen.

… (rest of the translation remains the same, following the exact structure and formatting of the original text)

Kunal Kejriwal

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.

Unite.AI

MINT-1T: Skalierung von Open-Source-Multimodal-Daten um das 10-fache

You may like