Kunstmatige intelligentie
MINT-1T: Open-source multimodale gegevens met 10x vergroten
Het trainen van grote multimodale modellen (LMM’s) vereist grote datasets met ingebedde sequenties van afbeeldingen en tekst in vrije vorm. Hoewel open-source LMM’s snel zijn geëvolueerd, is er nog steeds een groot gebrek aan multimodale ingebedde datasets op grote schaal die open-source zijn. Het belang van deze datasets kan niet worden overschat, aangezien ze de basis vormen voor het creëren van geavanceerde AI-systemen die in staat zijn om inhoud te begrijpen en te genereren over verschillende modaliteiten. Zonder een voldoende aanbod van uitgebreide, ingebedde datasets, wordt de mogelijkheid om meer geavanceerde en capabele LMM’s te ontwikkelen aanzienlijk beperkt. Deze datasets stellen modellen in staat om te leren van een breed scala aan invoer, waardoor ze flexibeler en effectiever zijn in verschillende toepassingen. Bovendien vormt het gebrek aan dergelijke datasets een uitdaging voor de open-source gemeenschap, die afhankelijk is van gedeelde bronnen om innovatie en samenwerking te stimuleren.
Open-source LMM’s hebben in recente jaren aanzienlijke vooruitgang geboekt, maar hun groei wordt gehinderd door de beperkte beschikbaarheid van grote, ingebedde datasets. Om deze hindernis te overwinnen, zijn geconcerteerde inspanningen nodig om meer uitgebreide datasets te cureren, annoteren en vrijgeven die de voortdurende ontwikkeling en verfijning van multimodale modellen kunnen ondersteunen. Bovendien houdt de creatie en verspreiding van deze datasets het overwinnen van verschillende technische en logistieke hindernissen in. Gegevensverzameling moet uitgebreid en representatief zijn voor de diverse contexten waarin LMM’s zullen worden ingezet. Annotatie vereist zorgvuldige overweging om ervoor te zorgen dat de ingebedde sequenties van afbeeldingen en tekst zijn uitgelijnd op een manier die de leer capaciteiten van het model verhoogt. Bovendien houdt het feit dat de datasets open-source zijn, het aanpakken van juridische en ethische overwegingen in verband met gegevensprivacy en gebruiksrechten in. Het uitbreiden van de beschikbaarheid van hoge kwaliteit, grote multimodale ingebedde datasets is essentieel voor de toekomst van AI-onderzoek en -ontwikkeling. Door het huidige gebrek aan te pakken, kan de AI-gemeenschap grotere innovatie en samenwerking stimuleren, wat leidt tot de creatie van krachtigere en flexibelere LMM’s die in staat zijn om complexe, real-world problemen aan te pakken.
Op basis van deze gedachte, MINT-1T, de grootste en meest diverse multimodale ingebedde open-source dataset tot nu toe. MINT-1T: een 10x grotere schaal, met één biljoen teksttokens en 3,4 miljard afbeeldingen dan bestaande open-source datasets. De MINT-1T-dataset introduceert ook nooit eerder blootgestelde bronnen zoals PDF-bestanden en ArXiv-papers. Aangezien multimodale ingebedde datasets niet gemakkelijk schalen, is het belangrijk dat de MINT-1T-dataset het gegevenscuratieproces deelt zodat anderen ook experimenten kunnen uitvoeren op dergelijke informatierijke varianten. De MINT-1T-dataset toont aan dat zijn methode; LM-modellen getraind op MINT-1T zijn concurrerend (hoewel enigszins) met de vorige state-of-the-art OBELICS.
MINT-1T: Een multimodale dataset met één biljoen tokens
Grote open-source pre-training datasets zijn van cruciaal belang geweest voor de onderzoekscommunity om data-engineering en training van transparante, open-source modellen te onderzoeken. In het tekstdomein hebben vroege werken zoals C4 en The Pile een cruciale rol gespeeld bij het mogelijk maken van de community om de eerste set open-source grote taalmodellen zoals GPT-J, GPT-Neo en anderen te trainen. Deze fundamentale inspanningen hebben ook de weg geëffend voor latere verbeteringen in datafilteringmethoden en schaling. Evenzo hebben in de beeld-tekstdomein grote open-source datasets innovaties gestimuleerd in betere datacuratiemethoden, zoals Datafiltering networks en T-MARS. Er is een merkbare verschuiving van frontier labs naar het trainen van grote multimodale modellen (LMM’s) die uitgebreide multimodale ingebedde datasets vereisen die bestaan uit vrije vorm sequenties van afbeeldingen en tekst. Naarmate de capaciteiten van frontiermodellen snel vooruitgaan, ontstaat er een significante kloof in de multimodale trainingsdata tussen gesloten en open-source modellen. Huidige open-source multimodale ingebedde datasets zijn kleiner en minder divers dan hun tekst-only tegenhangers, die voornamelijk afkomstig zijn van HTML-documenten, waardoor de breedte en variëteit van de gegevens beperkt zijn. Deze beperking belemmert de ontwikkeling van robuuste open-source LMM’s en creëert een dispariteit tussen de capaciteiten van open- en gesloten source modellen.
… (rest of the content remains the same, following the exact same structure and formatting as the original, with only the text translated to Dutch)












