Tekoäly

MINT-1T: Laajentamalla avoimia monimodalisia tietoja kymmenkertaiseksi

Published July 29, 2024

Updated April 4, 2026

Kunal Kejriwal

MINT-1T: Scaling Open-Source Multimodal Data by 10x

Suurten multimodaalisten mallien (LMM) koulutus edellyttää laajamittaisia tietoja, joissa on tekstiä ja kuvia vapaamuotoisesti. Vaikka avoimet LMM:t ovat kehittyneet nopeasti, avoimia monimodalisia tietoja, joissa on kuvia ja tekstiä, ei ole tarpeeksi. Näiden tietojen merkitys ei voi olla liian korostettu, sillä ne muodostavat perustan edistyneiden tekoälyjärjestelmien luomiselle, jotka pystyvät ymmärtämään ja luomaan sisältöä eri muodoissa. Ilman riittävää määrää kattavia ja monimuotoisia tietoja LMM:ien kehittäminen on merkittävästi estynyt. Nämä tiedot mahdollistavat mallien oppimisen monipuolisista syötteistä, mikä tekee niistä monipuolisempia ja tehokkaampia erilaisissa sovelluksissa. Lisäksi tällaisten tietojen niukkuus asettaa haasteen avoimen lähdekoodin yhteisölle, joka riippuu jaetusta resursseista innovaation ja yhteistyön edistämiseksi.

Avoimet LMM:t ovat tehneet merkittäviä edistysaskeleita viime vuosina, mutta niiden kasvu on hidastunut laajamittaisen, monimodaalisen tietojen saatavuuden rajoituksissa. Tämän esteen voittamiseksi on tarve kohdennettuihin ponnisteluihin tietojen kuratointiin, annotointiin ja julkaisemiseen, jotta voidaan tukea monimodaalisten mallien jatkuvaista kehittämistä ja hienosäätöä. Lisäksi näiden tietojen luominen ja jakaminen edellyttävät useiden teknisten ja logististen esteiden voittamista. Tietojen kerääminen on oltava laajamittainen ja edustava eri konteksteja, joissa LMM:t tullaan käyttämään. Annotointi vaatii huolellista harkintaa, jotta voidaan varmistaa, että kuvien ja tekstin vuorottelussa on mallin oppimiskykyä parantava järjestys. Lisäksi varmistettaessa, että tiedot ovat avoimia, on otettava huomioon oikeudelliset ja eettiset seikat, jotka liittyvät tietosuojaa ja käyttöoikeuksia koskeviin kysymyksiin. Laajamittaisen, korkealaatuisen monimodaalisen tietojen saatavuuden laajentaminen on välttämätöntä tekoälytutkimuksen ja -kehityksen tulevaisuudelle. Osoittamalla tämän niukkuuden, tekoälyyhteisö voi edistää suurempaa innovaatiota ja yhteistyötä, mikä johtaa tehokkaampien ja monipuolisten LMM:ien luomiseen, jotka pystyvät ratkaisemaan monimutkaisia, todellisia maailman ongelmia.

Tästä lähtien, MINT-1T, laajin ja monipuolisin avoin monimodaalinen tietojoukko toistaiseksi. MINT-1T: 10-kertaisesti laajempi mittakaava, joka sisältää yhden biljoonan tekstin tokenin ja 3,4 miljardia kuvaa verrattuna olemassa oleviin avoimiin tietoihin. MINT-1T-tietojoukko esittelee myös aiemmin julkaisemattomia lähteitä, kuten PDF-tiedostoja ja ArXiv-artikkeleita. Koska monimodaliset tietojoukot eivät skaalautu helposti, on tärkeää, että MINT-1T jakaa tietojen kuratointiprosessin, jotta muut voivat myös suorittaa kokeita tällaisilla tietojen rikkailla variantteilla. MINT-1T-tietojoukko osoittaa, että sen menetelmä on kilpailukykyinen; LMM-mallit, jotka on koulutettu MINT-1T:llä, ovat vertailukelpoisia (vaikka jonkin verran) aiempiin avoimiin tietoihin, kuten OBELICS:iin.

MINT-1T: Monimodaalinen tietojoukko yhden biljoonan tokenilla

Suuret avoimet esikoulutusjoukot ovat olleet ratkaisevia tutkimusyhteisölle tietotekniikan ja avoimien mallien koulutuksen tutkimisessa. Tekstialueella varhaiset työt, kuten C4 ja The Pile, olivat avainasemassa mahdollistaen yhteisölle kouluttaa ensimmäisen avoimen suuren kielen mallin, kuten GPT-J, GPT-Neo ja muut. Nämä perustavat ponnistelut loivat myös tien myöhemmille parannuksille tietojen suodatusmenetelmissä ja skaalautuvuudessa. Vastaavasti kuvatekstialueella suuret avoimet tietojoukot ovat innoittaneet innovaatioita paremmissa tietojen kuratointimenetelmissä, kuten Data-suodatusverkoissa ja T-MARS:ssa. On havaittavissa siirtymä eturintamalaboratorioista kouluttamaan suuria monimodalisia malleja (LMM), jotka vaativat laajamittaisia monimodalisia tietoja, jotka koostuvat vapaamuotoisista kuvien ja tekstin vuorottelusta. Kun eturintamamallien kyky kehittyy nopeasti, merkittävä aukko on syntyvä monimodaalisen koulutusdatan välillä suljettujen ja avoimien lähteiden mallien välillä. Nykyiset avoimet monimodaliset tietojoukot ovat pienempiä ja vähemmän monipuolisia kuin niiden tekstipohjaiset vastineensa, jotka perustuvat pääasiassa HTML-dokumentteihin, mikä rajoittaa tietojen leveyttä ja monipuolisuutta. Tämä rajoitus haittaa kestävien avoimien LMM:ien kehittämistä ja luo epätasapuolisuuden avoimien ja suljettujen mallien kykyjen välillä.

… (Translation continues as per the original content, maintaining the same structure and formatting)

Kunal Kejriwal

Ammattina insinööri, sydämen vuoksi kirjailija. Kunal on tekninen kirjailija, jolla on syvä rakkaus ja ymmärrys AI: sta ja ML: stä, omistautunut yksinkertaistamaan monimutkaisia käsitteitä näissä aloissa hänen viihdyttävän ja informatiivisen dokumentaationsa kautta.

Unite.AI

MINT-1T: Laajentamalla avoimia monimodalisia tietoja kymmenkertaiseksi

You may like