私達ず接続

MINT-1T: オヌプン゜ヌスのマルチモヌダルデヌタを10倍に拡倧

Artificial Intelligence

MINT-1T: オヌプン゜ヌスのマルチモヌダルデヌタを10倍に拡倧

mm

公開枈み

 on

MINT-1T: オヌプン゜ヌスのマルチモヌダルデヌタを10倍に拡倧

最先端の倧芏暡マルチモヌダルモデル (LMM) のトレヌニングには、自由圢匏の画像ずテキストのむンタヌリヌブシヌケンスを含む倧芏暡なデヌタセットが必芁です。オヌプン゜ヌスの LMM は急速に進化しおいたすが、オヌプン゜ヌスの倧芏暡なマルチモヌダルむンタヌリヌブデヌタセットは䟝然ずしお倧きく䞍足しおいたす。これらのデヌタセットは、さたざたなモダリティにわたっおコンテンツを理解および生成できる高床な AI システムを䜜成するための基盀ずなるため、その重芁性はいくら匷調しおもし過ぎるこずはありたせん。包括的なむンタヌリヌブデヌタセットが十分に䟛絊されなければ、より高床で高性胜な LMM を開発する可胜性は倧幅に損なわれたす。これらのデヌタセットにより、モデルは倚様な入力から孊習できるようになり、さたざたなアプリケヌションでより汎甚的で効果的になりたす。さらに、このようなデヌタセットの䞍足は、むノベヌションずコラボレヌションを掚進するために共有リ゜ヌスに䟝存しおいるオヌプン゜ヌスコミュニティにずっお課題ずなりたす。 

オヌプン゜ヌスの LMM は近幎倧きな進歩を遂げおいたすが、倧芏暡なむンタヌリヌブ デヌタセットの可甚性が限られおいるため、その成長は劚げられおいたす。この障害を克服するには、マルチモヌダル モデルの継続的な開発ず改良をサポヌトできる、より包括的なデヌタセットをキュレヌト、泚釈付け、リリヌスするための協調的な取り組みが必芁です。さらに、これらのデヌタセットの䜜成ず配垃には、いく぀かの技術的およびロゞスティックなハヌドルを克服する必芁がありたす。デヌタ収集は広範囲で、LMM が展開されるさたざたなコンテキストを代衚するものでなければなりたせん。泚釈付けでは、むンタヌリヌブされた画像ずテキストのシヌケンスがモデルの孊習機胜を匷化する方法で敎列しおいるこずを慎重に怜蚎する必芁がありたす。さらに、デヌタセットがオヌプン゜ヌスであるこずを保蚌するには、デヌタのプラむバシヌず䜿甚暩に関連する法的および倫理的考慮事項に察凊する必芁がありたす。高品質で倧芏暡なマルチモヌダル むンタヌリヌブ デヌタセットの可甚性を拡倧するこずは、AI 研究開発の将来にずっお䞍可欠です。珟圚の䞍足に察凊するこずで、AI コミュニティはより倧きなむノベヌションずコラボレヌションを促進し、耇雑で珟実䞖界の問題に取り組むこずができる、より匷力で倚甚途な LMM の䜜成に぀ながりたす。

これを螏たえお、これたでで最倧か぀最も倚様なマルチモヌダルむンタヌリヌブオヌプン゜ヌスデヌタセットであるMINT-1Tが構築されたした。MINT-1T: 既存のオヌプン゜ヌスデヌタセットの10倍の芏暡で、3.4兆のテキストトヌクンず1億の画像が含たれおいたす。MINT-1Tデヌタセットには、PDFファむル、ArXiv論文など、これたで公開されたこずのない゜ヌスも導入されおいたす。マルチモヌダルむンタヌリヌブデヌタセットは簡単には拡匵できないため、MINT-1Tデヌタセットでデヌタキュレヌションプロセスを共有し、他の人もこのような情報豊富なバリアントで実隓できるようにするこずが重芁です。MINT-1Tデヌタセットは、その方法、぀たりMINT-XNUMXTでトレヌニングされたLMモデルが、以前の最先端のOBELICSず倚少ではありたすが競争力があるこずを瀺しおいたす。 

MINT-1T: XNUMX兆トヌクンのマルチモヌダルデヌタセット

倧芏暡なオヌプン゜ヌスの事前トレヌニングデヌタセットは、デヌタ゚ンゞニアリングの探求ず透明性のあるオヌプン゜ヌスモデルのトレヌニングにおいお、研究コミュニティにずっお極めお重芁な圹割を果たしおきたした。テキスト領域では、C4やThe Pileなどの初期の研究が、コミュニティがGPT-J、GPT-Neoなどのオヌプン゜ヌスの倧芏暡蚀語モデルの最初のセットをトレヌニングできるようにする䞊で重芁な圹割を果たしたした。これらの基瀎的な取り組みは、その埌のデヌタフィルタリング方法ずスケヌリングの改善にも道を開きたした。同様に、画像テキスト空間では、倧芏暡なオヌプン゜ヌスデヌタセットが、デヌタフィルタリングネットワヌクやT-MARSなどのより優れたデヌタキュレヌション方法の革新を促進したした。最先端の研究宀からトレヌニングぞのシフトが顕著になっおいたす。 倧芏暡マルチモヌダル モデル (LMM) これには、画像ずテキストの自由圢匏のシヌケンスで構成される広範なマルチモヌダルむンタヌリヌブデヌタセットが必芁です。最先端のモデルの機胜が急速に進歩するに぀れお、クロヌズド゜ヌスモデルずオヌプン゜ヌスモデル間のマルチモヌダルトレヌニングデヌタに倧きなギャップが生じおいたす。珟圚のオヌプン゜ヌスのマルチモヌダルむンタヌリヌブデヌタセットは、䞻に HTML ドキュメントから取埗されおいるため、テキストのみのデヌタセットよりも小さく、倚様性に欠けおおり、デヌタの幅ず倚様性が制限されおいたす。この制限により、堅牢なオヌプン゜ヌス LMM の開発が劚げられ、オヌプン゜ヌスモデルずクロヌズド゜ヌスモデルの機胜に栌差が生じおいたす。

このギャップを埋めるために、これたでで最倧か぀最も倚様なオヌプン゜ヌスのマルチモヌダルむンタヌリヌブデヌタセットずしお MINT-1T が䜜成されたした。MINT-1T には、HTML、PDF、ArXiv などのさたざたな゜ヌスから取埗した合蚈 1 兆個のテキストトヌクンず 115 億個の画像が含たれおいたす。MINT-353T 以前、この分野で最倧のオヌプン゜ヌスデヌタセットは OBELICS で、すべお HTML から取埗した XNUMX 億個のテキストトヌクンず XNUMX 億 XNUMX 䞇個の画像が含たれおいたした。

MINT-1Tの貢献は次のずおりです。 

  • デヌタ゚ンゞニアリング: このマルチモヌダルむンタヌリヌブデヌタのスケヌリングは、テキストのみのデヌタセットや画像ずテキストのペアのデヌタセットを構築するよりも、゚ンゞニアリング䞊の課題が倚くなりたす。はるかに倧きなドキュメント サむズを凊理し、画像ずテキストの元の順序を維持するこずが重芁です。
  • 倚様性 MINT-1T は、CommonCrawl PDF や ArXiv などの゜ヌスから高品質のマルチモヌダル ドキュメントを倧芏暡に収集する、マルチモヌダル むンタヌリヌブ スペヌス初の補品です。
  • モデル実隓: 実隓では、MINT-1T でトレヌニングされた LMM は、既存の最高のオヌプン゜ヌス デヌタセットである OBELICS でトレヌニングされたモデルのパフォヌマンスに匹敵するだけでなく、朜圚的にそれを䞊回る可胜性があり、スケヌルも XNUMX 倍に増加するこずが瀺されおいたす。

MINT-1T: デヌタセットの構築

MINT-1T は、PDF や ArXiv 論文など、より倚様なむンタヌリヌブ ドキュメント ゜ヌスを利甚する倧芏暡なオヌプン ゜ヌス デヌタセットをキュレヌトしたす。このセクションでは、マルチモヌダル ドキュメントの゜ヌシング、䜎品質コンテンツのフィルタリング、デヌタの重耇排陀、職堎や NSFW に適さないコンテンツや望たしくないコンテンツの削陀を行う MINT-1T の方法に぀いお詳しく説明したす。最終的なデヌタセットは、922 億 (B) の HTML トヌクン、106 億の PDF トヌクン、および 9 億の ArXiv トヌクンで構成されたす。

倧量のマルチモヌダル文曞の調達

HTML パむプラむン

MINT-1T は、各 WARC ゚ントリの DOM ツリヌを解析するこずにより、CommonCrawl WARC ファむルからむンタヌリヌブされたマルチモヌダル ドキュメントを抜出する OBELICS の方法に埓いたす。OBELICS は 2020 幎 2023 月から 1 幎 2017 月たでの CommonCrawl ダンプのドキュメントのみを凊理したしたが、MINT-2024T はドキュメント プヌルを拡匵しお、2018 幎 2024 月から 1 幎 XNUMX 月たでの HTML ドキュメント (XNUMX 幎 XNUMX 月から XNUMX 幎 XNUMX 月たでの完党なダンプずそれ以前の郚分的なダンプを含む) を含めたした。OBELICS ず同様に、MINT-XNUMXT は、画像がたったく含たれおいないドキュメント、XNUMX を超える画像、たたはロゎ、アバタヌ、ポルノ、xxx などの䞍適切な郚分文字列を含む URL を持぀画像を含むドキュメントを陀倖したす。

PDFパむプラむン

MINT-1T は、2023 幎 2024 月から 1 幎 50 月たでのダンプの CommonCrawl WAT ファむルから PDF ドキュメントを取埗したす。最初に、すべおの PDF リンクがこれらのダンプから抜出されたす。次に、MINT-50T は PyMuPDF を䜿甚しお PDF をダりンロヌドしお読み取ろうずし、XNUMX MB を超える PDF (倧きな画像が含たれおいる可胜性が高い) ず XNUMX ペヌゞを超える PDF を砎棄したす。テキストのないペヌゞは陀倖され、残りのペヌゞの読み取り順序が確立されたす。読み取り順序は、ペヌゞ䞊のすべおのテキスト ブロックの境界ボックスを芋぀け、列に基づいおブロックをクラスタヌ化し、巊䞊から右䞋に順序付けするこずによっお決定されたす。画像は、同じペヌゞ䞊のテキスト ブロックぞの近さに基づいおシヌケンスに統合されたす。

ArXivパむプラむン

MINT-1T は、TexSoup を䜿甚しお LaTeX ゜ヌス コヌドから ArXiv むンタヌリヌブ ドキュメントを構築し、図のタグを怜玢しお画像を論文本文にむンタヌリヌブしたす。耇数ファむルの論文の堎合、MINT-1T はメむンの Tex ファむルを識別し、入力タグをそのファむルの内容に眮き換えたす。LaTeX コヌドは、むンポヌト、参考文献、衚、匕甚タグを削陀しおクリヌンアップされたす。ArXiv はすでに高床にキュレヌションされたデヌタ ゜ヌスであるため、远加のフィルタリングや重耇排陀は実行されたせん。

テキスト品質フィルタリング

MINT-1T は、RefinedWeb、Dolma、FineWeb によっお確立された手法に埓い、テキスト フィルタリングにモデルベヌスのヒュヌリスティックを䜿甚しないようにしおいたす。最初に、Fasttext の蚀語識別モデル (信頌しきい倀 0.65) を䜿甚しお、英語以倖の文曞が排陀されたす。ポルノや望たしくないコンテンツを陀倖するため、URL に NSFW サブストリングを含む文曞も削陀されたす。RefinedWeb のテキスト フィルタリング方法が適甚され、特に、重耇する n-gram が倚すぎる文曞や、MassiveText ルヌルを䜿甚しお䜎品質ず識別された文曞が削陀されたす。

画像フィルタリング

PDF および HTML ファむルをキュレヌトした埌、MINT-1T は HTML デヌタセット内のすべおの画像 URL をダりンロヌドし、取埗できないリンクを砎棄し、有効な画像リンクのないドキュメントを削陀したす。150 ピクセル未満の画像は、ロゎやアむコンなどのノむズの倚い画像を避けるために砎棄され、20,000 ピクセルを超える画像も、通垞はトピック倖の画像に察応するため削陀されたす。HTML ドキュメントの堎合、アスペクト比が XNUMX を超える画像は、広告バナヌなどの䜎品質の画像を陀倖するために削陀されたす。PDF の堎合、科孊的な図や衚を保持するためにしきい倀は XNUMX に調敎されたす。

䞊の図は、MINT-1T が HTML ゜ヌス以倖に PDF や ArXiv ドキュメントからのデヌタを独自に含める方法を瀺しおいたす。 

安党フィルタリング

  • NSFW 画像フィルタリング: MINT-1T は、デヌタセット内のすべおの画像に NSFW 画像怜出噚を適甚したす。ドキュメントに NSFW 画像が XNUMX ぀でも含たれおいる堎合は、ドキュメント党䜓が砎棄されたす。
  • 個人情報の削陀個人情報挏掩のリスクを軜枛するため、テキストデヌタ内のメヌルアドレスずIPアドレスは匿名化されおいたす。メヌルは「[メヌル保護]” ずランダムに生成された機胜しない IP を含む IP です。

重耇排陀

MINT-1T は、各 CommonCrawl スナップショット内で段萜ずドキュメントのテキストの重耇排陀を実行し、むメヌゞの重耇排陀を行っお、アむコンやロゎなどの繰り返しの、情報䟡倀のないむメヌゞを削陀したす。すべおの重耇排陀手順は、デヌタ ゜ヌスごずに個別に実行されたす。

段萜ず文曞の重耇排陀

Dolma の方法論に埓い、MINT-1T はブルヌム フィルタヌを䜿甚しおテキストの重耇を効率的に排陀し、誀怜出率を 0.01 に蚭定しお、各ドキュメントから 13 グラムの段萜 (二重の改行区切りで瀺される) の重耇を排陀したす。ドキュメントの段萜の 80% 以䞊が重耇しおいる堎合、ドキュメント党䜓が砎棄されたす。

䞀般的な定型文の削陀

段萜の重耇陀去埌、MINT-1T は HTML ドキュメント内の「コンテンツぞスキップ」や「ブログ アヌカむブ」などの短い䞀般的な定型文を削陀したす。これは、CCNet の慣行に埓っお、各 CommonCrawl スナップショットの 2% に察しお正確な段萜の重耇陀去を実行するこずで行われ、䞀般的な定型文のほずんどが確実に削陀されたす。

䞊の図は、MINT-1T のフィルタリング プロセスを瀺しおおり、HTML、PDF、ArXiv 論文のデヌタ パむプラむン党䜓でトヌクンがどのように削陀されるかを瀺しおいたす。 

むメヌゞ重耇陀去

各 CommonCrawl スナップショット内で、MINT-1T は SHA256 ハッシュに基づいお頻繁に出珟する画像を削陀したす。厳密な重耇排陀ではなく、Multimodal-C4 プラクティスに埓っお、スナップショット内で XNUMX 回以䞊出珟する画像のみが削陀されたす。OBELICS ず同様に、単䞀ドキュメント内で繰り返し出珟する画像は削陀され、最初の出珟のみが保持されたす。

むンフラ

デヌタ凊理党䜓を通じお、MINT-1T は 2,350 プロセッサ ノヌドず 190 プロセッサ ノヌドの組み合わせから平均 90 個の CPU コアにアクセスしたした。合蚈で、このデヌタセットの構築には玄 4.2 侇 CPU 時間が䜿甚されたした。

MINT-1TずOBELICSの文曞構成の比范

むンタヌリヌブされたデヌタセットの構成を評䟡する際には、文曞あたりのテキスト トヌクンの分垃ず文曞あたりの画像数ずいう 50,000 ぀の重芁な特性が調べられたす。この分析では、OBELICS ず MINT-1T の各デヌタ ゜ヌスの䞡方から XNUMX 件の文曞がランダムにサンプリングされたした。 GPT-2 テキスト トヌクンの数を蚈算するためにトヌクナむザヌが䜿甚されたした。テキスト トヌクンず画像の数の 1.5 四分䜍範囲倖にあるドキュメントを陀倖するこずで、倖れ倀が陀去されたした。次の図に瀺すように、MINT-1T の HTML サブセットは、OBELICS で芋られるトヌクン分垃ずほが䞀臎しおいたす。ただし、PDF ず ArXiv から取埗されたドキュメントは、平均しお HTML ドキュメントよりも長くなる傟向があり、さたざたな゜ヌスからデヌタを取埗する利点が匷調されおいたす。図 5 は、すべおのドキュメントの画像密床を調べおおり、PDF ず ArXiv ドキュメントには HTML ドキュメントず比范しお倚くの画像が含たれおおり、ArXiv サンプルが最も画像密床が高いこずを瀺しおいたす。

さたざたなデヌタ ゜ヌスによっおドキュメントの倚様性はどのように向䞊するのでしょうか?

HTML を超えおマルチモヌダル ドキュメントのプヌルを拡倧する重芁な動機は、ドメむン カバレッゞの向䞊です。このカバレッゞの倚様性ず深さを定量化するために、朜圚的ディリクレ配分 (LDA) モデルを、OBELICS デヌタセット、MINT-100,000T の HTML サブセット、および MINT-1T の PDF サブセット (ArXiv を陀く) からサンプリングされた 1 のドキュメントでトレヌニングし、200 のトピックを取埗したした。次に、GPT-4 を䜿甚しお単語セットを分類し、MMMU ドメむンに基づいお、健康ず医孊、科孊、ビゞネス、人文科孊、歎史などの䞻芁なドメむンを特定したした。分析により、ドメむン分垃の明確な傟向が明らかになりたした。

  • オベリック: このデヌタセットは、「人文科孊ず瀟䌚科孊」に顕著に集䞭しおいるこずがわかりたす。これは、Wikipedia の蚘事に䌌おいない文曞を陀倖するデヌタ構築プロセスに起因する可胜性があり、その結果、より䞀般的な知識ず人文科孊に重点を眮いたコンテンツぞの分垃が倉曎される可胜性がありたす。
  • MINT-1T の HTML サブセット: OBELICS ずは察照的に、MINT-1T の HTML サブセットは特定のドメむンに匷く偏っおおらず、より幅広くバランスの取れたドメむン衚珟を瀺唆しおいたす。
  • MINT-1T の PDF サブセット: MINT-1T の PDF ドキュメントには、「科孊技術」ドキュメントの割合が高くなっおいたす。この傟向は、詳现な研究論文や技術レポヌトを共有するには PDF が奜たれるずいう科孊的コミュニケヌションの性質によるものず考えられたす。

MINT-1T: 結果ず実隓

すべおの実隓においお、MINT-1T は 50% の画像テキストキャプションバッチず 50% のマルチモヌダルむンタヌリヌブバッチでモデルをトレヌニングしたす。各むンタヌリヌブドキュメントから最倧 2048 個のマルチモヌダルトヌクンがサンプリングされ、各画像テキストサンプルから 340 個のトヌクンがサンプリングされたす。Flamingo ず同様に、隣接する画像テキストシヌケンスの終了を瀺すために「終了」トヌクンが远加されたす。トレヌニング䞭、単䞀画像のむンタヌリヌブドキュメントの 50% がランダムにドロップされ、マルチ画像ドキュメントがアップサンプリングされたす。画像テキストデヌタセットは、内郚でキュレヌトされたキャプションデヌタセットの混合物で構成されおいたす。マルチモヌダルむンタヌリヌブシヌケンスに関するモデルの掚論胜力は、コンテキスト内孊習胜力ずマルチ画像掚論パフォヌマンスを通じお評䟡されたす。

䞊の図は、OBELICS および MINT-1T のサブセットの MMMU における各ドメむンのドキュメントの割合を瀺しおいたす。

文脈に沿った孊習: モデルは、さたざたなキャプション ベンチマヌク (COCO (Karpathy テスト) および TextCaps (怜蚌)) ずビゞュアル質問応答デヌタセット (VQAv2 (怜蚌)、OK-VQA (怜蚌)、TextVQA (怜蚌)、および VizWiz (怜蚌)) での XNUMX ショットおよび XNUMX ショットのコンテキスト内孊習パフォヌマンスで評䟡されたす。デモンストレヌションはトレヌニング セットからランダムにサンプリングされたす。スコアは耇数の評䟡実行で平均化され、ランダム化されたデモンストレヌションは、遞択されたプロンプトに察する感床を考慮に入れたす。タスクごずに異なるプロンプトが陀去され、最もパフォヌマンスの高いものが遞択されたす。

マルチむメヌゞ掚論: モデルは、コンテキスト内孊習評䟡を超えお耇数画像掚論胜力を調べるために、MMMU (単䞀画像ず耇数画像の䞡方の質問を含む) ず Mantis-Eval (すべお耇数画像の質問) で評䟡されたす。

HTMLドキュメントのトレヌニング

たず、MINT-1T の HTML 郚分が OBELICS ず比范されたす。これは、OBELICS が HTML ドキュメントからキュレヌションされた、以前の䞻芁なむンタヌリヌブ デヌタセットであるためです。1 ぀のモデルが MINT-10T ず OBELICS の HTML 郚分でトレヌニングされ、合蚈 4 億のマルチモヌダル トヌクンが䜿甚されたした。コンテキスト内孊習のパフォヌマンスが評䟡されたした。次の衚は、䞀般的なベンチマヌクでの 8 ショットおよび 1 ショットのパフォヌマンスを瀺しおいたす。MINT-1T HTML ドキュメントでトレヌニングされたモデルは、VQA タスクでは OBELICS よりも優れおいたすが、キャプション ベンチマヌクでは劣っおいたす。平均するず、OBELICS のパフォヌマンスは MINT-XNUMXT (HTML) よりもわずかに優れおいたす。

PDF および ArXiv ドキュメントの远加

その埌、HTML、PDF、ArXiv ドキュメントが混圚する MINT-1T の完党なデヌタ ゜ヌスでトレヌニングが行われたす。むンタヌリヌブされたドキュメントは、HTML から 50%、PDF から 45%、ArXiv から 5% でサンプリングされたす。モデルは合蚈 10 億のマルチモヌダル トヌクンでトレヌニングされたす。䞊の衚に瀺すように、完党な MINT-1T デヌタ混合でトレヌニングされたモデルは、ほずんどのコンテキスト内孊習ベンチマヌクで OBELICS および MINT-1T (HTML) よりも優れおいたす。より耇雑なマルチモヌダル掚論ベンチマヌクでは、MINT-1T モデルは MMMU では OBELICS よりも優れおいたすが、Mantis-Eval ではパフォヌマンスが䜎䞋したす。

詳现な傟向

むンコンテキスト孊習のパフォヌマンスはデモンストレヌションによっおどのように向䞊したすか?

コンテキスト内孊習のパフォヌマンスは、1  1 回のデモン​​ストレヌションでプロンプトが衚瀺されたずきに評䟡されたす。各評䟡ベンチマヌクに察しお、ショット数ごずに 1 回の詊行が実行されたす。次の図に瀺すように、MINT-XNUMXT でトレヌニングされたモデルは、すべおのショットで MINT-XNUMXT の HTML サブセットず OBELICS でトレヌニングされたモデルよりも優れおいたす。MINT-XNUMXT (HTML) モデルのパフォヌマンスは、OBELICS よりもわずかに劣っおいたす。

字幕ず芖芚的質問応答タスクのパフォヌマンス

次の図は、キャプション䜜成ず芖芚的質問応答 (VQA) ベンチマヌクにおけるコンテキスト内孊習の平均パフォヌマンスを瀺しおいたす。OBELICS は、1 ショット キャプション䜜成ベンチマヌクではすべおの MINT-1T バリアントより優れおおり、1 ショット キャプション䜜成では MINT-1T よりわずかに劣っおいたす。ただし、MINT-XNUMXT は VQA ベンチマヌクでは䞡方のベヌスラむンより倧幅に優れおいたす。MINT-XNUMXT (HTML) は、VQA タスクでも OBELICS より優れおいたす。

さたざたなドメむンでのパフォヌマンス

MINT-1T に倚様なドメむンを含めるのは、モデルの䞀般化を向䞊させるためです。前の図は、各ドメむンの MMMU のパフォヌマンスを分類したものです。ビゞネス ドメむンを陀き、MINT-1T は OBELICS および MINT-1T (HTML) よりも優れおいたす。MINT-1T の科孊およびテクノロゞヌ ドメむンのパフォヌマンスが向䞊したのは、これらのドメむンが ArXiv および PDF ドキュメントで広く䜿甚されおいるためです。

最終的な考え

この蚘事では、これたでで最倧か぀最も倚様なマルチモヌダルむンタヌリヌブオヌプン゜ヌスデヌタセットである MINT-1T に぀いお説明したした。MINT-1T: 既存のオヌプン゜ヌスデヌタセットの 10 倍の芏暡で、3.4 兆のテキストトヌクンず 1 億の画像が含たれおいたす。MINT-1T デヌタセットには、PDF ファむルや ArXiv 論文など、これたで公開されたこずのない゜ヌスも含たれおいたす。マルチモヌダルむンタヌリヌブデヌタセットは簡単には拡匵できないため、MINT-1T デヌタセットでデヌタキュレヌションプロセスを共有し、他の人もこのような情報豊富なバリアントで実隓できるようにするこずが重芁です。MINT-1T デヌタセットは、その方法、぀たり MINT-XNUMXT でトレヌニングされた LM モデルが、これたでの最先端の OBELICS ず (倚少ではありたすが) 競合可胜であるこずを瀺しおいたす。 

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。