人工智能

MINT-1T：扩大开放源码多模态数据的规模10倍

发布于 2024年7月29日

更新于 2026年5月21日

作者

Kunal Kejriwal

MINT-1T: Scaling Open-Source Multimodal Data by 10x

训练大规模的多模态模型（LMMs）需要大规模的数据集，其中包含交错的图像和文本序列。虽然开放源码的LMMs已经迅速发展，但仍然缺乏大规模的多模态交错数据集，这些数据集是开放源码的。这些数据集的重要性不言而喻，因为它们是创建能够理解和生成不同模态内容的高级AI系统的基础。没有足够的综合性和交错的数据集，开发更复杂和更强大的LMMs的潜力将大大降低。这些数据集使得模型能够从多样化的输入中学习，使得它们在各种应用中更加多样化和有效。此外，缺乏这些数据集对开放源码社区来说是一个挑战，开放源码社区依赖于共享的资源来推动创新和合作。

开放源码的LMMs已经取得了显著的进步，但它们的发展受到大规模和交错的数据集的限制。为了克服这个障碍，需要集中努力来策划、注释和发布更多的综合性数据集，以支持多模态模型的持续开发和改进。另外，创建和发布这些数据集需要克服几个技术和后勤上的障碍。数据收集必须是广泛的，并代表LMMs将被部署的多样化的背景。注释需要仔细考虑，以确保交错的图像和文本序列是以增强模型学习能力的方式对齐的。此外，确保数据集是开放源码的，需要解决与数据隐私和使用权相关的法律和道德问题。扩大高质量的大规模多模态交错数据集的可用性对于AI研究和开发的未来至关重要。通过解决当前的稀缺性，AI社区可以促进更大的创新和合作，导致创建更强大和更多样化的LMMs，以解决复杂的现实世界问题。

基于此，MINT-1T是迄今为止最大的和最多样化的多模态交错开放源码数据集。MINT-1T：一个10倍大的规模，包括一万亿文本标记和34亿图像，超过现有的开放源码数据集。MINT-1T数据集还引入了以前未公开的来源，例如PDF文件和ArXiv论文。由于多模态交错数据集不容易扩大，因此MINT-1T数据集共享数据策划过程，以便其他人也可以在这些信息丰富的变体上进行实验。MINT-1T数据集表明，其方法是有效的；在MINT-1T上训练的LM模型与之前的最先进的OBELICS相比具有竞争力（尽管稍微逊色一些）。

MINT-1T：一个包含一万亿标记的多模态数据集

大规模的开放源码预训练数据集对于研究社区来说是探索数据工程和训练透明的开放源码模型至关重要。在文本领域，早期的工作，如C4和The Pile，在使社区能够训练第一批开放源码的大型语言模型（如GPT-J、GPT-Neo等）方面发挥了至关重要的作用。这些基础工作还为后续的数据过滤方法和扩展铺平了道路。同样，在图像-文本空间中，大规模的开放源码数据集也推动了更好的数据策划方法的创新，例如数据过滤网络和T-MARS。可以看到，从前沿实验室到训练大规模多模态模型（LMMs）的转变，这些模型需要大量的多模态交错数据集，包括自由形式的图像和文本序列。随着前沿模型的能力迅速发展，多模态训练数据之间的差距正在扩大，开放源码和封闭源码模型之间的差距也越来越大。当前的开放源码多模态交错数据集比文本数据集小且多样性较低，主要来自HTML文档，这限制了数据的广度和多样性。这一限制阻碍了强大的开放源码LMMs的发展，并在开放源码和封闭源码模型之间造成了差距。

为了解决这一差距，MINT-1T被创建为迄今为止最大的和最多样化的开放源码多模态交错数据集。MINT-1T包含一万亿文本标记和34亿图像，来源于多样化的来源，如HTML、PDF和ArXiv。在MINT-1T之前，开放源码领域中最大的数据集是OBELICS，它包含1150亿文本标记和3.53亿图像，全部来自HTML。

上图代表MINT-1T如何独特地包含来自PDF和ArXiv文档的数据，超出了HTML来源。

MINT-1T：构建数据集

MINT-1T策划了一个大规模的开放源码数据集，利用更多样化的交错文档来源，如PDF和ArXiv论文。本节详细介绍了MINT-1T的方法，用于获取多模态文档、过滤低质量内容、去重数据和移除不安全的内容。最终的数据集包括9220亿（B）HTML标记、106B PDF标记和9B ArXiv标记。

获取大量多模态文档

HTML管道

MINT-1T遵循OBELICS的方法，从CommonCrawl WARC文件中提取交错的多模态文档，通过解析每个WARC条目的DOM树。虽然OBELICS仅处理从2020年2月到2023年2月的CommonCrawl转储文件，但MINT-1T扩大了文档池，包括从2017年5月到2024年4月的HTML文档（从2018年10月到2024年4月的完整转储和早期年份的部分转储）。与OBELICS类似，MINT-1T过滤掉不包含图像、包含超过30个图像或包含不适当子字符串（如logo、avatar、porn和xxx）的文档。

PDF管道

MINT-1T从CommonCrawl WAT文件中获取PDF文档，从2023年2月到2024年4月的转储文件。首先，所有PDF链接都从这些转储文件中提取出来。然后，MINT-1T尝试下载和读取PDF文件，丢弃超过50MB（可能包含大图像）和超过50页长的PDF文件。没有文本的页面被排除，剩余页面的阅读顺序被确定。阅读顺序通过找到所有文本块的边界框，根据列对块进行聚类，并从左上到右下对其进行排序来确定。图像根据其在同一页上的文本块的接近程度被整合到序列中。

ArXiv管道

MINT-1T从LaTeX源代码中构建ArXiv交错文档，使用TexSoup找到图像标签并将图像与论文文本交错。对于多文件论文，MINT-1T识别主TeX文件并用文件内容替换输入标签。LaTeX代码被清理，移除导入、参考文献、表格和引用标签。由于ArXiv已经是一个高度策划的数据源，因此不需要额外的过滤和去重。

文本质量过滤

MINT-1T避免使用基于模型的启发式方法进行文本过滤，遵循RefinedWeb、Dolma和FineWeb的做法。首先，使用Fasttext的语言识别模型（置信度阈值为0.65）排除非英语文档。包含NSFW子字符串的URL的文档也被移除，以排除色情和不想要的内容。应用RefinedWeb的文本过滤方法，特别是移除包含过多重复n-gram或使用MassiveText规则识别为低质量的文档。

图像过滤

在策划PDF和HTML文件后，MINT-1T尝试下载HTML数据集中的所有图像URL，丢弃不可检索的链接和没有有效图像链接的文档。小于150像素的图像被丢弃，以避免噪音图像，如标志和图标，大于20,000像素的图像也被移除，因为它们通常对应于无关图像。对于HTML文档，移除宽高比大于2的图像，以过滤低质量图像，如广告横幅。对于PDF文件，阈值被调整为3，以保留科学图表和表格。

上图代表MINT-1T如何独特地包含来自PDF和ArXiv文档的数据，超出了HTML来源。

安全过滤

NSFW图像过滤：MINT-1T对数据集中的所有图像应用NSFW图像检测器。如果一个文档包含一个NSFW图像，则整个文档被丢弃。
个人可识别信息移除：为了减轻个人数据泄露的风险，文本数据中的电子邮件地址和IP地址被匿名化。电子邮件被替换为模板，如“[email protected]”，IP地址被替换为随机生成的非功能性IP地址。

去重

MINT-1T执行段落和文档文本去重，以及图像去重，以移除重复和无信息的图像，如标志和图标。所有去重步骤都单独针对每个数据源进行。

段落和文档去重

遵循Dolma的方法，MINT-1T使用Bloom Filter进行高效的文本去重，设置假阳性率为0.01，并去重每个文档中的13-gram段落（通过双新行分隔符指示）。如果一个文档的80%以上的段落是重复的，则整个文档被丢弃。

移除常见的模板文本

在段落去重后，MINT-1T从HTML文档中移除短的常见模板句子，如“跳过内容”或“博客存档”。这是通过在每个CommonCrawl快照的2%上运行精确段落去重来实现的，遵循CCNet的做法，确保主要移除常见的模板文本。

上图演示了MINT-1T的过滤过程，并显示了HTML、PDF和ArXiv论文中标记如何在数据管道中被移除。

图像去重

在每个CommonCrawl快照中，MINT-1T根据SHA256哈希值移除频繁出现的图像。与其进行严格去重，不仅移除在快照中出现超过10次的图像，遵循Multimodal-C4的做法。在单个文档中，重复图像被移除，只保留第一次出现的图像，遵循OBELICS的做法。

基础设施

在数据处理过程中，MINT-1T平均使用2350个CPU核心，来自190处理器节点和90处理器节点的混合。总共使用了大约420万CPU小时来构建这个数据集。

比较MINT-1T和OBELICS的文档组成

在评估交错数据集的组成时，有两个关键特征被检查：每个文档的文本标记分布和每个文档的图像数量。对于这个分析，从OBELICS和MINT-1T的每个数据源中随机抽取了50,000个文档。使用GPT-2的标记器来计算文本标记的数量。通过排除文本标记和图像数量超出1.5个四分位数范围的文档来移除异常值。如上图所示，MINT-1T的HTML子集与OBELICS中的标记分布紧密对齐。然而，来自PDF和ArXiv的文档平均而言比HTML文档长，突出了从多样化来源获取数据的益处。图5检查了所有文档中的图像密度，揭示了PDF和ArXiv文档比HTML文档包含更多图像，ArXiv样本是最密集的图像样本。

不同数据源如何改善文档多样性

扩大交错文档池的主要动机是改善领域覆盖。为了量化这种多样性和深度，训练了一个Latent Dirichlet Allocation（LDA）模型，使用从OBELICS数据集、MINT-1T的HTML子集和MINT-1T的PDF子集（不包括ArXiv）中抽取的10万个文档来获得200个主题。然后使用GPT-4对一组词进行分类，以确定主导领域，如健康与医学、科学、商业、人文等，基于MMMU领域。分析揭示了明显的趋势在领域分布中：

OBELICS：该数据集显示出对“人文和社会科学”的明显集中，这可能归因于其数据构建过程，该过程涉及过滤掉不类似维基百科文章的文档，从而可能改变了分布以偏向更一般的知识和人文内容。
MINT-1T的HTML子集：相比之下，MINT-1T的HTML子集并不明显偏向任何特定领域，表明领域代表更广泛和更平衡。
MINT-1T的PDF子集：MINT-1T的PDF文档中，“科学和技术”类文档的比例更高，这可能是由于科学领域中PDF是首选的格式，用于分享详细的研究论文和技术报告。

MINT-1T：结果和实验

对于所有实验，MINT-1T都在50%的图像-文本标注批次和50%的多模态交错批次上训练模型。从每个交错文档中最多采样2048个多模态标记，从每个图像-文本样本中采样340个标记。类似于Flamingo，在每个相邻图像-文本序列的末尾添加一个“结束”标记。在训练期间，50%的单图像交错文档被随机丢弃，以过采样多图像文档。图像-文本数据集由内部策划的标注数据集混合而成。模型的能力被评估为其在上下文学习能力和多图像推理性能方面的表现。

上图显示了MMMU中每个领域的文档百分比，分别来自OBELICS和MINT-1T的子集。

上下文学习：模型在四次和八次上下文学习性能上被评估，使用来自训练集的随机抽样的示例。评分被平均化，多次评估运行，随机示例被选择，以考虑对所选提示的敏感性。对于每个任务，进行了消融实验，以选择最好的执行提示。

多图像推理：模型被评估在MMMU（包含单图像和多图像问题）和Mantis-Eval（所有多图像问题）上，以探索超出上下文学习评估的多图像推理能力。

在HTML文档上训练

最初，MINT-1T的HTML部分被比较为OBELICS，因为OBELICS是之前的领先交错数据集，也是从HTML文档中策划的。两个模型在MINT-1T的HTML部分和OBELICS上被训练，总共10B多模态标记。它们的上下文学习性能被评估。下表显示了四次和八次的性能，分别在常见基准上；在VQA任务上，MINT-1T的HTML部分训练的模型比OBELICS表现更好，但在标注基准上表现更差。平均而言，OBELICS在大多数任务上略微优于MINT-1T（HTML）。

添加PDF和ArXiv文档

随后，训练在MINT-1T的全部数据源上进行，包括HTML、PDF和ArXiv文档的混合。交错文档从HTML、PDF和ArXiv中分别采样50%、45%和5%。模型被训练10B多模态标记。如上表所示，在全部MINT-1T数据混合上训练的模型在大多数上下文学习基准上优于OBELICS和MINT-1T（HTML）。在更复杂的多模态推理基准上，MINT-1T模型在MMMU上优于OBELICS，但在Mantis-Eval上表现更差。

细粒度趋势

上下文学习性能如何随着示例的增加而扩展

上下文学习性能被评估，当模型被提示一个到八个示例时。对于每个评估基准，运行一个单次试验。如图所示，在MINT-1T上训练的模型在所有射击次数上都优于在OBELICS和MINT-1T（HTML）上训练的模型。MINT-1T（HTML）模型的性能略微低于OBELICS。

在标注和视觉问答任务上的性能

下图显示了在标注和视觉问答（VQA）基准上的平均上下文学习性能。OBELICS在四次标注基准上优于所有MINT-1T变体，但在八次标注基准上略微低于MINT-1T。然而，MINT-1T在VQA基准上显著优于OBELICS和MINT-1T（HTML）。MINT-1T（HTML）也在VQA任务上优于OBELICS。

在不同领域上的性能

MINT-1T中包含多样化领域的目的是为了提高模型的泛化能力。之前的图表将MMMU上的性能分解为每个领域。除了商业领域外，MINT-1T在所有领域上都优于OBELICS和MINT-1T（HTML）。在科学和技术领域上的性能提高归因于ArXiv和PDF文档中的这些领域的普遍性。

最后的思考

在本文中，我们讨论了MINT-1T，它是迄今为止最大的和最多样化的多模态交错开放源码数据集。MINT-1T：一个10倍大的规模，包括一万亿文本标记和34亿图像，超过现有的开放源码数据集。MINT-1T数据集还引入了以前未公开的来源，例如PDF文件和ArXiv论文。由于多模态交错数据集不容易扩大，因此MINT-1T数据集共享数据策划过程，以便其他人也可以在这些信息丰富的变体上进行实验。MINT-1T数据集表明，其方法是有效的；在MINT-1T上训练的LM模型与之前的最先进的OBELICS相比具有竞争力（尽管稍微逊色一些）。