Connect with us

Unite.AI

Kunal Kejriwal Kunal Kejriwal

专业为工程师，心为作家。 Kunal是一名技术作家，对AI和ML有着深厚的热爱和理解，致力于通过其引人入胜和信息丰富的文档来简化这些领域中的复杂概念。

最新文章

人工智能 2026年1月19日

Vertex AI 简介

鉴于人工智能领域的快速发展，技术领导者经常面临的一个重大挑战是从“实验性”转变为“企业级”。虽然消费者聊天机器人和交互式平台有助于提高公众的想象力，但仅凭聊天界面，企业无法成功。在竞争日益激烈的时代，企业需要一个强大、可扩展和安全的生态系统，这就是谷歌试图通过 Vertex AI 提供的，谷歌云的统一人工智能和机器学习平台。Vertex AI 尝试巩固自己作为现代云基础设施中生成式人工智能集成的骨干，提供了一套全面功能，弥合了原始基础模型和生产级应用之间的差距。Vertex AI 不仅仅是一个大型语言模型的包装，而是一个统一的机器学习和人工智能（ML/AI）生态系统，它将生成式人工智能视为现代云基础设施的第一类公民。在 Vertex AI 的核心是模型花园，一个提供了 200 多个精选基础模型的中央市场，包括具有 2 百万令牌上下文窗口的多模态强大模型 Gemini 2.5 Pro。在本文中，我们将解析 Vertex AI 的架构，探索模型花园如何作为行业的“应用商店”为智能提供服务，并研究使该平台成为下一代企业软件骨干的技术支柱。核心架构：统一平台Vertex AI 不是一个松散耦合的工具集合，而是一个设计用于弥合机器学习中至今仍存在的数据、工具和团队碎片化的统一数据和人工智能生态系统。传统上，人工智能开发发生在孤立的环境中，有时数据会分散在多个存储库中。例如，组织可能将客户数据存储在 SQL 仓库中，而未结构化的文档则被转储到数据湖中。当数据被隔离时，人工智能只能看到“部分真相”，导致偏差结果或高幻觉率，因为它缺乏对企业的完整上下文。Vertex...
人工智能 2024年10月11日

SHOW-O：一个统一的Transformer，整合多模态理解和生成

近年来，大型语言模型（LLM）取得了显著的进步，这也激发了多模态大型语言模型（MLLM）的发展。早期的MLLM努力，如LLaVA、MiniGPT-4和InstructBLIP，展示了显著的多模态理解能力。为了将LLM集成到多模态领域，这些研究探索了将预训练的模态特定编码器（如CLIP）的特征投影到LLM的输入空间中，从而实现多模态理解和推理在Transformer骨架中。尽管MLLM有各种设计选择，例如视觉编码器、特征对齐适配器和数据集，但大多数模型的训练都遵循自回归生成范式，这已被证明对文本生成有效。尽管这些模型具有强大的多模态理解能力，但它们主要专注于视觉感知，缺乏生成多模态输出的能力，超出文本范围。Transformer模型在自回归建模中取得了巨大的成功。在自然语言处理中，这种进步的灵感促使前人的研究直接将相同的自回归建模应用于学习图像像素的依赖关系，以生成图像和视频。例如，VideoPoet采用解码器仅Transformer架构来合成高质量的视频，从多模态输入中。最近，LlamaGen表明，大型语言模型架构，如Llama，可以自回归地对图像令牌进行建模，实现了不错的类条件图像生成性能。在本文中，我们将讨论Show-O，一个统一的Transformer，它整合了多模态理解和生成。与完全自回归模型不同，Show-O统一了自回归和离散扩散建模，以适应性地处理各种和混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务，包括视觉问答、文本到图像生成、文本引导的填补/外推和混合模态生成。在各种基准测试中，Show-O展示了与现有个体模型相比具有可比性或更好的性能，具有相同或更大的参数数量，突出了其作为下一代基础模型的潜力。在这个框架中，模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下，其他模型，如D3PM、Mask-predict、ARDM和MaskGIT，使用离散腐蚀过程作为高斯扩散的替代。具体来说，图像被表示为一系列离散令牌，使用图像令牌器，每个令牌都与一个分类标签相关联。令牌的分布被转换为均匀分布，通过一个随机采样过程。在训练过程中，这些令牌中的一个部分被随机掩蔽，模型被训练为预测掩蔽令牌的原始值。在这项工作中，Show-O采用离散扩散建模进行视觉生成。SHOW-O：统一多模态理解和生成过去几年中，多模态智能的两个关键支柱——理解和生成——取得了显著的进步。对于多模态理解，多模态大型语言模型（MLLM）如LLaVA，展示了在视觉问答（VQA）等视觉语言任务中具有显著的能力。对于视觉生成，去噪扩散概率模型（DDPM）革新了传统的生成范式，在文本到图像/视频生成中取得了前所未有的性能。考虑到这些成就，探索连接它们的潜力是自然的。最近的工作尝试将来自这两个不同领域的专家模型组装成一个统一的系统，以处理多模态理解和生成。然而，现有的尝试通常涉及单独的理解和生成模型。例如，NExT-GPT采用基础语言模型进行多模态理解，但需要额外的预训练扩散模型进行图像生成。这引发了一个问题：一个单一的Transformer是否可以处理多模态理解和生成？最近，Chameleon证明了这是可能的。具体来说，Chameleon使得不同模态的融合成为可能，以生成文本和图像令牌，通过自回归建模。虽然以自回归方式建模文本令牌是有意义的，但不清楚是否以相同的方式建模图像块或像素是最优的。自回归预测图像的主要瓶颈是需要大量的采样步骤，特别是在处理更高分辨率图像时。连续扩散模型在视觉生成中比自回归模型表现更好。这导致我们探索是否可以将自回归和扩散建模集成到一个单一的Transformer中。Show-O设想了一个新的范式，其中文本被表示为离散令牌，通过自回归建模，而连续图像像素则使用去噪扩散建模。然而，将这两种不同的技术集成到一个网络中并非易事，主要是由于离散文本令牌和连续图像表示之间的差异。另外，扩散模型通常依赖于两个不同的模型：文本编码器和去噪网络。为了解决这个问题，Show-O引入了一种新的统一模型，能够处理多模态理解和生成任务，使用混合自回归和扩散建模。Show-O建立在预训练LLM的基础上，利用其自回归建模能力进行基于文本的推理。受其他工作的启发，Show-O采用离散去噪扩散来对图像令牌进行建模，而不是连续表示。此外，Show-O固有地编码文本条件信息，消除了对额外文本编码器的需求。通过使用文本和图像令牌器，Show-O可以处理多种输入数据和任务，提供对视觉语言任务的答案，并使用离散去噪扩散生成图像。Show-O在多个基准测试中展示了与个体模型相比具有可比性或更好的性能，具有相同或更大的参数数量。与自回归图像生成相比，Show-O框架需要大约20倍较少的采样步骤，使其固有地更快。此外，Show-O框架支持下游应用，如文本引导的填补和外推，无需微调，如下图所示。Show-O还具有混合模态生成的潜力，例如视频关键帧生成与文本描述交错，显示出对长视频生成的前景。此外，Show-O框架研究了离散和连续图像表示对多模态理解的影响，提供了对未来统一模型设计的见解。以下图表展示了Show-O框架与现有方法在各个领域的模型特征比较。Show-O作为一个统一模型，整合了多模态理解和生成的先进技术。总之，本文的主要贡献如下： Show-O是一个统一模型，整合多模态理解和生成，使用单一Transformer。 Show-O统一了自回归和离散扩散建模，在一个Transformer中，有效地处理文本和图像。 Show-O框架在多模态理解和生成基准测试中表现出色，与个体基线模型具有可比性或更好的性能，具有相同或更大的参数数量。 Show-O支持下游应用，如文本引导的填补和外推，无需微调，并展示了混合模态生成的潜力。 Show-O探索了不同类型的表示，提供了对多模态理解的改进见解。近年来，越来越多的研究专注于能够同时进行理解和生成的统一多模态语言模型。一些努力使用连续表示与文本令牌交错的自回归建模来生成图像。SEED-X提出了一种统一和多功能的基础系统，能够处理多模态理解和生成任务。在这种方法中，CLIP ViT编码器的连续图像表示与文本令牌结合，输入到大型语言模型（LLM）中，进行下一个单词预测和图像表示回归。Chameleon引入了一系列基于令牌的混合模态模型，能够同时理解和生成图像。这种方法将所有模态表示为离散令牌，使用统一的Transformer架构，并从头开始以端到端的方式训练模型。相比之下，Show-O也采用离散令牌来表示所有模态，但使用离散扩散过程代替自回归建模进行视觉生成。SHOW-O：方法和架构Show-O框架的主要目标是开发一个统一模型，整合自回归和扩散建模，用于联合多模态理解和生成。开发这样的统一模型带来了显著的挑战，核心问题围绕着：i）定义模型的输入/输出空间；ii）统一来自不同模态的各种类型的输入数据；iii）将自回归和扩散建模集成到单一Transformer中；iv）有效地训练这样的统一模型。Show-O通过以下解决方案解决这些挑战： Show-O通过对文本和图像数据进行令牌化，构建输入/输出空间。 Show-O引入了默认架构和统一提示策略，以结构化输入数据和模态。 Show-O展示了如何在单一Transformer中集成自回归和扩散建模。 Show-O提出了一种三阶段训练流程，有效地训练统一模型。令牌化鉴于提出的Show-O建立在预训练LLM的基础上，因此在离散空间中进行统一学习是自然的。通过维持一个包含离散文本和图像令牌的统一词汇表，Show-O的任务是预测离散令牌。文本令牌化Show-O基于预训练LLM，对文本数据进行令牌化，没有任何修改。图像令牌化遵循MAGVIT-v2，Show-O使用大约35M图像数据训练一个无查找量化器。量化器维持一个大小为8,192的代码簿，并将256×256分辨率的图像编码为16×16离散令牌。MAGVIT-v2被选中，因为其易于微调，使其适合作为具有时间压缩能力的视频令牌器，这是Show-O计划在未来探索的方面。另一种方法是使用不同的令牌器进行理解和生成。受现有研究的启发，Show-O还从预训练的MAGVIT-v2和CLIP-ViT编码器中提取连续图像表示，以探索多模态理解能力的改进。在以下章节中，默认的Show-O采用离散图像令牌作为输入，用于多模态理解和生成。架构Show-O继承了现有LLM的架构，没有任何架构修改，除了在每个注意力层前添加一个QK-Norm操作。Show-O使用预训练LLM的权重初始化，并通过纳入8,192个新的可学习嵌入（用于离散图像令牌）来扩大嵌入层的大小。与最先进的扩散模型不同，后者需要额外的文本编码器，Show-O固有地编码文本条件信息，用于文本到图像生成。统一提示为了在多模态理解和生成上进行统一学习，Show-O利用统一提示策略来格式化各种输入数据。给定一个图像-文本对（x, y），它首先被图像和文本令牌器分解为M个图像令牌和N个文本令牌。然后，令牌被形成为一个输入序列，根据任务类型，如下图所示。通过采用这种提示设计，Show-O可以有效地对多模态理解、文本到图像生成和混合模态生成的各种输入数据进行编码。这种设置使得统一学习可以在这些任务的序列上无缝地运行。一旦训练完成，Show-O可以被提示处理广泛的视觉语言任务，包括视觉问答和文本到图像生成。全注意力机制与现有工作不同，仅自回归地对序列进行建模，Show-O引入了全注意力机制，使其能够以不同的方式对各种类型的信号进行建模。这种全面的注意力机制可以根据输入序列的格式自适应地在因果注意力和全注意力之间切换。下图展示了不同输入序列的全注意力示例。具体来说，Show-O通过因果注意力处理序列中的文本令牌，而图像令牌则使用全注意力处理，使得每个令牌都可以与所有其他令牌进行全面交互。在多模态理解中，文本令牌可以关注所有先前的图像令牌，而在文本到图像生成中，图像令牌可以与所有先前的文本令牌交互。全注意力机制保留了预训练LLM的文本推理知识，并通过减少采样步骤提高了图像生成的效率。此外，它支持各种下游应用，如填补和外推，无需微调。当仅给出文本令牌时，机制默认为因果注意力。SHOW-O：实验和结果以下表格展示了Show-O在公共基准测试中的多模态理解能力，例如图像字幕和视觉问答任务。当前版本的Show-O建立在Phi-1.5的基础上，因此Show-O的理解仅对应物，LLaVA-v1.5-Phi-1.5，作为直接基线。Show-O在所有评估指标中表现出与LLaVA-v1.5-Phi-1.5相似的性能，后者专门用于多模态理解。这表明Show-O框架具有统一多模态理解和生成的巨大潜力。在与仅理解模型（如InstructBLIP、Qwen-VL-Chat和mPLUG-Owl2）进行比较时，Show-O尽管具有更小的模型大小，但在POPE、MME、Flickr30k和VQAv2基准测试中取得了可比性的性能，在GQA基准测试中表现更好。当与具有显著更多参数的统一模型（如NExT-GPT-13B和Chameleon-34B）进行比较时，Show-O也在Flickr30k基准测试中取得了强劲的性能，在VQAv2基准测试中表现更好。考虑到这些有希望的结果，Show-O被视为潜在的下一代基础模型，以统一理解和生成。这些结果还表明了扩大Show-O以达到最先进性能的潜力。定性比较我们展示了与扩散模型（如SDv1.5、SDXL）和自回归模型（如LlamaGen）以及统一模型（如LWM和SEED-X）的定性比较，如下图所示。Show-O展示了生成真实图像的能力，图像内容在短文本和长文本提示中保持一致。与SDv1.5和LlamaGen相比，Show-O表现出更好的视觉质量和更强的图像-文本对齐。例如，在第二列中，SDv1.5和LlamaGen都未能完全理解文本提示，缺少了“日落”和“蓝色圆顶”等属性。在与SDXL的比较中，Show-O提供了可比的视觉质量和对齐，如“拉力赛”和“令人惊叹的对比与鲜艳的日落”等例子所示。文本引导的填补和外推 Show-O天然地支持文本引导的填补和外推，无需任何微调。以下图表展示了几个例子。在图表的顶部，给定一个输入图像和一个填补掩码，Show-O可以将红色手推车转换为蓝色跑车，具有流线型曲线和色调窗户，基于用户提供的文本提示。Show-O还可以根据给定的文本提示水平或垂直地外推原始图像。例如，在第二行中，Show-O外推图像，添加新的对象，如“红色野花”。填补和外推区域中的像素保持与原始图像的一致性。这些例子清晰地展示了Show-O相对于自回归模型在下游应用中的固有优势。最后的思考在本文中，我们讨论了Show-O，一个统一的Transformer，整合了多模态理解和生成。与完全自回归模型不同，Show-O统一了自回归和离散扩散建模，以适应性地处理各种和混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务，包括视觉问答、文本到图像生成、文本引导的填补/外推和混合模态生成。在各种基准测试中，Show-O展示了与现有个体模型相比具有可比性或更好的性能，具有相同或更大的参数数量，突出了其作为下一代基础模型的潜力。在这个框架中，模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下，其他模型，如D3PM、Mask-predict、ARDM和MaskGIT，使用离散腐蚀过程作为高斯扩散的替代。Show-O是第一个统一自回归和离散扩散建模的模型，能够以不同的方式处理不同的模态。广泛的实验结果表明，Show-O在广泛的视觉语言任务中表现出与个体专家模型相比具有可比性或更好的性能，突出了其作为下一代基础模型的潜力。
人工智能 2024年9月10日

EAGLE：使用编码器混合探索多模态大语言模型的设计空间

多模态大语言模型（MLLMs）准确解释复杂视觉信息的能力是一个关键的焦点。最近的工作表明，增强视觉感知可以显著减少幻觉并提高分辨率敏感任务（如光学字符识别和文档分析）的性能。几种最近的MLLMs通过利用编码器的混合来实现这一点。尽管它们取得了成功，但仍缺乏对关键方面（如专家选择和多个视觉专家的集成）的系统性比较和详细的消融研究。这篇文章对使用编码器混合的MLLMs的设计空间进行了广泛的探索，介绍了Eagle框架，该框架尝试使用编码器混合来探索多模态大语言模型的设计空间。研究结果揭示了各种现有策略中的几个基本原则，导致了一种简化但有效的设计方法。Eagle发现，简单地从一组互补的视觉编码器中连接视觉令牌与更复杂的混合架构或策略一样有效。另外，Eagle引入了预对齐来弥合视觉专注的编码器和语言令牌之间的差距，提高了模型的连贯性。所得到的MLLMs家族，Eagle，超过了其他领先的开源模型在主要的MLLM基准测试中。Eagle的工作与多模态大语言模型（MLLMs）的总体架构设计有关。除了之前提到的代表性开源研究之外，其他著名的MLLMs家族包括MiniGPT-4、Lynx、Otter、QwenVL、CogVLM、VILA、GPT-4V、Gemini和Llama 3.1。根据视觉信号如何集成到语言模型中，MLLMs可以大致分为“跨模态注意力”模型和“前缀调优”模型。前者使用跨模态注意力将视觉信息注入到LLMs的不同层中，而后者将视觉令牌视为语言令牌序列的一部分，并直接将其附加到文本嵌入中。Eagle的模型属于前缀调优家族，遵循LLaVA风格的多模态架构。考虑到MLLM是一个快速发展的领域，Eagle建议参考更详细的研究和调查以获取更多见解。Eagle的工作与专注于提高MLLMs的视觉编码器设计的研究密切相关。早期工作通常采用预训练的视觉语言对齐任务（如CLIP和EVA-CLIP）的视觉编码器。更强大的视觉编码器（如SigLIP和InternVL）已被提出，以更好的设计、更大的模型大小和更有效的训练配方来增强视觉语言任务。由于模型通常在低分辨率图像上预训练，可能缺乏编码细节的能力，因此经常执行更高分辨率的适应来增加MLLM的输入分辨率。除了更高分辨率的适应之外，像LLaVA-NeXT、LLaVA-UHD、Monkey、InternLM-XComposer和InternVL这样的模型使用分块或自适应分块来处理高分辨率输入，其中图像被分成低分辨率的块并单独处理。虽然处理更高分辨率的能力是通过引入额外的视觉专家实现的，但这种方法与分块技术略有不同，尽管两者兼容且可以组合。EAGLE：使用编码器混合探索多模态LLMs的设计空间大语言模型（LLMs）的成功引发了人们对使其具有视觉感知能力的兴趣，使其能够在现实世界中看到、理解和推理。这些多模态大语言模型（MLLMs）的核心是一个典型的设计，其中图像被转换为一系列视觉令牌，由视觉编码器完成，并附加到文本嵌入中。CLIP通常被选为视觉编码器，因为其视觉表示与文本空间通过预训练在图像-文本对上对齐。根据架构、训练配方和视觉令牌注入语言模型的方式，著名的MLLMs家族包括Flamingo、BLIP、PaLI、PaLM-E和LLaVA。这些模型大多保持相对较低的输入分辨率，这是由于预训练的视觉编码器和LLMs序列长度的限制。Eagle的工作与使用多个视觉编码器来提高感知能力的模型密切相关。Mini-Gemini和LLaVA-HR提出融合高分辨率视觉特征到低分辨率视觉令牌中。除了分辨率问题外，这些预训练的视觉编码器可能缺乏特定的能力，例如阅读文本或定位对象。为了解决这个问题，各种模型集成了预训练在不同视觉任务上的视觉编码器，以增强视觉编码器的能力。例如，像Mousi和Brave这样的模型通过沿着通道或令牌方向连接来自不同视觉编码器的视觉令牌来融合它们。RADIO引入了一种多教师蒸馏方法来统一不同视觉编码器的能力到一个单一模型中。MoAI、IVE和Prismer进一步使用视觉专家的输出（如OCR、检测或深度估计）来为MLLMs生成答案提供额外的信息。MoVA设计了一个路由网络来根据给定的图像和指令分配一个最优的视觉模型。最近的研究表明，更强大的视觉编码器设计对于减少MLLMs的幻觉和提高分辨率敏感任务（如光学字符识别（OCR））的性能至关重要。几项工作专注于增强视觉编码器的能力，或者通过扩大预训练数据和参数，或者通过将图像划分为低分辨率的块。然而，这些方法通常引入了大量的训练资源需求。一个有效且强大的策略是混合预训练在不同任务和输入分辨率上的视觉编码器，或者通过融合更高分辨率的编码器与CLIP编码器，或者采用更复杂的融合和路由策略来最大化不同编码器的优势。这种“视觉专家混合”方法已经被证明是有效的，尽管对其设计空间的详细研究和严格的消融仍然缺乏，这激发了Eagle重新审视这一领域。关键问题仍然存在：哪些视觉编码器组合应该选择，如何融合不同的专家，以及如何调整训练策略以适应更多的视觉编码器。为了解决这些问题，Eagle系统地调查了使用编码器混合来提高MLLMs感知的设计空间。这种设计空间的探索包括以下步骤：1）基准测试各种视觉编码器并搜索更高分辨率的适应；2）进行“苹果对苹果”的比较来比较视觉编码器融合策略；3）逐渐识别多个视觉编码器的最优组合；4）提高视觉专家预对齐和数据混合。这些探索步骤在以下图中进行了说明。Eagle的研究涵盖了预训练在不同任务和分辨率上的视觉编码器的性能，例如视觉语言对齐、自监督学习、检测、分割和OCR。使用轮流方法，Eagle从基本的CLIP编码器开始，并每次添加一个额外的专家，选择每轮中提供最佳改进的专家。虽然Eagle的工作并不是第一个在MLLMs中利用多个视觉编码器的工作，但系统性的研究导致了以下关键发现：解锁视觉编码器在MLLMs训练期间很重要。这与像LLaVA这样的模型不同，后者考虑多个视觉编码器或教师，在这些模型中，冻结视觉编码器是一种常见的做法。一些最近提出的融合策略并没有显示出显著的优势。相反，直接的通道连接出现为一种简单但具有竞争力的融合策略，提供了最佳的效率和性能。集成额外的视觉专家带来了一致的收益。这使得它成为系统地增强MLLMs感知的一个有前途的途径，除了扩大单个编码器的规模。这种改进在视觉编码器解锁时尤其明显。预对齐阶段至关重要。Eagle引入了一个预对齐阶段，其中非文本对齐的视觉专家在冻结的LLMs之前被单独微调。这一阶段显著地提高了MLLMs在视觉编码器混合设计下的性能。 Eagle：方法论和架构与之前专注于新型融合策略或架构的方法不同，Eagle的目标是识别一种最小化的设计来融合不同的视觉编码器，支持详细的消融和移除任何不必要的组件。如以下图所示，Eagle从扩展基本的CLIP编码器到一组具有不同架构、预训练任务和分辨率的视觉专家开始。使用这些专家，Eagle然后比较不同的融合架构和方法，并探索如何优化多个编码器的预训练策略。最后，Eagle结合了所有的发现，并将这种方法扩展到具有不同分辨率和领域知识的多个视觉编码器。使用与LLaVA-1.5相同的预训练数据，Eagle转移到了有监督的微调阶段，通过收集一系列任务并将它们转换为多模态对话，包括LLaVA-1.5、Laion-GPT4V、ShareGPT-4V、DocVQA、synDog-EN、ChartQA、DVQA和AI2D，结果为934k个样本。模型首先使用图像-文本对预训练一个epoch，批量大小为256，在此过程中整个模型被冻结，只更新了投影层。在第二阶段，模型在有监督的微调数据上微调一个epoch，批量大小为128。对于这次探索，Eagle使用Vicuna-7B作为底层语言模型。学习率分别设置为1e-3和2e-5。更强大的CLIP编码器Eagle从CLIP模型开始探索，因为CLIP已经成为许多MLLMs的主要选择。虽然CLIP模型能够增强多模态任务，但其局限性也已被充分记录。例如，许多现有的MLLMs倾向于使用预训练的CLIP分辨率（如224 × 224或336 × 336）作为其输入分辨率。在这些情况下，编码器通常难以捕获对分辨率敏感任务（如OCR和文档理解）重要的细节。为了处理更高的输入分辨率，一个常见的方法是分块，其中输入图像被分成块并单独编码。另一种更简单的方法是直接将输入分辨率扩大并插入视觉变换器模型的位置嵌入（如果必要）。Eagle比较了这些方法，结果如下所示：解锁CLIP编码器在提高MLLM输入分辨率时带来显著的改进，而不降低性能，当分辨率保持不变时。冻结CLIP编码器并直接适应更高的MLLM输入分辨率显著损害性能。在比较的策略中，直接插入到448 × 448并解锁CLIP编码器被证明是有效且高效的，考虑到性能和成本。最好的CLIP编码器实现了与InternVL类似的性能，尽管它是一个更小的模型（300M vs. 6B），具有更少的预训练数据。 Eagle：实验和结果在精心开发了其策略之后，Eagle已经确立了以下原则：（1）集成更多的视觉专家，并优化训练配方；（2）通过直接的通道连接来组合多个视觉专家；（3）通过预对齐来预训练视觉专家。为了进一步展示Eagle模型的优势，本节中加入了额外的训练数据，并将Eagle与当前的最先进的MLLMs进行比较，跨越各种任务。Eagle使用Vicuna-v1.5-7B、Llama3-8B和Vicuna-v1.5-13B作为语言模型。对于视觉编码器，基于第2.6节的结果，Eagle模型被标记为Eagle-X4，包括四个视觉编码器：CLIP、ConvNeXt、Pix2Struct和EVA-02，以及Eagle-X5，包括一个额外的SAM视觉编码器。视觉问答任务Eagle在三个视觉问答（VQA）基准测试中比较了模型系列，包括GQA、VQAv2和VizWiz。如以下表所示，Eagle-X5在GQA和VQAv2上实现了最先进的性能，突出了集成额外视觉专家的优势。OCR和图表理解任务为了评估Eagle的OCR、文档和图表理解能力，模型被基准测试在OCRBench、TextVQA和ChartQA上。如上表所示，Eagle在TextVQA上显著超过了竞争对手，得益于其高分辨率架构和集成的不同视觉编码器。值得注意的是，Eagle保持了一个简单的设计，支持最多1024个令牌，而无需复杂的图像分块。以下图显示了OCR和文档理解的示例。通过高分辨率适应和集成更多的视觉专家，Eagle可以识别图像中的小文本，并根据用户指令准确提取信息。多模态基准测试评估Eagle在七个基准测试中被评估，以展示其从不同角度的能力，包括MME、MMBench、SEED、MathVista、MMMU、ScienceQA和POPE。具体来说，MME、MMBench和SEED评估了在涉及推理、识别、知识和OCR的各种现实世界任务上的整体性能。MMMU关注来自不同领域需要大学水平知识的具有挑战性的问题。POPE评估了MLLMs的视觉幻觉。使用的指标遵循这些基准测试的默认设置。Eagle报告了MME的感知分数、MMBench的en_dev分割、SEED的图像分割、MathVista的test-mini分割、MMMU的val分割、POPE的F1分数和ScienceQA的图像分数，以确保与其他模型报告的分数一致。最后的思考在这篇文章中，我们讨论了Eagle，一种对多模态大语言模型中集成视觉编码器的设计空间的深入分析。与之前的工作不同，Eagle发现系统性的设计选择很重要，并发现了一系列有用的技术。逐步地，Eagle优化了个别视觉编码器的训练配方，识别了一个可扩展且高效的融合方法，并逐渐将视觉编码器与不同的领域知识结合起来。结果强调了基本的设计空间考虑的关键重要性。
人工智能 2024年9月9日

Sapiens：人类视觉模型的突破

大规模预训练加上特定任务的微调已经成为语言建模的标准做法。同样，计算机视觉方法也逐渐接受了大规模数据的预训练。随着LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome和YFCC100M等大型数据集的出现，人们可以探索传统基准之外的数据。这个领域的重要工作包括DINOv2、MAWS和AIM。DINOv2通过在LDV-142M数据集上扩展对比性iBot方法，实现了自监督特征生成的最先进性能。MAWS研究了在十亿图像上扩展掩码自动编码器（MAE）的可扩展性。AIM探索了类似于BERT的自回归视觉预训练的可扩展性。相比之下，Sapiens采取了一个明显的人为中心方法：Sapiens的模型利用大量的人类图像进行预训练，然后对一系列人类相关任务进行微调。追求大规模3D人类数字化仍然是计算机视觉中的一个关键目标。在受控或工作室环境中已经取得了显著的进展，但在扩展这些方法到无约束环境时仍然存在挑战。为了解决这些挑战，开发能够执行多个基本任务的通用模型（如关键点估计、身体部位分割、深度估计和表面法线预测）至关重要。Sapiens的目标是开发能够推广到野外环境的模型，以执行这些基本的人类视觉任务。目前，最大公开语言模型包含超过100B参数，而更常用的语言模型包含大约7B参数。相比之下，尽管具有相似的架构，视觉变换器（ViT）尚未扩展到这一程度。虽然有一些值得注意的努力，包括开发了一个在文本和图像上训练的密集ViT-4B，以及稳定训练ViT-22B的技术，但常用的视觉骨干网络参数数量通常在300M到600M之间，主要是在224像素的图像分辨率上预训练的。同样，现有的基于变换器的图像生成模型（如DiT）使用的参数少于700M，并且在高度压缩的潜在空间中运行。为了解决这一差距，Sapiens引入了一系列大型、高分辨率的ViT模型，这些模型本身就是在1024像素图像分辨率上预训练的，使用数百万张人类图像。Sapiens提出了一系列模型，用于四个基本的人类中心视觉任务：2D姿势估计、身体部位分割、深度估计和表面法线预测。Sapiens模型本身支持1K高分辨率推理，并且可以通过简单地对超过3亿张野外人类图像进行预训练来轻松适应个别任务。Sapiens观察到，假设计算预算相同，在人类图像的精心策划的数据集上进行自监督预训练显著提高了多种人类中心任务的性能。所得到的模型表现出对野外数据的显著推广能力，即使标记数据稀缺或完全合成。简单的模型设计也带来了可扩展性——模型性能在任务中随着参数数量从0.3到20亿的增加而提高。Sapiens在各种人类中心基准测试中始终超过现有的基准，取得了显著的改进，超过了以前的最先进结果：Humans-5K（姿势）上的7.6 mAP，Humans-2K（部分分割）上的17.1 mIoU，Hi4D（深度）上的22.4％的相对RMSE，和THuman2（法线）上的53.5％的相对角度误差。Sapiens：人类视觉模型的突破近年来，生成逼真的人类图像（2D和3D）取得了显著进展。这些方法的成功在很大程度上归功于对各种资产（如2D关键点、细粒度身体部位分割、深度和表面法线）的强大估计。然而，准确估计这些资产仍然是一个活跃的研究领域，复杂的系统往往会阻碍更广泛的采用。此外，在野外环境中获得准确的ground-truth注释非常困难。Sapiens的目标是为这些资产提供一个统一的框架和模型，以便在野外环境中推断这些资产，解锁人类中心应用程序的广泛可能性。Sapiens认为，这样的以人类为中心的模型应该满足三个标准：推广、广泛适用性和高保真度。推广确保模型在未见条件下保持稳健，能够在各种环境中一致地执行。广泛适用性表明模型的多功能性，使其适用于广泛的任务，仅需最小的修改。高保真度表示模型能够产生精确、高分辨率的输出，对于忠实的人类生成任务至关重要。本文详细介绍了开发具有这些属性的模型的过程，统称为Sapiens。基于这些见解，Sapiens利用大型数据集和可扩展的模型架构，这对于推广至关重要。为了实现更广泛的适用性，Sapiens采用预训练然后微调的方法，允许在预训练后轻松适应特定任务。这种方法提出了一个关键问题：什么类型的数据最适合预训练？考虑到计算限制，是否应该优先收集尽可能多的人类图像，还是更好地反映现实世界的多样性？现有方法经常忽略预训练数据分布对下游任务的影响。为了研究预训练数据分布对人类特定任务的影响，Sapiens收集了Humans-300M数据集，包含300万多样化的人类图像。这些未标记的图像用于从头开始预训练一系列视觉变换器，参数数量从300M到20亿不等。在各种自监督方法中，用于从大型数据集学习通用视觉特征，Sapiens选择了掩码自动编码器（MAE）方法，因为其简单高效。MAE具有单次推理模型，与对比或多次推理策略相比，允许使用相同的计算资源处理更大的图像量。为了提高保真度，与以前的方法不同，Sapiens将预训练的本机输入分辨率增加到1024像素，相比现有的最大视觉骨干网络，浮点运算次数增加了约4倍。每个模型都在1.2万亿令牌上预训练。对于人类中心任务的微调，Sapiens使用了一致的编码器-解码器架构。编码器使用预训练的权重初始化，而解码器（一个轻量级、特定任务的头部）是随机初始化的。然后同时对这两个组件进行了端到端的微调。Sapiens关注四个关键任务：2D姿势估计、身体部位分割、深度和法线估计，如下图所示。与以前的研究一致，Sapiens证实了标签质量对模型在野外环境中的性能的关键影响。公共基准通常包含噪声标签，在模型微调期间提供不一致的监督信号。同时，为了与Sapiens的主要目标（3D人类数字化）保持一致，使用细粒度、精确的注释至关重要。为此，Sapiens提出了一套更密集的2D全身关键点用于姿势估计，以及一个更详细的类别词汇用于身体部位分割，超出了以前数据集的范围。具体来说，Sapiens引入了一套全面的人体关键点，包括308个关键点，涵盖身体、手、脚、表面和面部。此外，Sapiens将身体部位分割的类别词汇扩展到28个类别，涵盖身体部位，如头发、舌头、牙齿、上/下唇和躯干。为了确保注释的质量和一致性，以及高程度的自动化，Sapiens使用多视图捕获设置来收集姿势和分割注释。Sapiens还使用人类中心的合成数据进行深度和法线估计，利用RenderPeople的600个详细扫描来生成高分辨率深度图和表面法线。Sapiens证明了将领域特定的大规模预训练与有限但高质量的注释相结合，可以实现强大的野外推广。Sapiens：方法和架构Sapiens遵循掩码自动编码器（MAE）方法进行预训练。模型被训练为根据部分观察重构原始人类图像。与所有自动编码器一样，Sapiens的模型具有一个编码器，将可见图像映射到潜在表示，并且具有一个解码器，从该潜在表示中重构原始图像。预训练数据集包括单人和多人图像，每张图像都被调整到固定大小，具有正方形的长宽比。类似于ViT，图像被分成具有固定大小的正方形、不重叠的补丁。随机选择一部分补丁并将其掩码，剩下的补丁保持可见。掩码补丁与可见补丁的比例（称为掩码比例）在整个训练过程中保持不变。Sapiens的模型在各种图像特征方面表现出推广能力，包括尺度、裁剪、年龄、种族和主体数量。每个补丁令牌在模型中占图像面积的0.02％，相比标准ViT中的0.4％，减少了16倍，为模型提供了细粒度的令牌间推理。即使掩码比例增加到95％，Sapiens的模型也能在保留样本上实现人类解剖结构的合理重构。Sapiens预训练模型在未见人类图像上的重构如以下图所示。此外，Sapiens利用一个大型专有数据集进行预训练，包含大约10亿张野外图像，专注于人类图像。预处理包括丢弃带有水印、文本、艺术描绘或非自然元素的图像。然后，Sapiens使用一个现成的人体边界框检测器来过滤图像，保留检测分数大于0.9且边界框尺寸超过300像素的图像。在数据集中，超过2.48亿张图像包含多个主体。2D姿势估计Sapiens框架对编码器和解码器进行了微调，涵盖多个骨架，包括K = 17、K = 133以及一个新的、更详细的骨架，具有K = 308个关键点，如下图所示。相比之下，现有的格式最多包含68个面部关键点，Sapiens的注释包括243个面部关键点，包括眼睛、嘴唇、鼻子和耳朵周围的代表点。这种设计旨在精心捕捉现实世界中面部表情的细微差别。使用这些关键点，Sapiens框架手动注释了100万张4K分辨率图像，来自室内捕获设置。与以前的任务一样，Sapiens将法线估计器N的解码器输出通道设置为3，分别对应每个像素的xyz分量。生成的合成数据也用于表面法线估计的监督。Sapiens：实验和结果Sapiens-2B使用1024个A100 GPU在18天内预训练，使用PyTorch。Sapiens在所有实验中使用AdamW优化器。学习计划包括简短的线性预热，然后是预训练的余弦退火和微调的线性衰减。所有模型都从头开始在1024×1024的分辨率和16的补丁大小下预训练。对于微调，输入图像被调整到4:3的比例，即1024×768。Sapiens应用了标准的数据增强，如裁剪、缩放、翻转和光度失真。对于分割、深度和法线预测任务，添加了来自非人类COCO图像的随机背景。重要的是，Sapiens使用了差异化学习率，以保持推广，初始层的学习率较低，后续层的学习率逐渐增加。编码器的层级学习率衰减设置为0.85，权重衰减为0.1。Sapiens的设计规格在下表中详细说明。按照特定的方法，Sapiens优先通过宽度而不是深度来扩展模型。值得注意的是，Sapiens-0.3B模型虽然在架构上与传统的ViT-Large类似，但由于其更高的分辨率，具有20倍更多的浮点运算次数。Sapiens被微调用于面部、身体、脚和手（K = 308）的姿势估计，使用高保真度的注释。对于训练，Sapiens使用包含100万张图像的训练集，对于评估，使用了一个名为Humans5K的测试集，包含5,000张图像。评估遵循自上而下的方法，Sapiens使用一个现成的检测器来获取边界框，并对单个人进行姿势推理。表3显示了Sapiens模型与现有方法在全身姿势估计方面的比较。所有方法都在Sapiens的308个关键点词汇和COCO-WholeBody的133个关键点词汇之间的114个共同关键点上进行评估。Sapiens-0.6B超过了当前的最先进方法DWPose-l，提高了2.8个AP。与DWPose不同，DWPose使用了一个复杂的学生-教师框架，具有针对该任务的特征蒸馏，Sapiens采用了一种通用的编码器-解码器架构，具有大规模的人类中心预训练。有趣的是，即使具有相同的参数数量，Sapiens模型也表现出比其对应模型更好的性能。例如，Sapiens-0.3B超过VitPose+-L 5.6个AP，Sapiens-0.6B超过VitPose+-H 7.9个AP。在Sapiens家族中，结果表明模型大小和性能之间存在直接的相关性。Sapiens-2B设定了新的最先进水平，达到61.1个AP，相比之前的最先进方法提高了7.6个AP。尽管微调使用了来自室内捕获工作室的注释，Sapiens仍然表现出对现实世界场景的强大推广能力，如下图所示。Sapiens被微调和评估，使用了28个类别的分割词汇。训练集包含100,000张图像，而测试集Humans-2K包含2,000张图像。Sapiens与现有的身体部位分割方法进行比较，这些方法在相同的训练集上进行了微调，使用了每种方法建议的预训练检查点作为初始化。与姿势估计类似，Sapiens在分割中表现出推广能力，如下表所示。有趣的是，即使是最小的模型Sapiens-0.3B，也超过了现有的最先进的分割方法，如Mask2Former和DeepLabV3+，提高了12.6个mIoU，这是由于其更高的分辨率和大规模的人类中心预训练。进一步增加模型大小也会提高分割性能。Sapiens-2B实现了最好的性能，在测试集上达到81.2个mIoU和89.4个mAcc，如下图所示的定性结果。结论Sapiens代表着人类中心视觉模型向基础模型领域迈出的一大步。Sapiens模型表现出强大的推广能力，涵盖多种人类中心任务。最先进的性能归因于：（i）在特定于人类的精心策划的数据集上进行的大规模预训练，（ii）扩展的高分辨率和高容量的视觉变换器骨干，以及（iii）在增强的工作室和合成数据上的高质量注释。Sapiens模型有可能成为多种下游任务的关键构建块，并为更广泛的社区提供高质量的视觉骨干网络。
人工智能 2024年8月21日

LongWriter：释放10,000+字生成的长上下文LLM

当前的长上下文大型语言模型（LLM）可以处理最多100,000个令牌的输入，但它们在生成超过2,000字的输出时却苦苦挣扎。受控实验表明，模型的有效生成长度在很大程度上受到其在监督微调（SFT）期间看到的示例的限制。换句话说，这个输出限制是由于现有的SFT数据集中缺乏长输出示例所致。最近的长上下文LLM的进展导致了具有显著扩大内存容量的模型的发展，这些模型能够处理超过100,000个令牌的历史。然而，尽管它们能够处理广泛的输入，但当前的长上下文LLM仍然难以生成同样长的输出。为了探索这个限制，LongWriter探索了最先进的长上下文模型的最大输出长度，使用多个需要不同长度响应的查询，例如“写一篇10,000字的关于罗马帝国历史的文章”。结果表明，所有模型一致地无法生成超过2,000字的输出。同时，用户交互日志的分析显示，超过1%的用户提示明确要求输出超过这个限制，突出了当前研究中需要克服这个限制的迫切需求。为了解决这个问题，LongWriter引入了AgentWrite，一种代理式管道，用于分解超长生成任务为子任务，允许现成的LLM生成连贯的输出，长度可达20,000字。利用AgentWrite，LongWriter构建了LongWriter-6k数据集，其中包含6,000个SFT数据样本，输出长度从2,000字到32,000字不等。通过将此数据集纳入模型训练中，LongWriter成功地将现有模型的输出长度扩展到超过10,000字，同时保持输出质量。LongWriter还开发了LongBench-Write基准，用于评估超长生成能力。经过DPO改进的9B参数模型在此基准上实现了最先进的性能，甚至超过了更大的专有模型。在本文中，我们将讨论LongWriter框架，探索其架构，并将其性能与最先进的长上下文LLM进行比较。让我们开始吧。LongWriter：10,000+字生成框架最近的长上下文LLM的进展导致了具有显著扩大内存容量的模型的发展，这些模型能够处理超过100,000个令牌的历史。尽管它们能够处理广泛的输入，但当前的长上下文LLM仍然难以生成同样长的输出。为了探索这个限制，LongWriter探索了最先进的长上下文模型的最大输出长度，使用多个需要不同长度响应的查询，例如“写一篇10,000字的关于罗马帝国历史的文章”。根据发现，LongWriter观察到所有模型一致地无法生成超过2,000字的输出。此外，用户交互日志的分析显示，超过1%的用户提示明确要求输出超过这个限制，突出了当前研究中需要克服这个限制的迫切需求。LongWriter的研究揭示了一个关键的见解：输出长度的限制主要根源于SFT数据集的特征。具体来说，LongWriter发现，模型的最大生成长度在很大程度上受到其SFT数据集中输出长度的上限的限制，尽管它在预训练阶段接触到了更长的序列。这种发现解释了当前模型中普遍的2,000字生成限制，因为现有的SFT数据集很少包含超过这个长度的示例。此外，由于许多数据集是从最先进的LLM中提取的，它们也继承了源模型的输出长度限制。为了解决这个限制，LongWriter引入了AgentWrite，一种代理式管道，用于分解超长生成任务为子任务，允许现成的LLM生成连贯的输出。AgentWrite首先将长生成任务分解为多个子任务，每个子任务需要模型写一个段落。然后，模型按照顺序执行这些子任务，LongWriter将子任务输出连接起来以获得最终的长输出。这种方法已经在各种领域中应用，例如问题解决、软件开发和模型评估。LongWriter的工作是首次探索将规划集成到模型中，以使其能够完成复杂的长文本生成任务。每个步骤的AgentWrite都在下面详细介绍。步骤I：计划受人类作家思考过程的启发，LongWriter利用LLM的规划能力，根据写作指令输出写作大纲。这个大纲包括每个段落的主要内容和字数要求。LongWriter使用的提示如下：“我需要你帮助我将以下长文生成指令分解为多个子任务。每个子任务将指导写一个段落，并应包括该段落的主要点和字数要求。写作指令如下：{用户指令}。请按照以下格式分解，每个子任务占一行：段落1 – 主要点：[描述该段落的主要点，详细] – 字数：[字数要求，例如400字] 段落2 – 主要点：[描述该段落的主要点，详细] – 字数：[字数要求，例如1000字]。” 请确保每个子任务清晰具体，并且所有子任务涵盖整个写作指令的内容。不要将子任务分解得太细，每个子任务的段落应至少200字，至多1000字。不要输出任何其他内容。”步骤II：写作在获得步骤I的写作计划后，LongWriter顺序地调用LLM来完成每个子任务，生成写作内容，部分部分。为了确保输出的连贯性，当LongWriter调用模型来生成第n个部分时，之前生成的n-1个部分也被输入，以便模型可以继续写作下一个部分，基于现有的写作历史。虽然这种顺序方式防止了对模型的并行调用来完成多个子任务，同时输入长度变得更长，但LongWriter在验证中表明，这种方式获得的写作的整体连贯性和质量远远优于并行生成的输出。LongWriter使用的提示如下：“你是一个优秀的写作助手。我将给你一个原始的写作指令和我的计划步骤。我还将提供我已经写的文本。请帮助我继续写作下一个段落，基于写作指令、计划步骤和已经写的文本。”写作指令： {用户指令} 计划步骤： {步骤I生成的写作计划} 已经写的文本： {之前生成的(n-1)个段落}请整合原始写作指令、计划步骤和已经写的文本，现在继续写作{计划的第n个段落，即写作计划中的第n行}。”验证LongWriter在两个长文生成数据集上测试了AgentWrite方法的生成长度和质量。第一个数据集LongWrite-Ruler，用于测量方法可以提供的输出长度。第二个数据集LongBench-Write，主要用于评估模型生成的内容与用户指令在长度和写作质量方面的吻合程度。LongBench-Write：为了评估模型在更广泛的长文生成指令上的性能，LongWriter收集了120个多样化的用户写作提示，包括60个中文和60个英文。为了更好地评估模型的输出长度是否满足用户要求，LongWriter确保所有这些指令都包含明确的字数要求。这些指令被分为四个子集，基于字数要求：0-500字，500-2000字，2000-4000字和超过4000字。此外，指令被分类为七种类型，基于输出类型：文学和创意写作、学术和专著、流行科学、功能性写作、新闻报道、社区论坛和教育与培训。在评估中，LongWriter采用了两个指标：一个用于评估输出长度，另一个用于评估输出质量。模型的输出长度是根据其接近指令中指定的要求的程度来评分的。对于输出质量，LongWriter使用LLM作为评判的方法，选择最先进的GPT-4o模型来评估输出在六个维度：相关性、准确性、连贯性、清晰性、广度和深度以及阅读体验。最终得分是通过平均长度得分和质量得分计算得出。验证结果：LongWriter在LongWrite-Ruler上呈现了输出长度的测量，并发现AgentWrite成功地将GPT-4o的输出长度从2k字扩展到约20k字。LongWriter还评估了LongBench-Write上的输出质量和输出长度的吻合程度，表明GPT-4o可以成功完成输出长度在2,000字以下的任务。监督微调LongWriter基于两个最新的开源模型进行训练，分别是GLM-4-9B和Llama-3.1-8B。两个模型都是基础模型，支持最多128k个令牌的上下文窗口，使其自然适合用于长输出的训练。为了使训练更加高效，LongWriter采用了带有损失加权的打包训练。两个模型的训练结果分别是LongWriter-9B（GLM-4-9B-LongWriter的缩写）和LongWriter-8B（Llama-3.1-8B-LongWriter的缩写）。同时，LongWriter注意到，如果损失是按序列平均的，即每个序列的平均损失在批次中计算，那么在长输出数据中，每个目标令牌对损失的贡献将远远小于那些输出较短的数据。因此，LongWriter选择了一种损失加权策略，即按令牌平均损失，其中损失是批次中所有目标令牌的损失的平均值。所有模型都使用一个带有8xH800 80G GPU和DeepSpeed+ZeRO3+CPU卸载的节点进行训练。LongWriter使用批次大小为8，学习率为1e-5，打包长度为32k。模型被训练了4个epoch，大约需要2,500-3,000步。对齐（DPO）为了进一步提高模型的输出质量和其遵循长度约束的能力，LongWriter在监督微调后的LongWriter-9B模型上进行了直接偏好优化（DPO）。DPO数据来自GLM-4的聊天DPO数据（约50k条目）。此外，LongWriter构建了4k对数据，专门针对长文写作指令。对于每个写作指令，LongWriter从LongWriter-9B中采样4个输出，并按照特定的方法对这些输出进行评分。还计算了长度遵循评分。最高评分的输出被选为正样本，剩余三个输出中的一个被随机选为负样本。得到的模型LongWriter-9B-DPO，在上述数据混合上训练了250步。LongWriter遵循特定的DPO训练配方。LongWriter：实验和结果LongWriter评估了4个专有模型和5个开源模型在LongBench-Write上的性能，以及训练的LongWriter模型。据LongWriter所知，Suri-IORPO是唯一一个也针对长文本生成进行对齐的先前模型。它是基于Mistral-7B-Instruct-v0.2使用LoRA训练的。与LongWrite-Ruler上的评估设置一致，LongWriter将输出温度设置为0.5，并配置模型的生成最大令牌参数为其API调用允许的最大值。对于开源模型，它被设置为32,768。大多数之前的模型无法满足超过2,000字的长度要求，而LongWriter模型一致地提供了更长、更丰富的响应。观察每个长度范围内的输出长度评分，LongWriter发现之前的模型通常在[2k, 4k)范围内的提示上表现较差（评分低于70），只有Claude 3.5 Sonnet获得了不错的评分。对于[4k, 20k)范围内的提示，几乎所有之前的模型都完全无法达到目标输出长度，甚至评分为0（意味着所有输出长度都小于所需长度的三分之一）。通过添加LongWriter-6k的训练数据，LongWriter的训练模型可以有效地达到所需的输出长度，同时保持良好的质量，如[2k, 20k)范围和散点图中的评分所示。DPO有效地提高了模型的输出质量和其遵循长度约束的能力。通过比较LongWriter-9B和LongWriter-9B-DPO的评分，我们发现DPO显著提高了Sl（+4%）和Sq（+3%）评分，这种提高在所有范围内都是一致的。这表明在长文生成场景中，DPO仍然有助于提高模型的输出质量，并可以更好地使模型的输出长度与请求的长度一致。后者也最近在Yuan等人（2024年）的较短生成中被观察到。我们还手动注释了GPT-4o和三个LongWriter模型在LongBench-Write上的输出的配对胜利和失败，并将结果可视化在图9中。我们可以看到，人类更喜欢DPO训练的模型，而LongWriter-9B-DPO尽管参数更少，但也与GPT-4o取得了平局。 LongWriter模型的输出长度限制被扩展到10k至20k字之间，而支持更长输出所需的更多数据仍在开发中。根据LongWrite-Ruler测试的结果，LongWriter模型的最大生成长度在10k至20k字之间。缺乏SFT数据中的长输出可能是模型无法达到更长输出长度的主要原因。最后的思考在这项工作中，我们讨论了LongWriter，一种代理式管道，用于分解超长生成任务为子任务，找到了当前LLM的2,000字生成限制，并提出了增加其输出窗口大小的方法。为了自动构建长输出数据，LongWriter开发了AgentWrite，一种代理式管道，使用现成的LLM创建扩展的连贯输出。LongWriter成功地将现有LLM的输出窗口大小扩展到超过10,000字，同时保持输出质量。广泛的消融研究表明了这种方法的有效性。对于未来的工作，LongWriter建议以下三个方向：1. 扩展AgentWrite框架以构建更长输出的数据，从而进一步扩展LLM的输出窗口大小。2....
人工智能 2024年8月6日

SGLang：高效执行结构化语言模型程序

大型语言模型（LLM）越来越多地被用于需要多次生成调用、先进的提示技术、控制流和结构化输入/输出的复杂任务。然而，用于编程和执行这些应用程序的高效系统仍然缺乏。SGLang是一种新引入的系统，旨在通过提供高效的语言模型程序执行来解决这个问题。SGLang由一个前端语言和一个运行时组成。前端通过提供生成和并行控制的原语来简化编程，而运行时通过像RadixAttention这样的新优化来加速执行，例如KV缓存重用和压缩的有限状态机用于更快的结构化输出解码。实验表明，SGLang在各种大型语言和多模态模型上实现了最高6.4倍的吞吐量，相比于最先进的推理系统，处理诸如代理控制、逻辑推理、少样本学习基准、JSON解码、检索增强生成管道和多回合聊天等任务。最近的LLM能力的进步已经扩大了它们的用途，使得它们能够处理更广泛的通用任务，并作为自主代理。这些应用程序中，LLM参与多轮规划、推理和与外部环境的交互。这些交互是通过工具使用、多个输入模态和各种提示技术（如少样本学习、自一致性、骨架思维和树思维）来实现的。这些新用例需要多个、通常依赖的LLM生成调用，表明了使用多调用结构来完成复杂任务的趋势。这种转变标志着从简单的聊天到更复杂的程序化使用LLM的转变，其中程序调度和控制LLM的生成过程。这些程序被称为“语言模型程序”（LM程序）。先进的提示技术和代理工作流程属于LM程序的范畴。LM程序有两个共同的特性：（1）LM程序通常涉及多个LLM调用，伴随着控制流程，以完成复杂任务并提高整体质量。（2）LM程序接收结构化输入并产生结构化输出，使得LM程序可以组合并集成到现有的软件系统中。在本文中，我们将更深入地探讨SGLang框架，探索其架构，分析其性能，并将其与最先进的框架进行比较。让我们开始吧。SGLang简介尽管LM程序被广泛使用，但当前用于表达和执行它们的系统仍然效率低下。SGLang确定了两个与LM程序高效使用相关的主要挑战：编程复杂性：开发LM程序很繁琐和困难，因为LLM的非确定性。它涉及大量的字符串操作、实验性地调整提示、脆弱的输出解析、处理多个输入模态和实现并行机制。这种复杂性大大降低了甚至简单程序的可读性。执行效率低下：执行LM程序效率低下是由于冗余计算和内存使用。最先进的推理引擎，优化以减少延迟和提高吞吐量，缺乏对工作负载的直接了解，导致了显著的低效率。一个值得注意的例子是KV缓存的重用，KV缓存由可重用的中间张量组成，对于生成推理至关重要。当前系统缺乏有效的机制来跨多个LLM调用（共享公共前缀）重用KV缓存，导致不必要的计算和浪费的内存。此外，对于结构化输出（如JSON模式）的约束解码是次优的，因为现有的系统只能一次解码一个令牌。为了解决这些挑战，SGLang引入了一种用于LLM的结构化生成语言。其核心思想是系统地利用LM程序中的多调用结构以实现高效执行。如以下图所示，SGLang有两个部分：前端语言和后端运行时。前端简化了LM程序的编程，而运行时加速了它们的执行。这些部分可以一起工作以获得更好的性能，也可以独立工作。SGLang是一种嵌入在Python中的特定领域语言，提供了生成（例如extend、gen、select）和并行控制（例如fork、join）的原语。它与Python的控制流程和库兼容，允许用户使用本地Python语法轻松开发高级提示工作流程。SGLang包括一个解释器和一个编译器。解释器将提示状态管理为一个流，并将原语操作提交到流中以进行异步执行，确保对同步和程序内并行的适当控制。另外，SGLang程序可以被跟踪和编译以进行进一步的优化。SGLang的运行时提出了几种新的优化来加速LM程序的执行： RadixAttention：该技术使得可以自动重用多个生成调用之间的KV缓存。在现有的推理引擎中，每个请求的KV缓存在处理后被丢弃，防止在多个调用之间重用并减慢执行速度。SGLang在一个基数树中维护一个KV缓存的LRU缓存，管理KV缓存作为一个传统缓存，并使用基数树进行高效匹配、插入和驱逐。这使得运行时能够高效地处理各种重用模式。压缩有限状态机：该技术使得可以更快地进行约束解码以获得结构化输出。现有的系统只遵循下一个令牌的约束，使得它们只能一次解码一个令牌。相反，SGLang分析约束并构建一个压缩的有限状态机来表示它们，压缩多令牌路径到一个单步路径，允许一次解码多个令牌以获得更快的速度。 API推测执行：对于像OpenAI的GPT-4这样的API模型，SGLang引入了API推测执行来优化多调用程序。使用SGLang，各种LLM应用程序被实现，包括代理控制、逻辑推理、少样本学习基准、JSON解码、检索增强生成管道、多回合聊天和多模态处理。性能在包括Llama-7B/70B、Mistral-8x7B、LLaVA-v1.5-7B（图像）和LLaVA-NeXT-34B（视频）在NVIDIA A10G和A100 GPU上的模型上进行了测试。实验结果表明，SGLang在广泛的工作负载、模型和硬件设置中实现了最高6.4倍的吞吐量，相比于现有的编程和推理系统，包括Guidance、vLLM和LMQL。SGLang：编程模型和方法论SGLang编程模型通过一个运行示例介绍，描述其语言原语和执行模式，并概述运行时优化机会。该模型简化了多调用工作流程中繁琐的操作（例如字符串操作、API调用、约束规范、并行），提供了灵活和可组合的原语。SGLang是一种嵌入在Python中的特定领域语言。以下图表显示了一个使用分支-求解-合并提示方法评估图像文章的程序。函数multi_dimensional_judge接受三个参数：`s`、`path`和`essay`。s管理提示状态，path是图像文件路径，essay是文章文本。新的字符串和SGLang原语可以使用+=操作符追加到状态s以进行执行。首先，函数将图像和文章添加到提示中。然后，它使用select检查文章是否与图像相关，并将结果存储在s[“related”]中。如果相关，提示被分叉为三个副本以进行并行评估，使用gen将结果存储在f[“judgment”]中。接下来，它合并评估，生成摘要，并分配字母成绩。最后，它以JSON格式返回结果，遵循由正则表达式约束定义的模式regex。SGLang大大简化了这个程序，因为使用OpenAI API接口等效的程序需要2.1倍的代码行数，主要是由于手动字符串操作和并行控制。SGLang提供了控制提示状态、生成和并行的原语，可以使用Python语法和库。以下是原语：gen：调用模型生成并将结果存储在变量中，变量名在其第一个参数中指定。它支持一个regex参数来约束输出以遵循由正则表达式定义的语法（例如JSON模式）。 select：调用模型选择列表中概率最高的选项。 += 或 extend：将字符串追加到提示中。 [variable_name]：检索生成的结果。 fork：创建提示状态的并行分支。 join：重新合并提示状态。 image 和 video：接受图像和视频输入。执行SGLang程序的最简单方法是通过解释器，其中提示被视为异步流。原语如extend、gen 和 select被提交到流中以进行异步执行。这些非阻塞调用允许Python代码继续运行而不等待生成完成，类似于异步启动CUDA内核。每个提示由一个流执行器在后台线程中管理，实现了程序内并行。检索生成结果将阻塞直到它们准备好，确保正确的同步。或者，SGLang程序可以被编译为计算图并使用图执行器执行，允许进行更多优化。本文默认使用解释器模式，并在附录D中讨论编译器模式结果。SGLang支持使用其自身的SGLang运行时（SRT）的开放权重模型，以及API模型，如OpenAI和Anthropic模型。LLM的编程系统可以被归类为高级（例如LangChain、DSPy）和低级（例如LMQL、Guidance、SGLang）。高级系统提供预定义或自动生成的提示，例如DSPy的提示优化器。低级系统通常不改变提示，但允许直接操作提示和原语。SGLang是一种低级系统，类似于LMQL和Guidance。以下表格比较了它们的功能。SGLang更注重运行时效率，并带有自己的协同设计运行时，允许进行新型优化。高级语言（例如DSPy）可以被编译为低级语言（例如SGLang）。在DSPy中将SGLang作为后端集成以获得更好的运行时效率的示例将在后面展示。上面的示例演示了RadixAttention操作，具有LRU驱逐策略，跨九个时间点，展示了基数树在响应不同请求时的动态演变。这些请求包括两个聊天会话、一个少样本学习询问批次和自一致性采样。每个树边都带有一个标签，表示一个子字符串或令牌序列。节点被着色以反映不同的状态：绿色表示新添加的节点，蓝色表示在时间点访问的缓存节点，红色表示被驱逐的节点。步骤1：基数树最初是空的。步骤2：服务器处理一个传入的用户消息“Hello”，并用LLM输出“Hi”进行响应。系统提示“你是一个有帮助的助手”，用户消息“Hello！”，和LLM回复“Hi！”被合并到树中作为一个单一的边，链接到一个新节点。步骤3：一个新提示到达，服务器在基数树中找到提示的前缀（即对话的第一轮），并重用其KV缓存。新的轮次被追加到树中作为一个新节点。步骤4：一个新的聊天会话开始。步骤3中的节点被分割为两个节点，以允许两个聊天会话共享系统提示。步骤5：第二个聊天会话继续。然而，由于内存限制，步骤4中的一个节点必须被驱逐。新的轮次被追加到步骤4中剩余的节点之后。步骤6：服务器接收到一个少样本学习查询，处理它，并将其插入到树中。根节点被分割，因为新的查询与现有节点没有共同的前缀。步骤7：服务器接收到一批额外的少样本学习查询。这些查询共享相同的一组少样本示例，因此步骤6中的一个节点被分割以实现共享。步骤8：服务器接收到来自第一个聊天会话的新消息。它驱逐第二个聊天会话中的所有节点，因为它们是最不常用的。步骤9：服务器接收到一个请求，用于对步骤8中的节点中的问题进行更多答案采样，可能用于自一致性提示。为了腾出空间，多个节点被驱逐。这个示例演示了RadixAttention如何处理不同请求对节点的动态分配和驱逐，确保KV缓存的高效重用和内存管理。SGLang：评估和结果开放权重模型的结果延迟和吞吐量结果如下图所示。SGLang提高了最高6.4倍的吞吐量，并降低了最高3.7倍的延迟。这些改进是由于KV缓存重用、单个程序内并行的利用以及更快的约束解码所致。在这些基准测试中，缓存命中率从50%到99%不等。图13（附录）列出了所有基准测试的实现和最优缓存命中率，表明SGLang的缓存感知调度方法在平均上接近96%的最优命中率。大型模型与张量并行的结果更大的模型，如Mixtral-8x7B和Llama-70B，在相同的基准测试中使用张量并行进行了测试，结果如下图所示。在更大的模型上观察到的加速趋势与在较小模型上观察到的趋势相似，表明SGLang的优化可以很好地推广到更大的模型。由于Guidance和LMQL缺乏对张量并行的高效实现，因此它们被省略了。多模态模型的结果SGLang对多模态模型具有原生的支持，具有图像和视频原语。该论文中的优化与多模态模型兼容。对于RadixAttention，输入图像的哈希被计算并用作基数树中的键，允许重用来自同一图像的图像令牌的KV缓存。LLaVA-v1.5-7B（图像）在llava-bench-in-the-wild上运行，LLaVA-NeXT-34B（视频）在ActivityNet上运行。由于这些模型没有被其他基准系统很好地支持，因此使用了Hugging Face Transformers中的原始实现作为基准。如以下表格所示，SGLang在这些基准测试中提供了最高6倍的吞吐量。在llava-bench-in-the-wild中，同一图像的多个问题被处理，SGLang运行时重用了KV缓存。生产部署SGLang已被部署在Chatbot...
人工智能 2024年7月29日

MINT-1T：扩大开放源码多模态数据的规模10倍

训练大规模的多模态模型（LMMs）需要大规模的数据集，其中包含交错的图像和文本序列。虽然开放源码的LMMs已经迅速发展，但仍然缺乏大规模的多模态交错数据集，这些数据集是开放源码的。这些数据集的重要性不言而喻，因为它们是创建能够理解和生成不同模态内容的高级AI系统的基础。没有足够的综合性和交错的数据集，开发更复杂和更强大的LMMs的潜力将大大降低。这些数据集使得模型能够从多样化的输入中学习，使得它们在各种应用中更加多样化和有效。此外，缺乏这些数据集对开放源码社区来说是一个挑战，开放源码社区依赖于共享的资源来推动创新和合作。开放源码的LMMs已经取得了显著的进步，但它们的发展受到大规模和交错的数据集的限制。为了克服这个障碍，需要集中努力来策划、注释和发布更多的综合性数据集，以支持多模态模型的持续开发和改进。另外，创建和发布这些数据集需要克服几个技术和后勤上的障碍。数据收集必须是广泛的，并代表LMMs将被部署的多样化的背景。注释需要仔细考虑，以确保交错的图像和文本序列是以增强模型学习能力的方式对齐的。此外，确保数据集是开放源码的，需要解决与数据隐私和使用权相关的法律和道德问题。扩大高质量的大规模多模态交错数据集的可用性对于AI研究和开发的未来至关重要。通过解决当前的稀缺性，AI社区可以促进更大的创新和合作，导致创建更强大和更多样化的LMMs，以解决复杂的现实世界问题。基于此，MINT-1T是迄今为止最大的和最多样化的多模态交错开放源码数据集。MINT-1T：一个10倍大的规模，包括一万亿文本标记和34亿图像，超过现有的开放源码数据集。MINT-1T数据集还引入了以前未公开的来源，例如PDF文件和ArXiv论文。由于多模态交错数据集不容易扩大，因此MINT-1T数据集共享数据策划过程，以便其他人也可以在这些信息丰富的变体上进行实验。MINT-1T数据集表明，其方法是有效的；在MINT-1T上训练的LM模型与之前的最先进的OBELICS相比具有竞争力（尽管稍微逊色一些）。MINT-1T：一个包含一万亿标记的多模态数据集大规模的开放源码预训练数据集对于研究社区来说是探索数据工程和训练透明的开放源码模型至关重要。在文本领域，早期的工作，如C4和The Pile，在使社区能够训练第一批开放源码的大型语言模型（如GPT-J、GPT-Neo等）方面发挥了至关重要的作用。这些基础工作还为后续的数据过滤方法和扩展铺平了道路。同样，在图像-文本空间中，大规模的开放源码数据集也推动了更好的数据策划方法的创新，例如数据过滤网络和T-MARS。可以看到，从前沿实验室到训练大规模多模态模型（LMMs）的转变，这些模型需要大量的多模态交错数据集，包括自由形式的图像和文本序列。随着前沿模型的能力迅速发展，多模态训练数据之间的差距正在扩大，开放源码和封闭源码模型之间的差距也越来越大。当前的开放源码多模态交错数据集比文本数据集小且多样性较低，主要来自HTML文档，这限制了数据的广度和多样性。这一限制阻碍了强大的开放源码LMMs的发展，并在开放源码和封闭源码模型之间造成了差距。为了解决这一差距，MINT-1T被创建为迄今为止最大的和最多样化的开放源码多模态交错数据集。MINT-1T包含一万亿文本标记和34亿图像，来源于多样化的来源，如HTML、PDF和ArXiv。在MINT-1T之前，开放源码领域中最大的数据集是OBELICS，它包含1150亿文本标记和3.53亿图像，全部来自HTML。上图代表MINT-1T如何独特地包含来自PDF和ArXiv文档的数据，超出了HTML来源。MINT-1T：构建数据集MINT-1T策划了一个大规模的开放源码数据集，利用更多样化的交错文档来源，如PDF和ArXiv论文。本节详细介绍了MINT-1T的方法，用于获取多模态文档、过滤低质量内容、去重数据和移除不安全的内容。最终的数据集包括9220亿（B）HTML标记、106B PDF标记和9B ArXiv标记。获取大量多模态文档HTML管道MINT-1T遵循OBELICS的方法，从CommonCrawl WARC文件中提取交错的多模态文档，通过解析每个WARC条目的DOM树。虽然OBELICS仅处理从2020年2月到2023年2月的CommonCrawl转储文件，但MINT-1T扩大了文档池，包括从2017年5月到2024年4月的HTML文档（从2018年10月到2024年4月的完整转储和早期年份的部分转储）。与OBELICS类似，MINT-1T过滤掉不包含图像、包含超过30个图像或包含不适当子字符串（如logo、avatar、porn和xxx）的文档。PDF管道MINT-1T从CommonCrawl WAT文件中获取PDF文档，从2023年2月到2024年4月的转储文件。首先，所有PDF链接都从这些转储文件中提取出来。然后，MINT-1T尝试下载和读取PDF文件，丢弃超过50MB（可能包含大图像）和超过50页长的PDF文件。没有文本的页面被排除，剩余页面的阅读顺序被确定。阅读顺序通过找到所有文本块的边界框，根据列对块进行聚类，并从左上到右下对其进行排序来确定。图像根据其在同一页上的文本块的接近程度被整合到序列中。ArXiv管道MINT-1T从LaTeX源代码中构建ArXiv交错文档，使用TexSoup找到图像标签并将图像与论文文本交错。对于多文件论文，MINT-1T识别主TeX文件并用文件内容替换输入标签。LaTeX代码被清理，移除导入、参考文献、表格和引用标签。由于ArXiv已经是一个高度策划的数据源，因此不需要额外的过滤和去重。文本质量过滤MINT-1T避免使用基于模型的启发式方法进行文本过滤，遵循RefinedWeb、Dolma和FineWeb的做法。首先，使用Fasttext的语言识别模型（置信度阈值为0.65）排除非英语文档。包含NSFW子字符串的URL的文档也被移除，以排除色情和不想要的内容。应用RefinedWeb的文本过滤方法，特别是移除包含过多重复n-gram或使用MassiveText规则识别为低质量的文档。图像过滤在策划PDF和HTML文件后，MINT-1T尝试下载HTML数据集中的所有图像URL，丢弃不可检索的链接和没有有效图像链接的文档。小于150像素的图像被丢弃，以避免噪音图像，如标志和图标，大于20,000像素的图像也被移除，因为它们通常对应于无关图像。对于HTML文档，移除宽高比大于2的图像，以过滤低质量图像，如广告横幅。对于PDF文件，阈值被调整为3，以保留科学图表和表格。上图代表MINT-1T如何独特地包含来自PDF和ArXiv文档的数据，超出了HTML来源。安全过滤 NSFW图像过滤：MINT-1T对数据集中的所有图像应用NSFW图像检测器。如果一个文档包含一个NSFW图像，则整个文档被丢弃。个人可识别信息移除：为了减轻个人数据泄露的风险，文本数据中的电子邮件地址和IP地址被匿名化。电子邮件被替换为模板，如“[email protected]”，IP地址被替换为随机生成的非功能性IP地址。去重MINT-1T执行段落和文档文本去重，以及图像去重，以移除重复和无信息的图像，如标志和图标。所有去重步骤都单独针对每个数据源进行。段落和文档去重遵循Dolma的方法，MINT-1T使用Bloom Filter进行高效的文本去重，设置假阳性率为0.01，并去重每个文档中的13-gram段落（通过双新行分隔符指示）。如果一个文档的80%以上的段落是重复的，则整个文档被丢弃。移除常见的模板文本在段落去重后，MINT-1T从HTML文档中移除短的常见模板句子，如“跳过内容”或“博客存档”。这是通过在每个CommonCrawl快照的2%上运行精确段落去重来实现的，遵循CCNet的做法，确保主要移除常见的模板文本。上图演示了MINT-1T的过滤过程，并显示了HTML、PDF和ArXiv论文中标记如何在数据管道中被移除。图像去重在每个CommonCrawl快照中，MINT-1T根据SHA256哈希值移除频繁出现的图像。与其进行严格去重，不仅移除在快照中出现超过10次的图像，遵循Multimodal-C4的做法。在单个文档中，重复图像被移除，只保留第一次出现的图像，遵循OBELICS的做法。基础设施在数据处理过程中，MINT-1T平均使用2350个CPU核心，来自190处理器节点和90处理器节点的混合。总共使用了大约420万CPU小时来构建这个数据集。比较MINT-1T和OBELICS的文档组成在评估交错数据集的组成时，有两个关键特征被检查：每个文档的文本标记分布和每个文档的图像数量。对于这个分析，从OBELICS和MINT-1T的每个数据源中随机抽取了50,000个文档。使用GPT-2的标记器来计算文本标记的数量。通过排除文本标记和图像数量超出1.5个四分位数范围的文档来移除异常值。如上图所示，MINT-1T的HTML子集与OBELICS中的标记分布紧密对齐。然而，来自PDF和ArXiv的文档平均而言比HTML文档长，突出了从多样化来源获取数据的益处。图5检查了所有文档中的图像密度，揭示了PDF和ArXiv文档比HTML文档包含更多图像，ArXiv样本是最密集的图像样本。不同数据源如何改善文档多样性扩大交错文档池的主要动机是改善领域覆盖。为了量化这种多样性和深度，训练了一个Latent Dirichlet Allocation（LDA）模型，使用从OBELICS数据集、MINT-1T的HTML子集和MINT-1T的PDF子集（不包括ArXiv）中抽取的10万个文档来获得200个主题。然后使用GPT-4对一组词进行分类，以确定主导领域，如健康与医学、科学、商业、人文等，基于MMMU领域。分析揭示了明显的趋势在领域分布中： OBELICS：该数据集显示出对“人文和社会科学”的明显集中，这可能归因于其数据构建过程，该过程涉及过滤掉不类似维基百科文章的文档，从而可能改变了分布以偏向更一般的知识和人文内容。 MINT-1T的HTML子集：相比之下，MINT-1T的HTML子集并不明显偏向任何特定领域，表明领域代表更广泛和更平衡。 MINT-1T的PDF子集：MINT-1T的PDF文档中，“科学和技术”类文档的比例更高，这可能是由于科学领域中PDF是首选的格式，用于分享详细的研究论文和技术报告。 MINT-1T：结果和实验对于所有实验，MINT-1T都在50%的图像-文本标注批次和50%的多模态交错批次上训练模型。从每个交错文档中最多采样2048个多模态标记，从每个图像-文本样本中采样340个标记。类似于Flamingo，在每个相邻图像-文本序列的末尾添加一个“结束”标记。在训练期间，50%的单图像交错文档被随机丢弃，以过采样多图像文档。图像-文本数据集由内部策划的标注数据集混合而成。模型的能力被评估为其在上下文学习能力和多图像推理性能方面的表现。上图显示了MMMU中每个领域的文档百分比，分别来自OBELICS和MINT-1T的子集。上下文学习：模型在四次和八次上下文学习性能上被评估，使用来自训练集的随机抽样的示例。评分被平均化，多次评估运行，随机示例被选择，以考虑对所选提示的敏感性。对于每个任务，进行了消融实验，以选择最好的执行提示。多图像推理：模型被评估在MMMU（包含单图像和多图像问题）和Mantis-Eval（所有多图像问题）上，以探索超出上下文学习评估的多图像推理能力。在HTML文档上训练最初，MINT-1T的HTML部分被比较为OBELICS，因为OBELICS是之前的领先交错数据集，也是从HTML文档中策划的。两个模型在MINT-1T的HTML部分和OBELICS上被训练，总共10B多模态标记。它们的上下文学习性能被评估。下表显示了四次和八次的性能，分别在常见基准上；在VQA任务上，MINT-1T的HTML部分训练的模型比OBELICS表现更好，但在标注基准上表现更差。平均而言，OBELICS在大多数任务上略微优于MINT-1T（HTML）。添加PDF和ArXiv文档随后，训练在MINT-1T的全部数据源上进行，包括HTML、PDF和ArXiv文档的混合。交错文档从HTML、PDF和ArXiv中分别采样50%、45%和5%。模型被训练10B多模态标记。如上表所示，在全部MINT-1T数据混合上训练的模型在大多数上下文学习基准上优于OBELICS和MINT-1T（HTML）。在更复杂的多模态推理基准上，MINT-1T模型在MMMU上优于OBELICS，但在Mantis-Eval上表现更差。细粒度趋势上下文学习性能如何随着示例的增加而扩展上下文学习性能被评估，当模型被提示一个到八个示例时。对于每个评估基准，运行一个单次试验。如图所示，在MINT-1T上训练的模型在所有射击次数上都优于在OBELICS和MINT-1T（HTML）上训练的模型。MINT-1T（HTML）模型的性能略微低于OBELICS。在标注和视觉问答任务上的性能下图显示了在标注和视觉问答（VQA）基准上的平均上下文学习性能。OBELICS在四次标注基准上优于所有MINT-1T变体，但在八次标注基准上略微低于MINT-1T。然而，MINT-1T在VQA基准上显著优于OBELICS和MINT-1T（HTML）。MINT-1T（HTML）也在VQA任务上优于OBELICS。在不同领域上的性能MINT-1T中包含多样化领域的目的是为了提高模型的泛化能力。之前的图表将MMMU上的性能分解为每个领域。除了商业领域外，MINT-1T在所有领域上都优于OBELICS和MINT-1T（HTML）。在科学和技术领域上的性能提高归因于ArXiv和PDF文档中的这些领域的普遍性。最后的思考在本文中，我们讨论了MINT-1T，它是迄今为止最大的和最多样化的多模态交错开放源码数据集。MINT-1T：一个10倍大的规模，包括一万亿文本标记和34亿图像，超过现有的开放源码数据集。MINT-1T数据集还引入了以前未公开的来源，例如PDF文件和ArXiv论文。由于多模态交错数据集不容易扩大，因此MINT-1T数据集共享数据策划过程，以便其他人也可以在这些信息丰富的变体上进行实验。MINT-1T数据集表明，其方法是有效的；在MINT-1T上训练的LM模型与之前的最先进的OBELICS相比具有竞争力（尽管稍微逊色一些）。
人工智能 2024年7月16日

DIAMOND：视觉细节在Atari和扩散中对世界建模的重要性

2018年，神经网络世界模型的强化学习概念首次被提出，不久，这一基本原理就被应用于世界模型。一些著名的实现强化学习的模型包括Dreamer框架，它从递归状态空间模型的潜在空间中引入了强化学习。DreamerV2证明了使用离散潜在变量可能会导致复合错误减少，而DreamerV3框架能够在不同领域的任务中实现人类般的性能，使用固定超参数。此外，图像生成模型和世界模型之间可以画出平行线，表明生成式视觉模型的进展可以被复制以造福世界模型。自从使用transformer在自然语言处理框架中流行起来，DALL-E和VQGAN框架出现了。这些框架实现了离散自动编码器将图像转换为离散令牌，并通过利用自回归transformer的序列建模能力，能够建立高效的文本到图像生成模型。与此同时，扩散模型也获得了关注，如今，扩散模型已经成为高分辨率图像生成的主导范式。由于扩散模型和强化学习的能力，人们正在尝试将这两种方法结合起来，旨在利用扩散模型的灵活性作为轨迹模型、奖励模型、规划器和离线强化学习的数据增强政策。世界模型为训练强化学习代理提供了一种安全高效的方法。传统上，这些模型使用一系列离散潜在变量来模拟环境动态。然而，这种压缩可能会忽略强化学习中至关重要的视觉细节。与此同时，扩散模型已经因其在图像生成方面的流行而受到挑战，挑战了传统使用离散潜在变量的方法。受此转变的启发，本文将讨论DIAMOND（DIffusion As a Model Of eNvironment Dreams），一种在扩散世界模型中训练的强化学习代理。我们将探讨使扩散适合世界建模的必要设计选择，并展示增强的视觉细节如何带来更好的代理性能。DIAMOND在竞争激烈的Atari 100k测试中设定了新的基准，实现了1.46的平均人类归一化分数，这是完全在世界模型中训练的代理的最高分数。 DIAMOND：视觉细节在Atari和扩散中对世界建模的重要性世界模型或环境的生成模型正在成为生成代理计划和推理其环境的更重要组件。虽然强化学习在近年来取得了相当大的成功，但实现强化学习的模型以其样本低效而闻名，这大大限制了其在现实世界中的应用。另一方面，世界模型已经展示了其在不同环境中高效训练强化学习代理的能力，样本效率大大提高，使模型能够从现实世界的经验中学习。最近的世界建模框架通常将环境动态建模为一系列离散潜在变量，模型将潜在空间离散化以避免多步时间范围内的复合错误。虽然这种方法可能会带来实质性的结果，但它也会导致信息损失，导致重构质量和普遍性的损失。信息损失可能会成为需要信息明确定义的现实世界场景中的重大障碍，例如训练自主车辆。在这样的任务中，视觉输入中的小变化或细节，例如交通信号灯的颜色或前方车辆的转向指示器，可能会改变代理的政策。虽然增加离散潜在变量的数量可以帮助避免信息损失，但它会显著增加计算成本。此外，近年来，扩散模型已经成为高质量图像生成框架的主导方法，因为基于扩散模型的框架学习逆转噪声过程，并直接与一些更成熟的方法竞争，这些方法使用离散令牌，因此为世界建模提供了一个有前途的替代方案，以消除离散化的需要。扩散模型以其易于条件化和灵活地模拟复杂、多模态分布而闻名，而不会出现模式崩溃。这些属性对于世界建模至关重要，因为条件化使世界模型能够准确反映代理的行为，导致更可靠的信用分配。此外，模拟多模态分布为代理提供了更多的训练场景，增强了其整体性能。基于这些特点，DIAMOND（DIffusion As a Model Of eNvironment Dreams）是一个在扩散世界模型中训练的强化学习代理。DIAMOND框架进行了仔细的设计选择，以确保其扩散世界模型在长时间范围内保持高效和稳定。该框架提供了一个定性分析，以展示这些设计选择的重要性。DIAMOND在Atari 100k基准测试中设定了新的最先进水平，实现了1.46的平均人类归一化分数，这是完全在世界模型中训练的代理的最高分数。在图像空间中运行使得DIAMOND的扩散世界模型能够无缝地替换环境，提供了对世界模型和代理行为的更深入的见解。值得注意的是，在某些游戏中，性能的提高归因于对关键视觉细节的更好建模。DIAMOND框架将环境建模为一个标准的POMDP或部分可观察的马尔可夫决策过程，具有状态集、离散动作集和图像观察集。转换函数描述了环境动态，奖励函数将转换映射到标量奖励。观察函数描述了观察概率，并发出图像观察，这些观察由代理使用来查看环境，因为它们无法直接访问状态。这种方法的主要目标是获得一个将观察映射到动作的政策，尝试在折扣因子下最大化预期折扣回报。世界模型是环境的生成模型，可以用来创建模拟环境来训练强化学习代理在真实环境中，并在世界模型环境中训练强化学习代理。图1演示了DIAMOND框架随时间的想象展开。 DIAMOND：方法论和架构在其核心，扩散模型是一类生成模型，通过逆转噪声过程生成样本，并从非平衡热力学中汲取灵感。DIAMOND框架考虑了一个由连续时间变量索引的扩散过程，具有相应的边缘和边界条件，以及一个可追踪的非结构化先验分布。此外，为了获得一个从噪声到数据的生成模型，DIAMOND框架必须逆转该过程，逆转过程也是一个扩散过程，逆时间运行。进一步来说，在任何给定时间点，估计分数函数并非易事，因为DIAMOND框架无法访问真实的分数函数，模型通过实现分数匹配目标来克服这一障碍，这是一种使框架能够在不知道潜在分数函数的情况下训练分数模型的方法。基于分数的扩散模型提供了一个无条件的生成模型。然而，需要一个条件生成模型来模拟环境动态，作为世界模型，DIAMOND框架考虑了POMDP方法的一般情况，在这种情况下，框架可以使用过去的观察和动作来近似未知的马尔可夫状态。如图1所示，DIAMOND框架使用这种历史来条件一个扩散模型，以估计和直接生成下一个观察。虽然DIAMOND框架可以在理论上使用任何SDE或ODE求解器，但在NFE或函数评估次数和样本质量之间存在一个权衡，这会显著影响扩散模型的推理成本。基于上述见解，让我们现在来看看基于扩散的世界模型的实际实现，包括与特定扩散方法选择相对应的漂移和扩散系数。与其选择DDPM（一种自然适合该任务的候选项），DIAMOND框架建立在EDM公式化上，并考虑了一个具有扩散时间的实值函数的扰动核，称为噪声时间表。该框架选择了预处理器，以保持任何语音级别的输入和输出方差。网络训练根据降级水平自适应地混合信号和噪声，当噪声低时，目标变为干净信号和扰动信号之间的差异，即添加的高斯噪声。直观地，这防止了训练目标在低噪声区变得琐碎。在实践中，该目标在噪声时间表的极端处具有高方差，因此模型从一个经验上选择的对数正态分布中采样噪声级别，以便在中等噪声区域周围连接训练。DIAMOND框架使用标准的2D U-Net组件作为向量场，并保持一个过去观察和动作的缓冲区，该缓冲区由框架用于条件化自身。然后，DIAMOND框架将这些过去的观察连接到下一个嘈杂的观察，并通过U-Net的残差块中的自适应组归一化层输入动作。 DIAMOND：实验和结果为了进行全面评估，DIAMOND框架选择了Atari 100k基准测试。Atari 100k基准测试由26个游戏组成，旨在测试代理的广泛能力。在每个游戏中，代理的环境操作次数限制为100k，这大约相当于2小时的人类游戏时间，以便在评估之前学习游戏。为了比较，未受限制的Atari代理通常需要5000万步来训练，代表着500倍的经验增加。我们使用5个随机种子对每个游戏从头开始训练DIAMOND。每次训练运行大约需要12GB的VRAM，并在单个Nvidia...
人工智能 2024年7月15日

Paint3D：一种使用闪电般的扩散模型进行图像生成的方法

随着深度生成式AI模型的出现，AI在自然语言生成、3D生成、图像生成和语音合成方面的能力得到了显著的提升。3D生成模型已经改变了许多行业和应用，彻底改变了当前的3D生产格局。然而，许多当前的深度生成模型都面临着一个共同的挑战：复杂的电路和生成的网格具有照明纹理，通常与传统的渲染管道（如PBR（基于物理的渲染））不兼容。基于扩散的模型可以生成不具有照明纹理的3D资产，具有生成多样化3D资产的显著能力，从而增强了现有的3D框架，在诸如电影制作、游戏和增强/虚拟现实等行业中发挥着重要作用。在本文中，我们将讨论Paint3D，一种新的粗糙到精细的框架，能够为未纹理的3D网格生成多样化的、高分辨率的2K UV纹理图，条件为视觉或文本输入。Paint3D解决的主要挑战是生成高质量的纹理而不嵌入照明信息，允许用户在现代图形管道中重新编辑或重新照明。为了解决这个问题，Paint3D框架使用预训练的2D扩散模型来执行多视图纹理融合和生成视图条件图像，最初生成一个粗糙的纹理图。然而，由于2D模型不能完全禁用照明效果或完全表示3D形状，纹理图可能会出现照明伪影和不完整区域。在本文中，我们将深入探讨Paint3D框架，研究其工作原理和架构，并将其与最先进的深度生成框架进行比较。因此，让我们开始。Paint3D：介绍深度生成式AI模型已经展示了其在自然语言生成、3D生成和图像合成方面的卓越能力，并已在实际应用中得到实施，彻底改变了3D生成行业。然而，尽管它们具有显著的能力，现代深度生成式AI框架通常会生成具有复杂电路和混乱照明纹理的网格，这些纹理与传统的渲染管道（包括PBR）不兼容。同样，纹理合成也迅速进步，尤其是在使用2D扩散模型时。这些模型有效地利用预训练的深度到图像扩散模型和文本条件来生成高质量的纹理。然而，一个重大挑战仍然存在：预照明纹理会对最终的3D环境渲染产生不利影响，当在常见的工作流程中调整光线时，会引入照明错误，如下图所示。如观察到的那样，纹理图没有预照明可以与传统的渲染管道无缝工作，提供准确的结果。相比之下，具有预照明的纹理图在重新照明时会包含不适当的阴影。训练有素的3D数据的纹理生成框架提供了一种替代方法，通过了解特定3D对象的整个几何形状来生成纹理。虽然这些框架可能会提供更好的结果，但它们缺乏所需的泛化能力，以将模型应用于训练数据以外的3D对象。当前的纹理生成模型面临两个关键挑战：实现不同对象的广泛泛化，使用图像指导或多样化的提示，并消除来自预训练结果的耦合照明。预照明纹理会干扰渲染引擎中纹理对象的最终结果。此外，由于预训练的2D扩散模型仅在视图域中提供2D结果，因此它们缺乏对形状的全面理解，导致在3D对象中维持视图一致性时出现不一致性。为了解决这些挑战，Paint3D框架开发了一个双阶段的纹理扩散模型，用于3D对象，能够泛化到不同的预训练生成模型，并在生成照明自由的纹理时保持视图一致性。Paint3D是一种双阶段的、粗糙到精细的纹理生成模型，利用预训练的生成式AI模型的强大提示指导和图像生成能力来纹理3D对象。在第一阶段，Paint3D从预训练的深度感知2D图像扩散模型中逐渐采样多视图图像，实现从多样化提示中泛化高质量、丰富的纹理结果。然后，模型通过将这些图像反投影到3D网格表面来生成初始纹理图。在第二阶段，模型专注于生成照明自由的纹理，通过实施专门用于去除照明影响和完善形状感知不完整区域的扩散模型的方法。在整个过程中，Paint3D框架一致地生成高质量的2K纹理，语义上消除了内在的照明效果。总之，Paint3D是一种新颖的、粗糙到精细的生成式AI模型，旨在为未纹理的3D网格生成多样化的、照明自由的、高分辨率的2K UV纹理图。它旨在实现对3D对象进行纹理的最先进性能，使用不同的条件输入，包括文本和图像，提供了显著的优势用于合成和图形编辑任务。方法和架构Paint3D框架生成和完善纹理图，以生成3D模型的多样化和高质量的纹理，使用条件输入，如图像和提示，如下图所示。第1阶段：渐进式粗糙纹理生成在初始的粗糙纹理生成阶段，Paint3D使用预训练的2D图像扩散模型来采样多视图图像，然后将这些图像反投影到网格表面以创建初始纹理图。这个阶段从生成不同相机视图的深度图开始。模型使用深度条件从扩散模型中采样图像，然后将这些图像反投影到3D网格表面。这种交替渲染、采样和反投影的方法增强了纹理网格的一致性，有助于渐进式生成纹理图。这个过程从3D网格的可见区域开始，首先从第一个相机视图生成纹理，通过渲染3D网格到深度图。然后，根据外观和深度条件采样纹理图像，并将其反投影到网格上。这个方法对于后续视图进行重复，结合以前的纹理来渲染不仅是一个深度图像，还渲染一个部分着色的RGB图像，带有未着色的掩码。模型使用深度感知图像修复编码器来填充未着色的区域，通过将修复图像反投影到3D网格上，生成一个完整的粗糙纹理图。对于更复杂的场景或对象，模型使用多个视图。最初，它从对称视图捕获两个深度图，并将它们合并到一个深度网格中，取代单个深度图像，用于多视图深度感知纹理采样。第2阶段：UV空间中的纹理细化尽管生成了逻辑的粗糙纹理图，但仍然存在诸如渲染过程中的纹理孔和2D图像扩散模型中的照明阴影等挑战。为了解决这些问题，Paint3D在粗糙纹理图的基础上，在UV空间中执行扩散过程，增强视觉效果并解决问题。然而，在UV空间中细化纹理图可能会由于连续纹理被分解为个别碎片而引入不连续性。为了减轻这一问题，Paint3D通过使用纹理碎片的邻接信息来细化纹理图。在UV空间中，位置图表示3D网格上的纹理碎片的邻接信息，将每个非背景元素视为3D点坐标。模型使用一个额外的位置图编码器，类似于ControlNet，来集成邻接信息到扩散过程中。模型同时使用条件编码器和其他编码器的位置来执行UV空间中的细化任务，提供两种能力：UVHD（UV高定义）和UV修复。UVHD增强视觉效果和美观度，使用图像增强编码器和位置编码器与扩散模型。UV修复填充纹理孔，避免渲染中的自遮挡问题。细化阶段从UV修复开始，接着是UVHD，以生成最终的细化纹理图。通过集成这些细化方法，Paint3D框架生成完整、多样化、高分辨率和照明自由的UV纹理图，使其成为纹理3D对象的强大解决方案。Paint3D：实验和结果Paint3D模型利用Stable Diffusion文本到图像模型来协助纹理生成任务，而图像编码器组件管理图像条件。为了增强其对条件任务（如图像修复、深度处理和高清图像）的控制，Paint3D框架采用ControlNet域编码器。该模型是在PyTorch框架上实现的，渲染和纹理投影在Kaolin上执行。文本到纹理比较为了评估Paint3D的性能，我们首先分析其在文本提示条件下的纹理生成，比较它与最先进的框架，如Text2Tex、TEXTure和LatentPaint。如下图所示，Paint3D框架不仅在生成高质量的纹理细节方面表现出色，而且还有效地合成了一个无照明的纹理图。通过利用Stable Diffusion和ControlNet编码器的强大能力，Paint3D提供了卓越的纹理质量和多样性。比较结果突出了Paint3D生成详细、高分辨率纹理的能力，而无需嵌入照明，使其成为3D纹理任务的领先解决方案。与之相比，Latent-Paint框架容易生成模糊的纹理，导致视觉效果不佳。另一方面，虽然TEXTure框架生成清晰的纹理，但缺乏平滑度，表现出明显的拼接和缝隙。最后，Text2Tex框架生成平滑的纹理非常出色，但在生成具有复杂细节的精细纹理方面却无法复制其性能。以下图像比较了Paint3D框架与最先进的框架的量化结果。如观察到的，Paint3D框架在FID基线上超过所有现有模型，表现出近30%的改进，在KID基线上约有40%的改进。FID和KID基线分数的改进表明了Paint3D生成高质量纹理的能力，适用于多样化的对象和类别。图像到纹理比较为了生成Paint3D的生成能力，使用视觉提示，我们使用TEXTure模型作为基线。如前所述，Paint3D模型采用Stable Diffusion的文本到图像模型的图像编码器。如下图所示，Paint3D框架合成了精美的纹理，仍然保持了对图像条件的高保真度。另一方面，TEXTure框架能够生成类似于Paint3D的纹理，但在准确表示图像条件中的纹理细节方面却有所欠缺。另外，如下图所示，Paint3D框架在与TEXTure框架相比时，提供了更好的FID和KID基线分数，前者从40.83下降到26.86，后者从9.76下降到4.94。最后的想法在本文中，我们讨论了Paint3D，一种新的粗糙到精细的框架，能够为未纹理的3D网格生成照明自由的、多样化的、高分辨率的2K UV纹理图，条件为视觉或文本输入。Paint3D框架的主要亮点是其能够生成照明自由的、高分辨率的2K UV纹理，语义上一致，而无需条件为图像或文本输入。由于其粗糙到精细的方法，Paint3D框架生成照明自由的、多样化的、高分辨率的纹理图，并且其性能优于当前最先进的框架。
人工智能 2024年7月9日

MARKLLM：一个用于LLM水印的开源工具包

LLM水印是一种将不可见但可检测的信号集成到模型输出中，以识别由LLM生成的文本的技术，对于防止大型语言模型的滥用至关重要。这些水印技术主要分为两类：KGW家族和Christ家族。KGW家族通过修改LLM产生的logits来创建水印输出，根据前一个token将词汇表分为绿色列表和红色列表。在文本生成过程中，引入了对绿色列表token的偏差，偏爱这些token在生成的文本中。然后，从绿色单词的比例中计算出一个统计指标，并建立一个阈值来区分水印和非水印文本。KGW方法的增强包括改进的列表分区、更好的logits操作、增加水印信息容量、抵抗水印删除攻击以及公开检测水印的能力。相反，Christ家族在LLM文本生成过程中改变了采样过程，通过改变token的选择来嵌入水印。两种水印家族都旨在平衡水印的可检测性和文本质量，解决了诸如在不同熵设置中保持稳健性、增加水印信息容量和防止删除尝试等挑战。最近的研究重点是改进列表分区和logits操作、增强水印信息容量、开发抵抗水印删除的方法以及实现公开检测。最终，LLM水印对于大型语言模型的伦理和负责任的使用至关重要，提供了一种方法来追踪和验证LLM生成的文本。KGW和Christ家族提供了两种不同的方法，每种都有其独特的优势和应用，通过持续的研究和创新不断演进。由于LLM水印框架能够在模型输出中嵌入算法可检测的信号，以识别由LLM框架生成的文本，因此LLM水印框架在减轻大型语言模型滥用的风险方面发挥着至关重要的作用。然而，当前市场上存在大量LLM水印框架，每个框架都有其自己的观点和评估程序，这使得研究人员难以轻松地尝试这些框架。为了解决这个问题，MarkLLM，一个用于水印的开源工具包，提供了一个可扩展和统一的框架来实现LLM水印算法，同时提供用户友好的接口，以确保易用性和访问性。此外，MarkLLM框架支持这些框架机制的自动可视化，从而提高了这些模型的可理解性。MarkLLM框架提供了一个全面的12种工具套件，涵盖了三个方面以及两个自动评估管道，用于评估其性能。本文旨在深入探讨MarkLLM框架，我们将探索其机制、方法论、架构以及与最先进框架的比较。让我们开始吧。MarkLLM：一个LLM水印工具包像LLaMA、GPT-4、ChatGPT等大型语言模型框架的出现，显著推进了人工智能模型执行特定任务的能力，包括创意写作、内容理解、形成检索等。然而，随着当前大型语言模型的卓越能力而来的，还有一些风险，包括学术论文代写、LLM生成的假新闻和描绘，以及个人模仿等。鉴于这些问题的风险，开发可靠的方法来区分LLM生成的内容和人类内容至关重要，这是确保数字通信的真实性和防止虚假信息传播的主要要求。过去几年，LLM水印被认为是区分LLM生成内容和人类内容的一种有前途的解决方案，通过在文本生成过程中嵌入独特的特征，可以使用专门设计的检测器来识别LLM输出。然而，由于LLM水印框架的增殖和相对复杂的算法，以及评估指标和观点的多样化，使得尝试这些框架变得极其困难。为了弥补当前的差距，MarkLLM框架试图做出以下贡献。MarkLLM提供了一致且用户友好的接口，用于加载算法、生成水印文本、进行检测过程和收集可视化数据。它为两大主要水印算法家族提供了自定义的可视化解决方案，允许用户在各种配置和现实世界示例中看到不同算法的工作原理。工具包包括一个全面的评估模块，涵盖了12种工具，解决了可检测性、稳健性和文本质量影响的问题。另外，它具有两种自动评估管道，支持用户自定义数据集、模型、评估指标和攻击，方便灵活和彻底的评估。MarkLLM采用模块化、松散耦合的架构，增强了可扩展性和灵活性。这种设计选择支持新算法、创新可视化技术和评估工具包的扩展，以适应未来开发者的需求。已经提出了许多水印算法，但是它们独特的实现方法通常优先考虑特定的需求而不是标准化，导致了几个问题类设计的标准化不足：这需要在优化或扩展现有方法时付出大量努力，因为类设计标准化不足。顶级调用接口的统一性不足：不一致的接口使得批处理和复制不同算法变得繁琐和劳动密集。代码标准问题：挑战包括需要在多个代码段中修改设置以及不一致的文档，这使得自定义和有效使用变得复杂。硬编码的值和不一致的错误处理进一步阻碍了适应性和调试工作。为了解决这些问题，我们的工具包提供了一个统一的实现框架，能够在灵活的配置下方便地调用各种最先进的算法。另外，我们精心设计的类结构为未来扩展铺平了道路。下图展示了这个统一实现框架的设计。由于框架的分布式设计，开发人员可以轻松地向任何特定的水印算法类添加额外的顶级接口，而无需担心影响其他算法。MarkLLM：架构和方法论LLM水印技术主要分为两类：KGW家族和Christ家族。KGW家族通过修改LLM产生的logits来创建水印输出，根据前一个token将词汇表分为绿色列表和红色列表。在文本生成过程中，引入了对绿色列表token的偏差，偏爱这些token在生成的文本中。然后，从绿色单词的比例中计算出一个统计指标，并建立一个阈值来区分水印和非水印文本。KGW方法的增强包括改进的列表分区、更好的logits操作、增加水印信息容量、抵抗水印删除攻击以及公开检测水印的能力。相反，Christ家族在LLM文本生成过程中改变了采样过程，通过改变token的选择来嵌入水印。两种水印家族都旨在平衡水印的可检测性和文本质量，解决了诸如在不同熵设置中保持稳健性、增加水印信息容量和防止删除尝试等挑战。最近的研究重点是改进列表分区和logits操作、增强水印信息容量、开发抵抗水印删除的方法以及实现公开检测。最终，LLM水印对于大型语言模型的伦理和负责任的使用至关重要，提供了一种方法来追踪和验证LLM生成的文本。KGW和Christ家族提供了两种不同的方法，每种都有其独特的优势和应用，通过持续的研究和创新不断演进。自动化综合评估评估LLM水印算法是一项复杂的任务。首先，它需要考虑各种方面，包括水印的可检测性、抗篡改的稳健性和对文本质量的影响。其次，来自每个角度的评估可能需要不同的指标、攻击场景和任务。另外，进行评估通常涉及多个步骤，例如模型和数据集的选择、水印文本的生成、后处理、水印检测、文本篡改和指标计算。为了方便LLM水印算法的评估，MarkLLM提供了12种用户友好的工具，包括各种指标计算器和攻击器，涵盖了三个评估角度。另外，MarkLLM提供了两种自动化的演示管道，其模块可以灵活地自定义和组装，允许用户轻松配置和使用。对于可检测性的方面，大多数水印算法最终需要指定一个阈值来区分水印和非水印文本。我们提供了一个基本的成功率计算器，使用固定阈值。另外，为了最小化阈值选择对可检测性的影响，我们还提供了一个支持动态阈值选择的计算器。这个工具可以确定产生最佳F1分数的阈值或根据用户指定的目标假阳性率（FPR）选择阈值。对于稳健性的方面，MarkLLM提供了三种单词级别的文本篡改攻击：在指定比例下随机删除单词、使用WordNet作为同义词集的随机同义词替换以及使用BERT作为嵌入模型的上下文感知同义词替换。另外，提供了两种文档级别的文本篡改攻击：通过OpenAI API或Dipper模型对上下文进行改述。对于文本质量的方面，MarkLLM提供了两种直接分析工具：一个困惑度计算器来衡量流利度和一个多样性计算器来评估文本的可变性。为了分析水印对特定下游任务的文本实用性的影响，我们提供了一个BLEU计算器用于机器翻译任务和一个通过/不通过判断器用于代码生成任务。另外，考虑到当前比较水印和非水印文本质量的方法，包括使用更强大的LLM进行判断，MarkLLM还提供了一个GPT鉴别器，使用GPT-4来比较文本质量。评估管道为了方便LLM水印算法的自动化评估，MarkLLM提供了两种评估管道：一种用于评估水印的可检测性，包括有攻击和无攻击的情况；另一种用于分析水印对文本质量的影响。按照这个过程，我们已经实现了两种管道：WMDetect3和UWMDetect4。两者之间的主要区别在于文本生成阶段。前者需要使用水印算法的generate_watermarked_text方法，而后者则依赖于text_source参数来确定是否直接从数据集中检索自然文本或调用generate_unwatermarked_text方法。为了评估水印对文本质量的影响，生成了水印和非水印文本的对。这些文本以及其他必要的输入，然后被处理并输入到指定的文本质量分析器中，以产生详细的分析和比较结果。按照这个过程，我们已经实现了三种管道，用于不同的评估场景： DirectQual.5：这个管道专门设计用于通过直接比较水印文本和非水印文本的特征来分析文本质量。它评估了困惑度（PPL）和对数多样性等指标，而无需任何外部参考文本。 RefQual.6：这个管道通过比较水印和非水印文本与一个共同的参考文本来评估文本质量。它衡量了文本与参考文本的相似度或偏差程度，使其适合需要特定下游任务来评估文本质量的场景，例如机器翻译和代码生成。 ExDisQual.7：这个管道使用外部判断器（如GPT-4（OpenAI，2023））来评估水印和非水印文本的质量。鉴别器根据用户提供的任务描述评估文本，确定由于水印而可能造成的任何质量下降或保持。这种方法特别适用于需要使用先进的AI分析来评估水印的微妙影响的情况。 MarkLLM：实验和结果为了评估其性能，MarkLLM框架对九种不同的算法进行了评估，并评估了它们对文本质量的影响、稳健性和可检测性。上表包含了评估MarkLLM支持的九种算法的可检测性的结果。使用动态阈值调整来评估水印的可检测性，提供了三种设置：在目标假阳性率（FPR）为10%的情况下，在目标FPR为1%的情况下，以及在最佳F1分数性能的情况下。生成了200个水印文本，而200个非水印文本作为负面示例。我们提供了在动态阈值调整下10%和1%的FPR以及在最佳性能下的TPR和F1分数。下表包含了评估MarkLLM支持的九种算法的稳健性的结果。对于每种攻击，生成了200个水印文本并随后进行了篡改，还有200个非水印文本作为负面示例。我们报告了在每种情况下的最佳性能下的TPR和F1分数。最后的思考在这篇文章中，我们讨论了MarkLLM，一个用于水印的开源工具包，它提供了一个可扩展和统一的框架来实现LLM水印算法，同时提供了用户友好的接口，以确保易用性和访问性。此外，MarkLLM框架支持这些框架机制的自动可视化，从而提高了这些模型的可理解性。MarkLLM框架提供了一个全面的12种工具套件，涵盖了三个方面以及两个自动评估管道，用于评估其性能。
人工智能 2024年6月14日

MoRA：用于PEFT的高秩更新

由于其在与其他方法相比具有强大的性能和广泛的适用性，LoRA或低秩适应是PEFT或参数高效微调中最流行的方法之一，用于对大型语言模型进行微调。LoRA框架采用两种低秩矩阵来分解和近似FFT或全微调中的更新权重，并且LoRA框架通过调整矩阵的秩来修改这些可训练参数。实施此过程的主要好处是，它可以在微调后无需推理延迟地合并这些矩阵。另外，尽管最近的大型语言模型在上下文学习任务中表现出色，但某些场景仍需要微调，可以大致分为三种类型。第一种类型是指令微调，旨在更好地将LLM与最终任务和用户偏好对齐，而不增强LLM的知识和能力，这种方法简化了处理多种任务和复杂指令的过程。第二种类型包括数学问题解决等复杂推理任务。最后，第三种类型是持续预训练，旨在增强大型语言模型的整体领域特定能力。在本文中，我们将讨论低秩更新是否会影响LoRA框架的性能，因为观察到低秩更新机制可能会阻碍大型语言模型学习和记忆新知识的能力。基于此，本文将讨论MoRA，一种新的方法，它通过使用平方矩阵实现高秩更新，同时保持相同数量的可训练参数。为了实现这一点，MoRA框架通过引入相应的非参数运算符来减少输入维度并增加平方矩阵的输出维度。此外，这些运算符确保权重可以合并回LLM，这使得MoRA框架可以像LoRA一样部署。本文旨在深入介绍MoRA框架，我们将探讨其机制、方法论、架构以及与最先进框架的比较。那么，让我们开始吧。MoRA：用于PEFT的高秩更新随着语言模型的规模和能力的增加，PEFT或参数高效微调已经成为将LLM适应特定下游任务最流行和高效的方法之一。与更新所有参数的FFT相比，PEFT只修改总参数的一小部分，因此在某些任务上可以通过更新少于1%的总参数来实现与FFT类似的性能，从而显著减少优化器的内存需求，同时方便模型的存储和部署。此外，在所有现有的PEFT方法中，LoRA是目前最流行的，尤其适用于LLM。LoRA方法之所以比其他PEFT方法（如适配器或提示微调）表现更好，主要是因为LoRA使用低秩矩阵来更新参数，而框架可以将这些矩阵合并到原始模型参数中，而不会增加推理期间的计算需求。尽管有许多方法试图改进LoRA以适应大型语言模型，但这些方法大多依赖于GLUE来验证其效率，要么需要很少的可训练参数，要么能实现更好的性能。此外，在广泛的任务（包括持续预训练、数学推理和指令微调）上进行的LoRA实验表明，尽管LoRA基于框架在这些任务上表现出类似的性能，并且在指令微调任务上与FFT基于方法具有可比的性能，但LoRA基于模型在持续预训练和数学推理任务上无法复制FFT的性能。LoRA可能依赖于低秩矩阵更新，这可能是其性能不佳的原因，因为低秩更新矩阵可能难以估计FFT中的全秩更新，特别是在需要记忆领域特定知识的内存密集型任务中，如持续预训练。由于低秩更新矩阵的秩小于全秩，微调时限制了存储新信息的能力。基于这些观察，MoRA试图在低秩更新矩阵中最大化秩，同时保持相同数量的可训练参数，方法是使用平方矩阵而不是传统LoRA模型中的低秩矩阵。以下图表比较了在相同数量可训练参数下的MoRA框架和LoRA。如上图所示，（a）表示LoRA，（b）表示MoRA。W是来自模型的冻结权重，M是MoRA中的可训练矩阵，A和B是LoRA中的可训练低秩矩阵，r表示LoRA和MoRA中的秩。可以观察到，MoRA框架比LoRA模型具有更大的容量。另外，MoRA框架开发了相应的非参数运算符来减少输入维度并增加可训练矩阵M的输出维度。此外，MoRA框架允许使用低秩更新矩阵来代替可训练矩阵M和运算符，从而确保MoRA方法可以像LoRA一样合并回大型语言模型。以下表格比较了FFT、LoRA、LoRA变体和我们方法在指令微调、数学推理和持续预训练任务上的性能。MoRA：方法论和架构低秩更新的影响LoRA基于模型的关键原理是使用低秩更新来估计FFT中的全秩更新。传统上，对于给定的预训练参数矩阵，LoRA采用两种低秩矩阵来计算权重更新。为了确保训练开始时的权重更新为0，LoRA框架用高斯分布初始化一个低秩矩阵，另一个低秩矩阵初始化为0。LoRA中的权重更新在FFT中的低秩更新相比具有低秩，尽管LoRA中的低秩更新在某些任务（如指令微调和文本分类）上具有与全秩更新相似的性能，但其在持续预训练和复杂推理等任务上的性能开始下降。基于这些观察，MoRA提出，利用LLM的能力和原始知识来解决任务使用低秩更新更容易，但模型在执行需要增强LLM能力和知识的任务时会遇到困难。方法论尽管具有上下文学习的LLM比以前的方法有了显著的改进，但仍有一些情况需要微调，通常可以分为三类。第一类是指令微调，旨在更好地将LLM与最终任务和用户偏好对齐，而不增强LLM的知识和能力，这使得处理多种任务和复杂指令更容易。第二类是数学问题解决等复杂推理任务，对于这些任务，通用指令微调不足以处理复杂的符号多步骤推理任务。最近的研究主要集中在提高LLM的推理能力，通常需要根据更大的教师模型（如GPT-4）设计相应的训练数据集，或者沿着推理路径重新表述理由对应的问题。第三类是持续预训练，旨在提高LLM的领域特定能力。与指令微调不同，持续预训练需要微调来丰富相关的领域特定知识和技能。然而，大多数LoRA变体几乎只使用GLUE指令微调或文本分类任务来评估其在LLM中的有效性。由于指令微调需要的资源最少，因此可能无法在LoRA变体之间进行适当的比较。添加推理任务来更好地评估其方法是一种常见的做法，但通常我们使用的小型训练集（即使有100万个示例，也相当大）。LLM在这些示例中难以学习适当的推理。例如，一些方法使用GSM8K，只有7.5K个训练集。然而，这些数字比最先进的方法（在395K个样本上训练）要少，这使得评估这些方法学习NLP推理能力的能力变得困难。基于低秩更新的影响，MoRA框架提出了一种新的方法来减轻低秩更新的负面影响。MoRA框架的基本原理是使用相同的可训练参数来最大限度地实现低秩更新矩阵的高秩。考虑到预训练权重，LoRA框架使用两个低秩矩阵A和B，具有总可训练参数的秩r。然而，对于相同数量的可训练参数，平方矩阵可以实现最高的秩，MoRA框架通过减少输入维度和增加可训练平方矩阵的输出维度来实现这一点。另外，这两个函数应该是非参数化的运算符，预计在与维度成线性关系的时间内执行。MoRA：实验和结果为了评估其性能，MoRA框架在广泛的任务上进行了评估，以了解高秩更新对三个任务的影响：记忆UUID对、微调任务和预训练。记忆UUID对为了展示性能的改进，MoRA框架与FFT和LoRA框架在记忆UUID对方面进行了比较。训练损失如以下图像所示。值得注意的是，MoRA框架在具有相同数量可训练参数的情况下能够比现有的LoRA模型表现更好，表明它从高秩更新策略中受益。不同训练步骤下的字符级训练准确率报告如下表所示。如图所示，与LoRA相比，MoRA框架需要更少的训练步骤来记忆UUID对。微调任务为了评估其在微调任务上的性能，MoRA框架在三个微调任务上进行了评估：指令微调、数学推理和持续预训练，这些任务是为大型语言模型设计的，并且具有高质量的对应数据集，用于MoRA和LoRA模型。微调任务的结果如下表所示。如图所示，在数学推理和指令微调任务上，LoRA和MoRA模型表现出类似的性能。然而，MoRA模型在持续预训练任务上优于LoRA框架，尤其是在生物医学和金融领域，MoRA模型从高秩更新方法中受益，以记忆新知识。此外，需要了解这三个任务彼此不同，具有不同的要求和不同的微调能力。预训练为了评估高秩更新对整体性能的影响，MoRA框架中的变换器从头开始在C4数据集上训练，并且其性能与LoRA和ReLoRA模型进行了比较。预训练损失和C4数据集上的对应复杂度如下图所示。如图所示，MoRA模型在预训练任务上比LoRA和ReLoRA模型表现更好，尤其是在具有相同数量可训练参数的情况下。另外，为了展示高秩更新对低秩更新矩阵秩的影响，MoRA框架分析了预训练250M模型后学习的低秩更新矩阵的奇异值谱，结果如下图所示。结论在本文中，我们讨论了低秩更新是否会影响LoRA框架的性能，因为观察到低秩更新机制可能会阻碍大型语言模型学习和记忆新知识的能力。基于此，我们讨论了MoRA，一种新的方法，它通过使用平方矩阵实现高秩更新，同时保持相同数量的可训练参数。为了实现这一点，MoRA框架通过引入相应的非参数运算符来减少输入维度并增加平方矩阵的输出维度。此外，这些运算符确保权重可以合并回LLM，这使得MoRA框架可以像LoRA一样部署。
人工智能 2024年6月11日

LightAutoML：金融服务的自动机器学习框架

虽然自动机器学习（AutoML）几年前就已经流行起来，但早期的AutoML工作可以追溯到90年代初，当时科学家们发表了关于超参数优化的第一篇论文。2014年，ICML组织了第一次AutoML工作坊，AutoML才获得了机器学习开发者的关注。多年来，AutoML的一个主要焦点是超参数搜索问题，即模型实现了一系列优化方法，以确定特定机器学习模型在大型超参数空间中的最佳性能超参数。AutoML模型常用的另一种方法是估计特定超参数是给定机器学习模型的最佳超参数的概率。模型通过实现贝叶斯方法来实现这一点，传统上使用来自以前估计模型的历史数据和其他数据集。除了超参数优化之外，其他方法尝试从一组建模替代方案中选择最佳模型。在这篇文章中，我们将介绍LightAutoML，一个主要为欧洲金融领域公司及其生态系统开发的自动机器学习系统。LightAutoML框架在各个应用中得到部署，结果表明其性能优于现有自动机器学习框架，甚至在构建高质量机器学习模型时也能达到数据科学家的水平。LightAutoML框架试图做出以下贡献。首先，LightAutoML框架主要为大型欧洲金融和银行机构的生态系统开发。由于其框架和架构，LightAutoML框架能够在几个开源基准和生态系统应用中超越现有的自动机器学习框架。LightAutoML框架的性能也与数据科学家手动调优的模型进行了比较，结果表明LightAutoML框架具有更强的性能。本文旨在深入介绍LightAutoML框架，我们将探讨其机制、方法论、架构以及与现有框架的比较。让我们开始吧。LightAutoML：金融服务的自动机器学习框架尽管研究人员最初在90年代初开始研究自动机器学习，但自动机器学习在过去几年中获得了大量关注，一些著名的工业解决方案实现了自动构建机器学习模型，例如Amazon的AutoGluon、DarwinAI、H20.ai、IBM Watson AI、Microsoft AzureML等。这些框架中的大多数实现了一般目的的自动机器学习解决方案，可以在不同类别的应用中自动构建机器学习模型，包括金融服务、医疗保健、教育等。这种水平的通用方法背后的关键假设是，开发自动模型的过程在所有应用中都是相同的。然而，LightAutoML框架实现了一种垂直方法，开发了一种不通用的自动机器学习解决方案，而是满足个别应用的需求，在本例中为大型金融机构。LightAutoML框架是一种垂直的自动机器学习解决方案，专注于复杂生态系统及其特征的需求。首先，LightAutoML框架提供快速和近似最优的超参数搜索。虽然模型不直接优化这些超参数，但它能够提供令人满意的结果。此外，模型在速度和超参数优化之间保持动态平衡，以确保模型在小问题上是最优的，在大问题上也是足够快的。第二，LightAutoML框架故意限制了机器学习模型的范围，只包括两种类型：线性模型和GBM（梯度提升决策树），而不是实现大量不同的算法。限制机器学习模型范围的主要原因是为了在不影响给定问题和数据的性能的情况下加快LightAutoML框架的执行时间。第三，LightAutoML框架提出了一种选择不同特征的预处理方案的独特方法，基于某些选择规则和元统计。LightAutoML框架在广泛的开源数据源和应用中进行了评估。LightAutoML：方法论和架构LightAutoML框架由称为预设的模块组成，用于典型机器学习任务的端到端模型开发。目前，LightAutoML框架支持预设模块。首先，TabularAutoML预设专注于解决定义在表格数据集上的经典机器学习问题。第二，White-Box预设实现了简单的可解释算法，例如逻辑回归，而不是WoE（权重证据）编码和离散特征，以解决表格数据上的二元分类任务。实现简单的可解释算法是一种常见的做法，用于建模应用的概率，这是由于不同因素施加的可解释性约束。第三，NLP预设能够将表格数据与NLP（自然语言处理）工具结合，包括预训练的深度学习模型和特定特征提取器。最后，CV预设使用一些基本工具处理图像数据。需要注意的是，虽然LightAutoML模型支持所有四个预设，但框架仅在生产级系统中使用TabularAutoML预设。LightAutoML框架的典型流水线包含在以下图像中。每个流水线包含三个组件。首先，读取器是一个接收任务类型和原始数据作为输入的对象，执行重要的元数据计算，清理初始数据，并确定在拟合不同模型之前要执行的数据操作。接下来，LightAutoML内部数据集包含CV迭代器和元数据，实现数据集的验证方案。第三个组件是多个机器学习流水线，堆叠和/或混合以获得单个预测。LightAutoML框架中的机器学习流水线是一种多个机器学习模型，共享单个数据验证和预处理方案。预处理步骤可能包含最多两个特征选择步骤，一个特征工程步骤，或者如果不需要预处理，则为空。机器学习流水线可以独立地在相同的数据集上计算，然后使用平均值（或加权平均值）混合在一起。或者，可以使用堆叠集成方案来构建多级集成架构。LightAutoML 表格预设在LightAutoML框架中，TabularAutoML是默认流水线，用于解决表格数据上的三种任务：二元分类、回归和多类分类，适用于广泛的性能指标和损失函数。一个包含四列的表格：分类特征、数值特征、时间戳和单个目标列，带有类标签或连续值，作为输入提供给TabularAutoML组件。LightAutoML框架设计的主要目标之一是设计一个快速假设测试工具，这也是为什么框架避免使用蛮力方法进行流水线优化，而仅关注在广泛数据集上有效的效率技术和模型的原因。自动类型和数据预处理为了以不同的方式处理不同类型的特征，模型需要知道每个特征的类型。在只有一个任务和小型数据集的情况下，用户可以手动指定每个特征的类型。然而，在包含数百个任务和包含数千个特征的数据集的情况下，手动指定每个特征的类型不再是一个可行的选择。对于TabularAutoML预设，LightAutoML框架需要将特征映射到三类：数值、类别和日期时间。一个简单而明显的解决方案是使用列数组数据类型作为实际特征类型，即将float/int列映射到数值特征，时间戳或可以解析为时间戳的字符串映射到日期时间，其他列映射到类别。然而，这种映射并不是最好的，因为数值数据类型在类别列中经常出现。验证方案验证方案是自动机器学习框架的一个重要组件，因为行业数据会随时间变化，这使得在开发模型时独立同分布（IID）假设变得不相关。自动机器学习模型使用验证方案来估计其性能、搜索超参数和生成超出折叠的预测。TabularAutoML流水线实现了三种验证方案： KFold交叉验证：KFold交叉验证是TabularAutoML流水线的默认验证方案，包括用于行为模型的GroupKFold和用于分类任务的分层KFold。 Holdout验证：如果指定了holdout集，则实现Holdout验证方案。自定义验证方案：用户可以根据自己的需求创建自定义验证方案。自定义验证方案包括交叉验证和时间序列分割方案。特征选择虽然特征选择是开发模型的重要方面，因为它可以减少推理和模型实现的成本，但大多数自动机器学习解决方案并没有太关注这个问题。相反，TabularAutoML流水线实现了三种特征选择策略：无选择、重要性截断选择和重要性基于的向前选择。在这三种策略中，重要性截断选择是默认策略。另外，有两种主要方法来估计特征重要性：基于分割的树重要性和GBM模型（梯度提升决策树）的置换重要性。重要性截断选择的主要目标是拒绝对模型无益的特征，使模型能够在不影响性能的情况下减少特征数量，这可能会加快模型推理和训练。上图比较了不同选择策略在二元银行数据集上的表现。超参数调优TabularAutoML流水线根据调优的内容实现了不同的超参数调优方法。早期停止超参数调优选择所有模型在训练阶段的迭代次数。专家系统超参数调优是一种简单的方法，用于为模型设置满意的超参数。它防止最终模型的评分与硬调优模型相比大幅下降。树结构Parzen估计（TPE）用于GBM（梯度提升决策树）模型。TPE是一种混合调优策略，是LightAutoML流水线中的默认选择。对于每个GBM框架，LightAutoML框架训练两个模型：第一个模型获得专家超参数，第二个模型经过微调以适应时间预算。网格搜索超参数调优在TabularAutoML流水线中实现，以微调线性模型的正则化参数，伴随早期停止和温热启动。模型通过最大化指标函数（由用户定义或为解决任务的默认值）来调优所有参数。LightAutoML：实验和性能为了评估性能，LightAutoML框架中的TabularAutoML预设与现有的开源解决方案在各种任务中进行了比较，证实了LightAutoML框架的优异性能。首先，比较是在OpenML基准上进行的，评估了35个二元和多类分类任务数据集。以下表格总结了LightAutoML框架与现有自动机器学习系统的比较。如图所示，LightAutoML框架在20个数据集上超越了所有其他自动机器学习系统。以下表格包含详细的比较，表明LightAutoML在不同任务类别上具有不同的性能。对于二元分类任务，LightAutoML的性能略逊，而对于具有大量数据的任务，LightAutoML框架则具有优异的性能。以下表格比较了LightAutoML框架与自动机器学习系统在15个银行数据集上的性能，包含各种二元分类任务。如图所示，LightAutoML在12个数据集上超越了所有自动机器学习解决方案，胜率为80%。结论在本文中，我们讨论了LightAutoML，一个主要为欧洲金融领域公司及其生态系统开发的自动机器学习系统。LightAutoML框架在各个应用中得到部署，结果表明其性能优于现有的自动机器学习框架，甚至在构建高质量机器学习模型时也能达到数据科学家的水平。LightAutoML框架试图做出以下贡献。首先，LightAutoML框架主要为大型欧洲金融和银行机构的生态系统开发。由于其框架和架构，LightAutoML框架能够在几个开源基准和生态系统应用中超越现有的自动机器学习框架。LightAutoML框架的性能也与数据科学家手动调优的模型进行了比较，结果表明LightAutoML框架具有更强的性能。LightAutoML框架能够在几个开源基准和生态系统应用中超越现有的自动机器学习框架，其性能也优于数据科学家手动调优的模型，表明LightAutoML框架是一种高性能的自动机器学习解决方案，能够满足金融服务领域的需求。
人工智能 2024年6月6日

LLaVA-UHD：高效地感知任意高分辨率和长宽比的图像

近年来，大型语言模型在视觉语言推理、理解和交互方面取得了显著进步，主要得益于最近的视觉语言模型的发展。现代框架通过将视觉信号投影到大型语言模型中，使其能够视觉地解释世界，这是一系列依赖于视觉编码策略的场景。然而，现实世界的图像不仅包含广泛的场景，还在分辨率和长宽比方面存在显著差异，这对大型语言模型在不同领域和任务中构成了重大挑战。为了应对现实世界图像的显著差异，现代大型语言模型以低分辨率（例如224×224）和固定长宽比（例如1:1）来感知图像。虽然这种妥协提高了大型语言模型在现实世界应用中的通用性，但它往往会使图像内容变得模糊，并导致严重的形状失真。这显著影响了大型多模态模型或LMM（例如，优化用于细粒度任务的模型，包括光学字符识别和小物体理解）的能力。由于分辨率和长宽比是预定义的，模型只能对模糊的图像进行猜测，从而导致模型产生不基于事实的文本响应。那么，为什么基准LMM模型不能感知高分辨率和不同长宽比的图像呢？有两个主要原因导致基准LMM无法感知高分辨率和不同长宽比的图像。首先，由于视觉编码器是以固定分辨率预训练的，因此使得模型和编码器难以处理具有不同长宽比和分辨率的图像，从而显著影响模型的适应性。其次，使用视觉变换器直接编码高分辨率图像的计算成本很高，且计算成本可能会随着图像大小的增加而显著增加。此外，对于大型语言模型来说，处理高分辨率图像的众多视觉令牌的计算成本可能会更高，从而显著影响模型的整体效率。为了应对这些挑战，LLaVA-UHD框架以LLaVA-1.5和GPT-4V框架为代表，尝试揭示其视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一个多模态模型，旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率和任意长宽比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。综合实验表明，LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外，通过仅使用94％的推理计算，LLaVA-UHD框架能够支持6倍更大的分辨率（即672×1088）的图像。LLaVA-UHD：高效地感知任意高分辨率和长宽比的图像近年来，视觉语言推理、理解和交互取得了显著进步，主要得益于大型语言模型的发展。现代框架通过将视觉信号投影到大型语言模型中，使其能够视觉地解释世界，这是一系列依赖于视觉编码策略的场景。然而，现实世界的图像不仅包含广泛的场景，还在分辨率和长宽比方面存在显著差异，这对大型语言模型在不同领域和任务中构成了重大挑战。与此相比，模型在低分辨率（例如224×224）和固定长宽比（例如1:1）下处理图像，虽然提高了大型语言模型在现实世界应用中的通用性，但往往会使图像内容变得模糊，并导致严重的形状失真。这显著影响了大型多模态模型或LMM（例如，优化用于细粒度任务的模型，包括光学字符识别和小物体理解）的能力。由于分辨率和长宽比是预定义的，模型只能对模糊的图像进行猜测，从而导致模型产生不基于事实的文本响应。那么，为什么基准LMM模型不能感知高分辨率和不同长宽比的图像呢？有两个主要原因导致基准LMM无法感知高分辨率和不同长宽比的图像。首先，由于视觉编码器是以固定分辨率预训练的，因此使得模型和编码器难以处理具有不同长宽比和分辨率的图像，从而显著影响模型的适应性。其次，使用视觉变换器直接编码高分辨率图像的计算成本很高，且计算成本可能会随着图像大小的增加而显著增加。此外，对于大型语言模型来说，处理高分辨率图像的众多视觉令牌的计算成本可能会更高，从而显著影响模型的整体效率。为了应对这些挑战，LLaVA-UHD框架以LLaVA-1.5和GPT-4V框架为代表，尝试揭示其视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一个多模态模型，旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率和任意长宽比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。上图反映了GPT-4V在识别图像中对象数量的实验结果。LLaVA-UHD框架的核心有三个组件。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。与最近的LMM不同，LLaVA-UHD框架生成的可变大小的切片使其能够完全适应本机分辨率图像，而无需形状失真的重塑或填充。其次，模型通过压缩层将视觉令牌压缩到适中的长度，从而显著减少了LMM的计算成本。最后，模型通过空间模式组织压缩的切片令牌，以告知大型语言模型切片在图像中的位置。LLaVA-UHD：方法和架构基于对现有框架（包括GPT-4V和LLaVA-1.5）的研究，LLaVA-UHD框架实现了一个三组件架构，如下图所示。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。让我们详细了解这些组件。模块化视觉编码处理高分辨率和不同长宽比的图像的一种常见方法是直接对视觉变换器或ViT进行插值，以达到目标形状。然而，这种方法的实现往往伴随着高计算成本，且分布外问题会导致进一步的性能下降。为了应对这个挑战，LLaVA-UHD框架提出了一种模块化视觉编码策略，旨在将本机分辨率图像划分为较小的可变大小的切片，其中每个切片的形状都接近于视觉变换器的标准预训练设置。由于使用了可变大小的切片，LLaVA-UHD框架能够实现对本机分辨率图像的完全适应，而无需形状失真的重塑或填充。此外，图像切片策略的主要目标是确定高分辨率图像的最小变化分割。对于具有特定分辨率（w，h）的图像和预训练于其他分辨率的视觉变换器，LLaVA-UHD框架首先确定处理图像所需的理想计算，即需要的切片数量。然后，框架将切片数量分解为m列和n行。框架然后定义一个评分函数来衡量与视觉变换器的标准预训练设置的偏差。理论上，LLaVA-UHD框架能够证明其架构中实现的分区策略保证了每个切片相对于标准预训练分辨率的最小期望变化和适中的最坏情况变化。此外，大多数现有的LMM实现了静态分辨率的图像切片编码，这种方法阻止了模型对本机分辨率的完全适应，因为它们只能访问几个预定义的固定形状切片。另外，静态切片分辨率会损害模型的性能、效率和正确性，因为它不可避免地会导致形状失真的重塑或填充。为了应对这个问题，LLaVA-UHD框架提出以分区策略定义的长宽比来编码图像切片。具体来说，LLaVA-UHD框架首先按照长宽比成比例地重塑原始图像，以使补丁数量适合视觉变换器的预训练预算，即最大化位置嵌入序列中的补丁数量。然后，LLaVA-UHD模型将视觉变换器的预训练1D位置嵌入序列重塑为2D格式，以符合其预训练设置。压缩层处理高分辨率图像时，LMM面临的一个常见问题是它们需要处理的视觉令牌数量显著增加（例如，LLaVA-1.5框架在处理单个分辨率为672×1008的图像时会产生大约3500个视觉令牌），这占据了大量计算资源和成本。为了应对这个挑战，LLaVA-UHD模型实现了一个共享的感知器重采样层来压缩每个图像切片的视觉令牌。然后，模型通过交叉注意力实现了一组查询向量来重采样视觉编码器的输出，以较低的数量表示图像令牌。与流行的多层感知器基于视觉投影策略相比，LLaVA-UHD实现的感知器采样方法能够在图像分辨率变化的情况下保持一个可接受的固定数量的视觉令牌，使LLaVA-UHD框架更适合高分辨率图像处理和理解任务。例如，LLaVA-UDH框架在编码672×1008分辨率图像时生成的令牌数量与LLaVA-1.5框架在编码336×336分辨率图像时生成的令牌数量相同，几乎是其竞争对手的6倍。图像切片的空间模式由于图像的划分是动态的，为了使大型语言模型了解图像切片的空间组织，这是一种必要的做法。LLaVA-UHD框架设计并实现了一种空间模式，使用两个特殊令牌来告知LMM图像切片的相对位置。在这种空间模式下，LLaVA-UHD框架使用“，”来分隔行中的切片表示，并使用“n”来分隔不同的行。LLaVA-UDH：实验和结果LLaVA-UHD框架被评估在9个流行基准测试中，包括一般视觉问答基准测试、光学字符基于视觉问答基准测试、幻觉基准测试和综合基准测试。此外，LLaVA-UHD框架被比较与强大的基准模型，包括LLaVA-1.5、MiniGPT-v2、InstructBLIP、BLIP-2等。LLaVA-UHD框架在9个流行基准测试中的性能总结如下表所示。根据上述性能，可以得出结论，LLaVA-UHD框架能够在流行基准测试中超越强大的基准模型，包括在大量数据上训练的强大基准模型，以及需要更多计算的LLM，如Fuyu-8B、Monkey等。其次，结果还表明，LLaVA-UHD框架在LLaVA-1.5架构上取得了显著更好的结果，一方面LLaVA-1.5支持固定336×336分辨率，另一方面LLaVA-UHD框架支持672×1088分辨率图像和任意长宽比，并且具有相同数量的视觉令牌。最后的思考在本文中，我们讨论了LLaVA-UHD，一种新颖的方法，它首先以LLaVA-1.5和GPT-4V框架为代表，尝试揭示其视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一个多模态模型，旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率和任意长宽比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。综合实验表明，LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外，通过仅使用94％的推理计算，LLaVA-UHD框架能够支持6倍更大的分辨率（即672×1088）的图像。
人工智能 2024年5月31日

统一多模态大语言模型Uni-MoE：使用专家混合架构进行扩展

近年来，多模态大语言模型（MLLMs）的架构和性能取得了显著进步，凸显了可扩展数据和模型的重要性以提高性能。虽然这种方法可以提高性能，但它需要大量计算资源，从而限制了此类方法的实用性和可用性。多年来，混合专家（MoE）模型已成为一种成功的替代方法，用于高效扩展图像-文本和大语言模型，因为混合专家模型具有显著较低的计算成本和强大的性能。然而，尽管混合模型具有优势，但它们并不是扩展大语言模型的理想方法，因为它们通常涉及较少的专家和有限的模态，从而限制了应用范围。为了克服当前方法的局限性，并高效扩展大语言模型，本文将讨论Uni-MoE，一种具有混合专家（MoE）架构的统一多模态大语言模型。Uni-MoE框架还实现了大语言模型中的稀疏混合专家架构，以通过使用专家级模型并行和数据并行使训练和推理过程更加高效。另外，为了增强泛化和多专家协作，Uni-MoE框架提出了一种进步式训练策略，它是三个不同过程的组合。在第一步中，Uni-MoE框架使用各种连接器和不同模态的数据实现跨模态对齐。第二，Uni-MoE框架通过训练模态特定专家并使用跨模态指令数据激活专家组件来实现其偏好。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA（低秩适应）学习技术来调整模型。当指令调整的Uni-MoE框架在综合的多模态数据集上进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。本文旨在深入介绍Uni-MoE框架，并探讨其机制、方法论、架构以及与最先进框架的比较。让我们开始吧。统一多模态大语言模型Uni-MoE：扩展近年来，开源多模态大语言模型（包括LLama和InstantBlip）取得了显著成功和进步，尤其是在图像-文本理解任务中。另外，人工智能社区正在积极地构建一个统一的多模态大语言模型，以适应广泛的模态，包括图像、文本、音频、视频等，超越传统的图像-文本范式。开源社区通常遵循的一种方法是增加视觉基础模型的大小，并将其与具有数十亿参数的大语言模型集成，使用多样化的多模态数据集来增强指令调整。这些发展凸显了多模态大语言模型处理和推理多个模态的能力的重要性，展示了扩展多模态指令数据和模型可扩展性的必要性。虽然扩展模型是一种经过验证的方法，可以带来显著的结果，但扩展模型对于训练和推理过程来说是计算成本高昂的。为了解决高昂的计算成本问题，开源社区正在将混合专家（MoE）模型架构集成到大语言模型中，以提高训练和推理效率。与使用所有可用参数处理每个输入的多模态大语言模型和大语言模型不同，混合专家架构仅需要激活每个输入的专家参数子集。因此，混合专家方法成为一种可行的途径，以提高大型模型的效率，而无需大量参数激活和高昂的计算成本。虽然现有工作已经强调了混合专家模型在构建文本和文本-图像大型语言模型中的成功实施和集成，但研究人员尚未充分探索开发混合专家架构来构建强大的统一多模态大语言模型的潜力。Uni-MoE是一种多模态大语言模型，它利用稀疏混合专家模型来解释和管理多个模态，尝试使用混合专家架构扩展统一多模态大语言模型。如以下图所示，Uni-MoE框架首先使用模态特定编码器获取不同模态的编码，然后使用各种连接器将这些编码映射到大语言模型的语言表示空间。这些连接器包含一个可训练的变换器模型和随后的线性投影，以提取和投影冻结编码器的输出表示。然后，Uni-MoE框架在大语言模型的内部块中引入了稀疏混合专家层。因此，每个混合专家块都具有一个共享的自注意力层，适用于所有模态，一个用于在令牌级别分配专业知识的稀疏路由器，以及基于前馈网络的多样化专家。由于这种方法，Uni-MoE框架能够理解多个模态，包括语音、音频、文本、视频、图像，并且仅需要在推理过程中激活部分参数。另外，为了增强多专家协作和泛化，Uni-MoE框架实现了一种三阶段训练策略。在第一阶段，框架使用大量图像/音频/语音到语言对来训练相应的连接器，利用大语言模型语言空间中的统一模态表示。在第二阶段，Uni-MoE模型训练模态特定专家，使用跨模态数据集独立地精炼每个专家的专业知识。在第三阶段，Uni-MoE框架将这些训练好的专家集成到大语言模型的混合专家层中，并使用混合多模态指令数据训练整个Uni-MoE框架。为了进一步降低训练成本，Uni-MoE框架采用LoRA学习方法来微调这些自注意力层和预训练的专家。统一多模态大语言模型Uni-MoE：方法论和架构Uni-MoE框架的基本动机是多模态大语言模型的高训练和推理成本，以及混合专家模型的效率，探索使用混合专家架构创建一个高效、强大和统一的多模态大语言模型的可能性。以下图表展示了Uni-MoE框架的架构，包括各个模态的单独编码器和连接器。然后，Uni-MoE框架将混合专家架构与大语言模型的核心块集成，这对于提高训练和推理过程的整体效率至关重要。Uni-MoE框架通过实现稀疏路由机制来实现这一点。Uni-MoE框架的整体训练过程可以分为三个阶段：跨模态对齐、训练模态特定专家和使用多样化的多模态指令数据集来调整Uni-MoE。为了高效地将多样化的模态输入转换为语言格式，Uni-MoE框架建立在预训练的视觉语言框架LLaVA之上。LLaVA基模型集成了CLIP作为其视觉编码器，并具有一个线性投影层，将图像特征转换为其对应的软图像令牌。此外，为了处理视频内容，Uni-MoE框架从每个视频中选择八个代表性帧，并通过平均池化将它们转换为视频令牌，以聚合其图像或帧表示。对于音频任务，Uni-MoE框架部署两个编码器：BEATs和Whisper编码器，以增强特征提取。然后，模型将音频特征向量和固定长度的语音转换为语音令牌和软音频，通过线性投影层。训练策略Uni-MoE框架引入了一种进步式训练策略，用于模型的增量开发。引入的进步式训练策略尝试利用各种专家的独特能力，增强多专家协作效率，并提高框架的整体泛化能力。训练过程分为三个阶段，尝试实现基于集成混合专家的MLLM结构。阶段1：跨模态对齐在第一阶段，Uni-MoE框架尝试在不同的语言和模态之间建立连接。Uni-MoE框架通过构建连接器来实现这一点。第一阶段训练的主要目标是最小化生成熵损失。在Uni-MoE框架中，LLM被优化为生成不同模态输入的描述，而模型仅对连接器进行训练，这种策略使Uni-MoE框架能够在统一的语言框架中集成不同的模态。阶段2：训练模态特定专家在第二阶段，Uni-MoE框架专注于通过在特定模态的跨模态数据上训练模型来开发单模态专家。主要目标是通过在其各自领域内精炼每个专家的专业知识来提高混合专家系统在广泛的多模态数据上的整体性能。此外，Uni-MoE框架将前馈网络调整为更密切地与模态的特征相匹配，同时保持生成熵损失作为焦点度量训练。阶段3：调整Uni-MoE在第三阶段和最后阶段，Uni-MoE框架将第二阶段中专家调整的权重集成到混合专家层中。然后，Uni-MoE框架使用混合多模态指令数据联合微调MLLMs。以下图表反映了训练过程的进度。混合专家配置的比较分析显示，在第二阶段训练过程中模型改进的专家显示出增强的稳定性，并在混合模态数据集上更快地收敛。此外，在涉及复杂多模态数据（包括文本、图像、音频、视频）的任务中，当使用四个专家而不是两个专家时，Uni-MoE框架表现出更一致的训练性能和降低的损失变异性。统一多模态大语言模型Uni-MoE：实验和结果以下表格总结了Uni-MoE框架的架构规范。Uni-MoE框架的主要目标是基于LLaMA-7B架构来扩展模型大小。以下表格总结了Uni-MoE框架的设计和优化，如专用训练任务所指导的那样。这些任务对于提高MLP层的能力至关重要，从而利用其专门的知识来提高模型性能。Uni-MoE框架进行了八个单模态专家任务，以阐明不同训练方法的差异影响。模型评估了各种模型变体在多样化的基准测试集上的性能，包括两个视频理解任务、三个音频理解任务和五个语音相关任务。首先，模型在语音-图像和语音-文本任务上进行了测试，结果如下表所示。如可以观察到的那样，之前的基线模型在语音理解任务上表现较差，这进一步影响了图像-语音推理任务的性能。结果表明，引入混合专家架构可以提高MLLMs在未见的音频-图像推理任务上的泛化能力。以下表格显示了图像-文本理解任务的实验结果。如可以观察到的那样，Uni-MoE模型的最佳结果超过了基线，并在平均上超过了微调任务4个点。最后的思考在本文中，我们讨论了Uni-MoE，一种具有混合专家（MoE）架构的统一多模态大语言模型。Uni-MoE框架还实现了大语言模型中的稀疏混合专家架构，以通过使用专家级模型并行和数据并行使训练和推理过程更加高效。另外，为了增强泛化和多专家协作，Uni-MoE框架提出了一种进步式训练策略，它是三个不同过程的组合。在第一步中，Uni-MoE框架使用各种连接器和不同模态的数据实现跨模态对齐。第二，Uni-MoE框架通过训练模态特定专家并使用跨模态指令数据激活专家组件来实现其偏好。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA（低秩适应）学习技术来调整模型。 Uni-MoE框架激活了专家组件的偏好，通过训练模态特定专家并使用跨模态指令数据。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA或低秩适应学习技术来调整模型。当使用混合多模态指令数据对指令调整的Uni-MoE框架进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA或低秩适应学习技术来调整模型。当使用混合多模态指令数据对指令调整的Uni-MoE框架进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。
人工智能 2024年5月24日

MambaOut：我们真的需要Mamba进行视觉任务吗？

在现代机器学习和人工智能框架中，Transformer是各个领域中最广泛使用的组件，包括自然语言处理中的GPT系列和BERT，以及计算机视觉任务中的Vision Transformers。虽然将Transformer包含在模型架构中可以显著提高模型性能，但Transformer中的注意力模块的计算复杂度随着序列长度的增加而呈二次增长，从而导致高计算挑战。多年来，各种模型都在探索不同的策略来解决计算挑战，包括核化、历史内存压缩、令牌混合范围限制和低秩方法。最近，像Mamba和RWKV这样的循环神经网络方法因其在大型语言模型中的出色表现而受到关注。Mamba是一种具有循环神经网络结构的模型家族，其令牌混合器是状态空间模型。Mamba最近被引入视觉任务中，研究人员已经探索了将Mamba和状态空间模型（SSM）集成到视觉识别任务中的方法。例如，Vision Mamba将Mamba集成到视觉Transformer中，而LocalMamba则将局部感知偏差引入视觉Mamba模型中。然而，Mamba框架是否真正必要 для视觉识别任务仍然是一个问题，因为Mamba家族模型在视觉任务中的性能尚未令人满意。MambaOut是一个尝试回答Mamba是否适合视觉任务的框架。MambaOut假设Mamba不适合视觉任务，因为图像分类不具有长序列或自回归特性。然而，分割和检测任务虽然不具有自回归特性，但具有长序列特性，因此MambaOut框架假设Mamba可能适合这些任务。实验结果支持MambaOut框架的假设，因为它能够在图像分类任务中超越所有视觉Mamba模型，表明Mamba不必要 для视觉任务。然而，对于检测和分割任务，MambaOut框架无法复制状态-of-the-art Mamba模型的性能，表明Mamba家族模型可能适合长序列视觉任务。本文旨在深入介绍MambaOut框架，探讨其机制、方法、架构以及与状态-of-the-art 框架的比较。让我们开始吧。MambaOut：我们真的需要Mamba进行视觉任务吗？随着机器学习应用和能力的进步，Transformer已成为主流的骨架，支持包括Vision Transformers、GPT系列、BERT在内的众多模型。然而，Transformer中的令牌混合器会随着序列长度的增加而呈二次增长，从而导致计算挑战。为了解决这个问题，已经引入了多种令牌混合器，包括Linformer、Longformer、Performer、Dynamic Convolution和Big Bird。然而，最近，像Mamba和RWKV这样的循环神经网络方法因其并行训练能力和在长序列上的高效性能而受到关注。受这些方法的出色表现的启发，研究人员正在尝试将Mamba家族模型引入视觉识别任务中，因为Mamba模型的令牌混合器是状态空间模型。MambaOut是一个尝试探索Mamba家族模型性质的框架，总结Mamba适合具有自回归和长序列特性的任务。然而，大多数视觉任务不具有这些特性，因此MambaOut提出两个假设。首先，状态空间模型不必要 для图像分类，因为图像分类不具有长序列或自回归特性。其次，状态空间模型可能适合实例分割、语义分割和物体检测，因为这些任务具有长序列特性。实验结果支持MambaOut框架的假设，因为它能够在图像分类任务中超越所有视觉Mamba模型，表明Mamba不必要 для视觉任务。然而，对于检测和分割任务，MambaOut框架无法复制状态-of-the-art Mamba模型的性能，表明Mamba家族模型可能适合长序列视觉任务。什么任务适合Mamba？Mamba框架的令牌混合器是具有四个输入依赖参数的选择性状态空间模型。框架的循环性质使其与因果注意力区别开来。隐藏状态可以被视为一个固定大小的内存，存储历史信息。固定大小意味着内存是有损的，但也确保了将内存与当前输入集成的计算复杂度保持不变。相反，因果注意力层存储所有来自前一个令牌的键和值，并通过添加当前令牌的键和值来扩展，每次输入都会增加复杂度。这种内存机制的差异在下图中进行了说明。由于状态空间模型的内存是有损的，因此它不如因果注意力的无损内存。因此，Mamba模型无法在短序列上表现出色，这是因果注意力机制擅长的领域。然而，在涉及长序列的场景中，因果注意力方法由于二次复杂度而失败。在这种情况下，Mamba框架展示了其在合并内存和当前输入方面的效率，并能够平滑地处理长序列，表明Mamba家族模型适合处理长序列。值得注意的是，状态空间模型的循环性质使Mamba模型能够高效地处理长序列，但也引入了一个限制，即只能访问当前和之前的时间步。这种令牌混合被称为因果模式，如下图所示。由于其因果性质，这种方法适合自回归生成任务。完全可见模式适合理解任务，其中模型可以同时访问所有输入。另外，注意力默认处于完全可见模式，可以通过应用因果掩码到注意力图中轻松转换为因果模式。循环神经网络模型由于其循环性质而固有地处于因果模式。总之，Mamba框架适合具有长序列或因果令牌混合特性的任务。视觉识别任务、因果令牌混合和非常大的序列如前所述，完全可见的令牌混合模式允许无限制的混合范围，而因果模式则限制当前令牌只能访问前一个令牌的信息。另外，视觉识别被归类为理解任务，其中模型可以同时看到整个图像，这消除了对令牌混合的限制的需求，并可能降低模型性能。通常，完全可见模式适合理解任务，而因果模式更适合自回归任务。这种说法得到了BERT和ViT模型更常用于理解任务而不是GPT模型的支持。实验验证和结果下一步是实验验证MambaOut框架的假设。如图所示，Mamba块基于门控卷积神经网络块，Mamba和门控CNN块的元架构可以被视为MetaFormer框架的令牌混合器和MLP的简化集成。Mamba块通过添加状态空间模型来扩展门控卷积神经网络，而状态空间模型的存在是Mamba块和门控CNN块之间的区别。为了提高实际速度，MambaOut框架仅对部分通道执行深度卷积，如下图所示，门控CNN块的实现简单、有效、优雅。图像分类任务ImageNet是图像分类任务的基准，包含超过1000个常见类别、130万张训练图像和5万张验证图像。实验使用的数据增强包括随机裁剪、Mixup、颜色抖动、随机擦除、CutMix和Rand Augment。下表总结了Mamba家族模型、MambaOut模型和其他注意力和卷积模型在ImageNet数据集上的性能。如图所示，MambaOut框架在没有状态空间模型的情况下，一致地在所有模型大小上超越视觉Mamba模型。例如，MambaOut-Small模型返回的top-1准确率超过84%，比其最接近的Mamba竞争对手高出0.4%。这个结果强烈支持第一个假设，即引入状态空间模型进行图像分类任务是不必要的。物体检测和实例分割任务COCO是物体检测和实例分割任务的基准。虽然MambaOut框架能够超越一些视觉Mamba模型，但它仍然无法达到状态-of-the-art视觉Mamba模型（包括LocalVMamba和VMamba）的性能。MambaOut框架与状态-of-the-art视觉模型之间的性能差异凸显了将Mamba家族模型集成到长序列视觉任务中的益处。然而，值得注意的是，状态-of-the-art卷积注意力混合模型和视觉Mamba模型之间仍然存在显著的性能差距。最终思考Mamba家族模型似乎适合具有自回归和长序列特性的任务。MambaOut框架假设Mamba不适合视觉任务，因为图像分类不具有长序列或自回归特性。然而，分割和检测任务虽然不具有自回归特性，但具有长序列特性，因此MambaOut框架假设Mamba可能适合这些任务。MambaOut框架通过堆叠Mamba块并移除状态空间模型来构建，其实验结果支持MambaOut框架的假设，因为它能够在ImageNet图像分类框架上超越所有视觉Mamba模型，表明Mamba不必要 для视觉任务。然而，对于检测和分割任务，MambaOut框架无法复制状态-of-the-art Mamba模型的性能，表明Mamba家族模型可能适合长序列视觉任务。

More Posts