关注我们.

联合人工智能

库纳尔·凯杰里瓦尔

“职业工程师，心灵作家”。 Kunal 是一位技术作家，对人工智能和机器学习有着深厚的热爱和理解，致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。

人工智能9个月前

SHOW-O：一款集多模态理解与生成于一体的单一 Transformer

大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作，例如 LLaVA、MiniGPT-4 和 InstructBLIP，...
人工智能10个月前

EAGLE：探索混合编码器的多模态大型语言模型的设计空间

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强视觉感知可以显著提高...
人工智能10个月前

智人：人类视觉模型的基础

大规模预训练以及随后针对特定任务的语言建模微调取得了显著成功，已将这种方法确立为标准做法。同样，计算机视觉方法也是……
人工智能11个月前

LongWriter：从长上下文法学硕士中释放 10,000 多个单词的生成能力

当前的长上下文大型语言模型 (LLM) 可以处理多达 100,000 个标记的输入，但它们却难以生成超过 2,000 个长度的输出......
人工智能11个月前

SGLang：结构化语言模型程序的高效执行

大型语言模型 (LLM) 越来越多地用于需要多次生成调用、高级提示技术、控制流和结构化输入/输出的复杂任务。然而，高效的系统...
人工智能11个月前

MINT-1T：将开源多模态数据扩大 10 倍

训练前沿大型多模态模型 (LMM) 需要大规模数据集，其中包含自由格式的图像和文本交错序列。尽管开源 LMM 发展迅速，但仍存在一些问题...
人工智能12个月前

DIAMOND：Atari 和 Diffusion 的世界建模中，视觉细节至关重要

2018年，在神经网络世界模型的背景下强化学习的想法首次被提出，很快，这个基础……
人工智能12个月前

In-Paint3D：使用无闪电扩散模型生成图像

深度生成式人工智能模型的出现极大地加速了人工智能的发展，在自然语言生成、3D 生成、图像生成等方面表现出了卓越的能力。
人工智能12个月前

MARKLLM：LLM 水印开源工具包

LLM 水印将难以察觉但可检测的信号集成到模型输出中以识别由 LLM 生成的文本，这对于防止大型语言的滥用至关重要......
人工智能1年前

MoRA：高秩更新，实现参数高效微调

与其他方法相比，LoRA 或低秩自适应具有强大的性能和广泛的适用性，是最流行的 PEFT 或参数之一……
人工智能1年前

LightAutoML：面向大型金融服务生态系统的 AutoML 解决方案

尽管 AutoML 几年前就开始流行，但 AutoML 的早期研究可以追溯到 90 年代初，当时科学家发表了第一篇论文……
人工智能1年前

LLaVA-UHD：感知任何长宽比和高分辨率图像的 LMM

大型语言模型的最新进展和进步经历了视觉语言推理、理解和交互能力的显着提高。现代框架通过...实现这一点
人工智能1年前

Uni-MoE：通过专家组合扩展统一多模式法学硕士

多模态大型语言模型（MLLM）的架构和性能的最新进展凸显了可扩展数据和模型对于增强...的重要性。
人工智能1年前

MambaOut：我们真的需要 Mamba 来实现愿景吗？

在现代机器学习和人工智能框架中，变压器是各个领域中使用最广泛的组件之一，包括 GPT 系列和 BERT...
人工智能1年前

CameraCtrl：启用相机控制以生成文本到视频

最近尝试文本到视频或 T2V 生成的框架利用扩散模型来增加训练过程的稳定性，而视频扩散模型是...

更多文章

第1页，共6页12 3 4 5 6