通用人工智能
生成式 AI 的演变景观:混合专家、多模态和通用人工智能的探索

2023 年,人工智能(AI)领域经历了巨大的增长。生成式 AI 是其中的一个重要领域,专注于创建真实的内容,如图像、音频、视频和文本。DALL-E 3、Stable Diffusion 和 ChatGPT 等模型展示了新的创造能力,但也引发了人们对伦理、偏见和滥用的担忧。
随着生成式 AI 的快速发展,混合专家(MoE)、多模态学习和通用人工智能(AGI)的追求将成为下一代研究和应用的前沿。 本文将对生成式 AI 的当前状态和未来轨迹进行全面调查,分析谷歌的 Gemini 和 OpenAI 的 Q* 等创新如何改变这一领域。它将检查这些技术在医疗保健、金融、教育和其他领域的实际影响,同时提出围绕研究质量和 AI 与人类价值观对齐的新兴挑战。
2022 年底 ChatGPT 的发布重新引发了人们对 AI 的兴奋和担忧,从其令人印象深刻的自然语言能力到其可能传播虚假信息的潜力。同时,谷歌的新 Gemini 模型通过先进的技术,如 spike-and-slab 注意力机制,相比其前身如 LaMDA,大大提高了对话能力。据传的 OpenAI 的 Q* 项目暗示了将对话式 AI 与强化学习相结合的可能性。
这些创新表明,多模态、多功能的生成模型的优先级正在转变。谷歌、Meta、Anthropic 和 Cohere 等公司之间的竞争继续加剧,大家都在努力推动负责任的 AI 开发的边界。
AI 研究的演变
随着能力的增长,研究趋势和优先级也发生了变化,通常与技术里程碑相对应。深度学习的兴起重新引发了人们对神经网络的兴趣,而自然语言处理则随着 ChatGPT 级别的模型而蓬勃发展。与此同时,人们对伦理的关注仍然是一个持续的优先事项,尽管进展迅速。
预印本仓库如 arXiv 也见证了 AI 提交的指数级增长,实现了更快的传播,但减少了同行评审,并增加了未经检查的错误或偏见的风险。研究与实际影响之间的相互作用仍然很复杂,需要更多的协调努力来引导进展。
MoE 和多模态系统 – 生成式 AI 的下一波
为了使 AI 在多样化的应用中更具多功能性和复杂性,混合专家(MoE)和多模态学习等两种方法正在受到关注。
MoE 架构将多个专门的神经网络“专家”组合起来,针对不同的任务或数据类型进行优化。谷歌的 Gemini 使用 MoE 来掌握长对话和简洁的问答。MoE 可以处理更广泛的输入,而不需要增加模型的大小。
像谷歌的 Gemini 这样的多模态系统正在通过处理超出文本的多种模态来设定新的基准。然而,实现多模态 AI 的潜力需要克服关键的技术障碍和伦理挑战。
Gemini:多模态的新基准
Gemini 是一个多模态对话式 AI,旨在理解文本、图像、音频和视频之间的联系。其双编码器结构、跨模态注意力和多模态解码使其能够进行复杂的上下文理解。Gemini 被认为在将文本概念与视觉区域关联方面超过了单编码器系统。通过集成结构化知识和专用训练,Gemini 在以下方面超过了其前身,如 GPT-3 和 GPT-4:
- 处理的模态的广度,包括音频和视频
- 在大规模多任务语言理解等基准测试中的性能
- 跨编程语言的代码生成
- 通过定制版本如 Gemini Ultra 和 Nano 实现的可扩展性
- 通过输出的理由实现的透明度
多模态系统的技术障碍
实现强大的多模态 AI 需要解决数据多样性、可扩展性、评估和可解释性等问题。数据集的不平衡和注释的不一致性会导致偏差。处理多个数据流会给计算资源带来压力,需要优化的模型架构。需要在注意力机制和算法方面的进展来整合相互矛盾的多模态输入。可扩展性问题仍然存在,由于计算开销很大。完善评估指标通过综合基准是至关重要的。增强用户信任通过可解释的 AI 也是至关重要的。解决这些技术障碍将是解锁多模态 AI 能力的关键。
先进的学习技术,如自监督学习、元学习和微调,在 AI 研究的前沿,提高了 AI 模型的自主性、效率和多功能性。
自监督学习:模型训练的自主性
自监督学习强调使用无标签数据进行模型训练,从而减少手动标注的努力和模型偏差。它结合生成模型,如自编码器和 GAN,用于数据分布学习和输入重构,并使用对比方法,如 SimCLR 和 MoCo,来区分正负样本对。自预测策略,在 NLP 中得到启发,并通过最近的 Vision Transformers 得到增强,在自监督学习中发挥着重要作用,展示了其在推进 AI 自主训练能力方面的潜力。
元学习
元学习,或“学习如何学习”,专注于使 AI 模型能够使用有限的数据样本快速适应新任务。这项技术在数据可用性有限的情况下至关重要,确保模型可以快速适应并在多种任务中表现良好。它强调了少样本泛化的能力,允许 AI 处理广泛的任务,仅需最少的数据,凸显了其在开发多功能和适应性强的 AI 系统方面的重要性。
微调:定制 AI 以满足特定需求
微调涉及将预训练模型适应特定的域或用户偏好。其两种主要方法包括端到端微调,调整编码器和分类器的所有权重,以及特征提取微调,分类器的编码器权重被冻结以进行下游分类。这项技术确保生成模型能够有效地适应特定的用户需求或域要求,增强了它们在各个背景下的适用性。
人类价值观对齐:使 AI 与伦理相协调
人类价值观对齐专注于使 AI 模型与人类的伦理和价值观相协调,确保其决策反映社会规范和伦理标准。这方面在 AI 与人类密切交互的场景中至关重要,例如在医疗保健和个人助理中,确保 AI 系统做出符合伦理和社会责任的决策。
AGI 开发
AGI 致力于开发具有整体理解和复杂推理能力的 AI,与人类的认知能力相一致。这项长期的追求不断推动 AI 研究和开发的边界。AGI 安全和约束解决了高级 AI 系统的潜在风险,强调了需要严格的安全协议和与人类价值观和社会规范的伦理对齐。
创新混合专家
混合专家(MoE)模型架构代表了基于变压器的语言模型的一个重大进步,提供了无与伦比的可扩展性和效率。MoE 模型,如 Switch Transformer 和 Mixtral,正在快速重新定义模型规模和性能,在多样化的语言任务中表现出色。
核心概念
MoE 模型利用稀疏驱动的架构,包含多个专家网络和可训练的门控机制,优化计算资源,并适应任务复杂性。它们在预训练速度方面表现出显著的优势,但在微调方面面临挑战,并需要大量内存用于推理。
MoE 模型以其卓越的预训练速度而闻名,创新如 DeepSpeed-MoE 优化了推理以实现更好的延迟和成本效率。最近的进展有效地解决了所有到所有的通信瓶颈,提高了训练和推理的效率。
构建通用人工智能的基石
AGI 代表了 AI 可能与或超过人类在任何领域的智能的假设前景。虽然现代 AI 在狭窄的任务中表现出色,但 AGI 仍然遥远且存在争议,考虑到其潜在的风险。
然而,转移学习、多任务训练、对话能力和抽象等领域的渐进式进展正在一步步接近 AGI 宏伟的愿景。OpenAI 的推测性 Q* 项目旨在将强化学习整合到大型语言模型(LLM)中,作为向前迈出的一步。
伦理边界和操纵 AI 模型的风险
Jailbreaks 允许攻击者绕过在 AI 的微调过程中设置的伦理边界。这导致了有害内容的生成,如虚假信息、仇恨言论、钓鱼邮件和恶意代码,对个人、组织和整个社会构成风险。例如,一个 jailbroken 模型可能会产生内容,宣传有争议的叙事或支持网络犯罪活动。(了解更多)
虽然尚未报告使用 jailbreaking 的网络攻击,但多个概念验证的 jailbreaks 可以在网上找到,并在暗网上出售。这些工具提供了旨在操纵 AI 模型(如 ChatGPT)的提示,可能使黑客能够通过公司的聊天机器人泄露敏感信息。这些工具在网络犯罪论坛上的传播凸显了解决这一威胁的紧迫性。(阅读更多)
缓解 jailbreak 风险
为了对抗这些威胁,需要采取多方面的方法:
- 强大的微调: 将多样化的数据纳入微调过程,可以提高模型抵御对抗性操纵的能力。
- 对抗性训练: 使用对抗性示例进行训练,可以增强模型识别和抵御被操纵的输入的能力。
- 定期评估: 持续监测输出,可以帮助检测偏离伦理指南的偏差。
- 人类监督: 参与人类审查者,可以增加安全性的一层保障。
AI 驱动的威胁:幻觉利用
AI 幻觉,即模型生成不基于其训练数据的输出,可以被利用。例如,攻击者操纵 ChatGPT 推荐不存在的包,导致恶意软件的传播。这凸显了需要持续警惕和对此类利用的强有力的对策。(进一步探索)












