存根 微软 Phi-3 Mini 内部:超轻量级 AI 模型 - Unite.AI
关注我们.

人工智能

微软 Phi-3 Mini 内部:超轻量级 AI 模型

mm

发布时间

 on

Phi-3:手机本地功能强大的语言模型

微软最近推出了名为 Phi-3 Mini 的最新轻量级语言模型,启动了三个紧凑型人工智能模型,这些模型旨在提供最先进的性能,同时足够小,可以在计算资源有限的设备上高效运行。 Phi-3.8 Mini 仅有 3 亿个参数,与 GPT-4 等人工智能巨头相比只是一小部分,但它有望在许多关键领域与它们相媲美。

的发展 Phi-3 迷你 通过让先进的人工智能功能可以在更广泛的硬件上使用,这是追求民主化的一个重要里程碑。其占地面积小,使其可以本地部署在智能手机、平板电脑和其他边缘设备上,克服了与基于云的模型相关的延迟和隐私问题。这为跨不同领域的智能设备体验开辟了新的可能性,从虚拟助手和对话式人工智能到编码助手和语言理解任务。

在 iPhone 上本地运行的 4 位量化 phi-3-mini
4 位量化 phi-3-迷你 在 iPhone 上本地运行

幕后:架构和培训

Phi-3 Mini 的核心是一个 Transformer 解码器模型,构建在与 开源 Llama-2 模型。它具有 32 层、3072 个隐藏维度和 32 个注意力头,默认上下文长度为 4,000 个标记。微软还推出了一个名为 Phi-3 Mini-128K 的长上下文版本,它使用 LongRope 等技术将上下文长度扩展到令人印象深刻的 128,000 个令牌。

然而,Phi-3 Mini 的与众不同之处在于它的训练方法。微软并没有仅仅依靠海量数据集和计算能力的强力,而是专注于构建高质量、推理密集的训练数据集。这些数据由经过严格过滤的网络数据以及大型语言模型生成的合成数据组成。

培训过程遵循两阶段方法。在第一阶段,该模型会接触各种网络资源,旨在教授其一般知识和语言理解。第二阶段将更严格过滤的网络数据与旨在传授逻辑推理技能和利基领域专业知识的合成数据相结合。

微软将这种方法称为“数据最优机制”,与许多大型语言模型所采用的传统“计算最优机制”或“过度训练机制”不同。目标是校准训练数据以匹配模型的规模,提供适当水平的知识和推理能力,同时为其他功能留下足够的容量。

新 Phi-3 模型的质量,通过大规模多任务语言理解 (MMLU) 基准测试的性能来衡量
新 Phi-3 型号的质量,通过大规模多任务语言理解 (MMLU) 基准测试的性能来衡量

这种以数据为中心的方法已经得到了回报,Phi-3 Mini 在广泛的学术基准上取得了卓越的表现,通常可以与更大的模型相媲美或超越。例如,它在多任务学习和理解的 MMLU 基准上得分为 69%,在数学推理的 MT 基准上得分为 8.38,结果与 Mixtral 8x7B 和 GPT-3.5 等模型相当。

安全性和稳健性

除了其令人印象深刻的性能之外, 微软非常重视安全性和稳健性 参与 Phi-3 Mini 的开发。该模型经历了严格的训练后过程,包括监督微调(SFT)和直接偏好优化(DPO)。

SFT 阶段利用跨不同领域的精心策划的数据,包括数学、编码、推理、对话、模型身份和安全性。这有助于增强模型在这些领域的能力,同时灌输强烈的认同感和道德行为。

另一方面,DPO 阶段的重点是通过使用被拒绝的响应作为反例来引导模型远离不需要的行为。此流程涵盖聊天格式数据、推理任务和负责任的 AI (RAI) 工作,确保 Phi-3 Mini 遵守 Microsoft 道德和值得信赖的 AI 原则。

为了进一步增强其安全性,Phi-3 Mini 已经接受了针对数十种 RAI 危害类别的广泛红队和自动化测试。 Microsoft 的一个独立红色团队反复检查该模型,确定需要改进的领域,然后通过额外的精选数据集和再培训来解决这些问题。

正如 Microsoft 的内部 RAI 基准所证明的那样,这种多管齐下的方法显着减少了有害反应、事实不准确和偏见的发生率。例如,该模型在有害内容延续(0.75%)和摘要(10%)方面表现出较低的缺陷率,以及较低的不接地率(0.603),表明其响应牢牢植根于给定的上下文中。

应用程序和用例

凭借其令人印象深刻的性能和强大的安全措施,Phi-3 Mini 非常适合各种应用,特别是在资源受限的环境和延迟受限的场景中。

最令人兴奋的前景之一是直接在移动设备上部署智能虚拟助手和对话式人工智能。通过在本地运行,这些助手可以提供即时响应,无需网络连接,同时还确保敏感数据保留在设备上,解决隐私问题。

Phi-3 Mini 强大的推理能力也使其成为编码辅助和数学问题解决的宝贵资产。开发人员和学生可以受益于设备上的代码完成、错误检测和解释,从而简化开发和学习流程。

除了这些应用程序之外,该模型的多功能性还为语言理解、文本摘要和问题解答等领域带来了机遇。其体积小、效率高,使其成为将人工智能功能嵌入到从智能家电到工业自动化系统等各种设备和系统中的有吸引力的选择。

展望未来:Phi-3 Small 和 Phi-3 Medium

Phi-3 迷你 这本身就是一项了不起的成就,微软对 Phi-3 系列还有更大的计划。该公司已经预览了两个更大的模型:Phi-3 Small(7 亿个参数)和 Phi-3 Medium(14 亿个参数),这两个模型预计将突破紧凑语言模型的性能界限。

例如,Phi-3 Small 利用更先进的分词器 (tiktoken) 和分组查询注意力机制,以及新颖的块稀疏注意力层,来优化其内存占用,同时保持长上下文检索性能。它还额外纳入了 10% 的多语言数据,增强了其跨多种语言的语言理解和生成能力。

另一方面,Phi-3 Medium 代表了规模的显着提升,有 40 层、40 个注意力头和 5,120 的嵌入维度。虽然 Microsoft 指出,某些基准测试可能需要进一步细化训练数据混合,以充分利用增加的容量,但初步结果还是有希望的,在 MMLU、TriviaQA 和 HumanEval 等任务上比 Phi-3 Small 有了显着改进。

限制和未来方向

尽管 Phi-3 Mini 的功能令人印象深刻,但与所有语言模型一样,也并非没有局限性。最显着的弱点之一是其存储事实知识的能力相对有限,其在 TriviaQA 等基准测试中的较低性能就证明了这一点。

然而,微软认为,可以通过使用搜索引擎功能增强模型来缓解这一限制,使其能够按需检索和推理相关信息。这种方法在 拥抱脸部聊天-UI,其中 Phi-3 Mini 可以利用搜索来增强其响应。

另一个需要改进的领域是模型的多语言功能。虽然 Phi-3 Small 已通过合并额外的多语言数据迈出了第一步,但还需要进一步的工作来充分释放这些紧凑模型在跨语言应用中的潜力。

展望未来,Microsoft 致力于不断改进 Phi 系列模型,解决其局限性并扩展其功能。这可能涉及对训练数据和方法的进一步细化,以及探索专门为紧凑、高性能语言模型量身定制的新架构和技术。

结论

微软的 Phi-3 Mini 代表了先进人工智能功能民主化的重大飞跃。通过在紧凑、资源高效的封装中提供最先进的性能,它为跨广泛应用的智能设备体验开辟了新的可能性。

该模型的创新训练方法强调高质量、推理密集的数据,而不是纯粹的计算能力,已被证明是一种游戏规则改变者,使 Phi-3 Mini 的攻击力远超其重量级别。结合其强大的安全措施和持续的开发工作,Phi-3 系列模型将在塑造智能系统的未来方面发挥关键作用,使人工智能比以往任何时候都更容易获得、更高效、更值得信赖。

随着科技行业不断突破人工智能的极限,微软对 Phi-3 Mini 等轻量级、高性能模型的承诺代表着对“越大越好”的传统智慧的令人耳目一新的背离。通过证明尺寸并不代表一切,Phi-3 Mini 有潜力激发新一波创新浪潮,重点是通过智能数据管理、深思熟虑的模型设计和负责任的开发实践来最大化人工智能的价值和影响。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。