Irina Barskaya, PhD, 是一位具有十多年经验的杰出数据科学家,涵盖了产品分析和尖端技术的分析。她领导了Yasmina的创建和分析,Yasmina是沙特阿拉伯的第一个完全功能的本地化AI语音助手,负责现代标准阿拉伯语和沙特方言的复杂数据本地化和标注。目前,Irina负责Yandex的质量分析,推动AI技术的发展。
了解基准测试在LLM性能评估中的作用和局限性。探索开发强大的LLM的技术。大型语言模型(LLM)近年来获得了巨大的关注。正如您所见,LLM在理解人类语言命令方面具有卓越的能力,使其成为企业的绝佳整合,支持关键工作流程并自动执行任务以实现最大效率。此外,超出普通用户的理解范围,LLM还可以做更多的事情。随着我们对其的依赖程度的增加,我们必须更加关注确保准确性和可靠性的措施。这是一个全球性的任务,涉及整个机构,但在商业领域,已经有多个基准测试可用于评估LLM在各个领域的性能。这些基准测试可以测试模型在理解、逻辑构建、数学等方面的能力,结果将决定LLM是否准备好投入商业使用。在本文中,我收集了一个全面列表,列出了最流行的LLM评估基准测试。我们将详细讨论每个基准测试,并看看不同LLM如何在评估标准中表现。但首先,让我们更详细地了解LLM评估。什么是LLM评估?与其他AI模型一样,LLM也需要根据特定的基准测试进行评估,这些基准测试评估语言模型性能的各个方面:知识、准确性、可靠性和一致性。标准通常涉及: 理解用户查询:评估模型准确理解和解释广泛用户输入的能力。 输出验证:通过将AI生成的响应与可靠的知识库进行验证,以确保其正确性和相关性。 鲁棒性:衡量模型在模糊、不完整或嘈杂输入下的性能。 LLM评估为开发人员提供了识别和解决限制的能力,从而提高整体用户体验。如果LLM经过彻底评估,它将足够准确和强大,以处理不同实际应用,甚至包括那些具有模糊或意外输入的应用。基准测试LLM是迄今为止最复杂的技术之一,可以支持甚至最棘手的应用。因此,评估过程必须同样复杂,测试其思维过程和技术准确性。基准测试使用特定的数据集、指标和评估任务来测试LLM性能,并允许比较不同LLM并衡量其准确性,从而推动行业的进步和性能的提高。以下是LLM性能的一些最典型的方面: 知识:模型的知识需要在各个领域进行测试。这就是知识基准测试的目的。它评估模型如何有效地从不同领域(如物理学、编程、地理等)回忆信息。 逻辑推理:意味着测试模型的“思考”步骤和推导出逻辑结论的能力。它们通常涉及场景,模型必须选择最合理的继续或基于日常知识和逻辑推理的解释。 阅读理解:模型必须擅长于自然语言解释,然后生成相应的响应。测试类似于回答基于段落的问题,以衡量理解、推理和细节保留能力。就像学校的阅读测试一样。 代码理解:这需要衡量模型在理解、编写和调试代码方面的能力。这些基准测试为模型提供编码任务或问题,模型必须准确解决,通常涵盖广泛的编程语言和范式。 世界知识:为了评估模型对世界的一般知识的掌握。这些数据集通常具有需要广泛的百科知识才能正确回答的问题,这使它们与更具体和专业的知识基准测试有所不同。 “知识”基准测试MMLU(多模态语言理解)该基准测试旨在测试LLM在各个主题(如人文、社会科学、历史、计算机科学,甚至法律)方面的知识掌握。57个问题和15k个任务都旨在确保模型具有出色的推理能力。这使MMLU成为评估LLM事实知识和推理能力的良好工具,涵盖各个主题。最近,它已成为评估LLM在上述领域的关键基准测试。开发人员始终希望优化他们的模型,以在此基准测试中超越其他模型,这使其成为评估高级推理和LLM知识的 де facto 标准。像GPT-4-omni、Claude 3 Opus、Gemini 1.5 Pro和Llama-3 70B这样的大型企业级模型在此基准测试中取得了令人印象深刻的成绩,包括88.7%、86.8%、85.9%和82%。小型模型通常在此基准测试中表现不佳,通常不超过60-65%,但Phi-3-Small-7b最近的75.3%表现令人值得思考。然而,MMLU并非完美无缺:它存在已知问题,例如模糊的问题、不正确的答案和缺乏背景。许多人认为,其中一些任务对于适当的LLM评估来说太容易了。我想澄清,像MMLU这样的基准测试并不能完美地反映现实世界的场景。如果LLM在此基准测试中取得了伟大的成绩,这并不总是意味着它已经成为该领域的专家。基准测试的范围通常有限,通常依赖多项选择题,这永远无法完全捕捉现实世界交互的复杂性和背景。真正的理解需要知道事实并动态地应用这些知识,这涉及批判性思维、问题解决和背景理解。因此,LLM需要不断被改进和更新,以保持基准测试的相关性和有效性。… (rest of the translation remains the same)
Google最近宣布了在Google Translate上发布110种新语言,这是他们在2022年启动的1000语言计划的一部分。2022年,在开始时,他们添加了24种语言。随着最近的110种语言的添加,现在总共有243种语言。这种快速扩张之所以成为可能,是因为零拍翻译,一种机器学习模型可以在没有先前示例的情况下学习将一种语言翻译成另一种语言。但是在未来,我们将共同看到这种进步是否可以成为解决机器翻译挑战的最终解决方案,目前我们可以探索它可能发生的方式。但首先,让我们看看它的故事。它之前是怎样的?统计机器翻译(SMT)这是Google Translate最初使用的方法。它依赖于统计模型。它们分析了大量的平行语料库,句子翻译的集合,以确定最可能的翻译。首先,系统将文本翻译成英语作为中间步骤,然后将其转换成目标语言,并且需要与联合国和欧洲议会的记录进行交叉引用。它与传统的方法不同,传统方法需要编译详尽的语法规则。其统计方法使其能够从数据中学习和适应,而不依赖于静态的语言框架,这些框架可能很快就会变得完全不必要。 但是,这种方法也有一些缺点。首先,Google Translate使用的是基于短语的翻译,系统将句子分解成短语并分别翻译它们。这比逐字翻译有所改进,但仍然存在一些限制,例如笨拙的短语和上下文错误。它并不能完全理解细微差别,就像我们一样。另外,SMT严重依赖于平行语料库,对于任何相对较少的语言来说,翻译将很困难,因为它没有足够的平行数据。神经机器翻译(NMT)2016年,Google转向了神经机器翻译。它使用深度学习模型来翻译整个句子,提供更流畅和准确的翻译。NMT的工作方式类似于在计算机中拥有一个复杂的多语言助手。使用序列到序列(seq2seq)架构,NMT处理一个句子以理解其含义,然后生成另一种语言的对应句子。这种方法使用巨大的数据集进行学习,相比之下,统计机器翻译依赖于统计模型分析大型平行语料库以确定最可能的翻译。与SMT不同,SMT专注于基于短语的翻译,需要大量的手动努力来开发和维护语言规则和词典,NMT处理整个词序列的能力使其更有效地捕捉语言的细微上下文。因此,它提高了各种语言对的翻译质量,通常达到与人类翻译者相当的流畅度和准确性。 事实上,传统的NMT模型使用循环神经网络(RNNs)作为核心架构,因为它们的设计目的是处理序列数据,通过维护一个隐藏状态,该状态会随着每个新输入(单词或标记)的处理而演变。这个隐藏状态充当一种记忆,捕获前面输入的上下文,使模型能够随着时间的推移学习依赖关系。但是,RNNs在计算上很昂贵,难以有效地并行化,这限制了它们的可扩展性。Transformer的引入2017年,Google Research发表了一篇题为“Attention is All You Need,”的论文,向世界介绍了Transformer,并标志着神经网络架构从RNNs转向Transformer的转折点。 Transformer仅依赖于注意力机制——自注意力,使神经机器翻译模型能够选择性地关注输入序列中最关键的部分。与RNNs不同,RNNs在句子中按顺序处理单词,自注意力评估整个文本中的每个标记,以确定哪些标记对于理解其上下文至关重要。这种同时计算所有单词的能力使Transformer能够有效地捕捉短距离和长距离的依赖关系,而不依赖于递归连接或卷积滤波器。 因此,通过消除递归,Transformer提供了几个关键的好处: 并行化:注意力机制可以在序列的不同部分并行计算,这加速了在现代硬件(如GPU)上的训练。 训练效率:它们还需要的训练时间比传统的基于RNN或CNN的模型少得多,提供了更好的性能,尤其是在机器翻译任务中。 零拍翻译和PaLM 22022年,Google使用零拍翻译发布了对24种新语言的支持,标志着机器翻译技术的一个重要里程碑。他们还宣布了1000语言计划,旨在支持世界上1000种最广泛使用的语言。他们现在已经推出了110种更多语言。零拍翻译可以在没有源语言和目标语言之间的平行数据的情况下进行翻译,消除了为每对语言创建训练数据的需要——一个以前既昂贵又耗时的过程,对于一些语言对来说也是不可能的。 这种进步之所以成为可能,是因为Transformer的架构和自注意力机制。Transformer模型学习语言间上下文关系的能力,加上其处理多种语言的可扩展性,使得更高效、更有效的多语言翻译系统的开发成为可能。然而,零拍模型通常比在平行数据上训练的模型具有较低的质量。 然后,基于Transformer的进展,Google在2023年推出了PaLM 2,为2024年发布110种新语言铺平了道路。PaLM 2显著增强了Translate学习密切相关语言(如阿瓦德语和马尔瓦里语,与印地语相关)的能力,以及法语克里奥尔语,如塞舌尔克里奥尔语和毛里求斯克里奥尔语。PaLM 2的改进,例如计算优化缩放、增强的数据集和精细的设计,使语言学习更加高效,并支持Google继续改进和扩大语言支持以适应多样化的语言细微差别。我们可以声称机器翻译的挑战已经通过Transformer完全解决了吗?我们所讨论的演变历时18年,从Google采用SMT到最近使用零拍翻译的110种新语言。这代表了一项巨大的飞跃,可能会减少收集大量平行语料库的需要——这是行业在过去二十多年中一直追求的、非常耗时的任务。但是,声称机器翻译已经完全解决将为时过早,考虑到技术和伦理方面的因素。 当前的模型仍然难以处理上下文和连贯性,并且会犯一些细微的错误,这些错误可能会改变文本的含义。这些问题在较长、更复杂的句子中尤其明显,在这些句子中,维持逻辑流程和理解细微差别对于结果至关重要。另外,文化细微差别和习语表达经常丢失或失去意义,导致翻译虽然在语法上是正确的,但听起来不自然。 预训练数据:PaLM 2和类似的模型是在一个多语言文本语料库上预训练的,超过了其前身PaLM。这一增强使PaLM 2在多语言任务中表现出色,强调了传统数据集在提高翻译质量方面的持续重要性。...