人工智能
ChatGPT 的第一周年:重塑 AI 交互的未来

回顾 ChatGPT 的第一年,可以清楚地看到这个工具已经显著改变了 AI 的格局。ChatGPT 于 2022 年末推出,以其用户友好、对话式的风格而脱颖而出,使得与 AI 的交互感觉更像与人聊天,而不是与机器交互。这一新方法迅速吸引了公众的注意。在发布后的五天内,ChatGPT 就已经吸引了 100 万用户。到 2023 年初,这个数字迅速膨胀到约 1 亿月度用户,到 10 月,平台每月吸引了大约 17 亿次访问。这些数字充分说明了其受欢迎程度和有用性。
在过去的一年中,用户已经找到各种创造性的方法来使用 ChatGPT,从简单的任务如写电子邮件和更新简历到创办成功的企业。但这不仅仅是关于人们如何使用它;技术本身已经发展和改进。最初,ChatGPT 是一个免费服务,提供详细的文本响应。现在,有 ChatGPT Plus,它包括 ChatGPT-4。这一更新版本是在更多数据上训练的,给出更少的错误答案,并更好地理解复杂的指令。
其中最大的更新是 ChatGPT 现在可以通过多种方式交互 – 它可以听、说话,甚至处理图像。这意味着您可以通过其移动应用程序与其交谈,并向其展示图片以获取响应。这些变化为 AI 开启了新的可能性,并改变了人们对 AI 在我们生活中角色的看法。
从最初的技术演示到现在的科技界重要角色,ChatGPT 的旅程相当令人印象深刻。最初,它被视为一种测试和改进技术的方式,通过从公众中获取反馈。但它很快就成为 AI 景观中的一个重要组成部分。这种成功表明,使用监督学习和人类反馈对大型语言模型 (LLM) 进行微调是多么有效。因此,ChatGPT 可以处理广泛的问答和任务。
开发最具能力和多功能的 AI 系统的竞争导致了开放源码和专有模型(如 ChatGPT)的繁荣。了解它们的一般能力需要在广泛的任务中进行综合的基准测试。这一部分探讨了这些基准测试,阐明了不同模型(包括 ChatGPT)如何相互比较。
评估 LLM:基准测试
- MT-Bench:该基准测试评估八个领域的多回合对话和指令跟随能力:写作、角色扮演、信息提取、推理、数学、编码、STEM 知识和人文/社会科学。更强大的 LLM,如 GPT-4,用于作为评估者。
- AlpacaEval:基于 AlpacaFarm 评估集,该 LLM 基准测试将模型与高级 LLM(如 GPT-4 和 Claude)的响应进行比较,计算候选模型的胜率。
- 开放 LLM 排行榜:利用语言模型评估工具包,该排行榜评估 LLM 在七个关键基准测试中的表现,包括推理挑战和一般知识测试,在零次和几次设置中。
- BIG-bench:该合作基准测试涵盖了 200 多个新语言任务,跨越多种主题和语言。它旨在探测 LLM 并预测其未来的能力。
- ChatEval:一个多代理辩论框架,允许团队自主讨论和评估不同模型在开放式问题和传统自然语言生成任务中的响应质量。
比较性能
在一般基准测试中,开放源码 LLM 已经显示出显著的进步。例如,Llama-2-70B 在 AlpacaEval 中取得了令人印象深刻的结果,尤其是在使用指令数据进行微调后。其变体 Llama-2-chat-70B 在 AlpacaEval 中以 92.66% 的胜率领先,超过了 GPT-3.5-turbo。然而,GPT-4 仍然是领跑者,拥有 95.28% 的胜率。
Zephyr-7B,一个较小的模型,展示了与 70B LLM 相似的能力,特别是在 AlpacaEval 和 MT-Bench 中。同时,WizardLM-70B 在使用多样化指令数据进行微调后,在 MT-Bench 中获得了最高的分数,但仍然落后于 GPT-3.5-turbo 和 GPT-4。
一个有趣的例子,GodziLLa2-70B,在开放 LLM 排行榜上取得了竞争性的分数,展示了结合多样化数据集的实验模型的潜力。同样,Yi-34B,从头开始开发,取得了与 GPT-3.5-turbo 相似的分数,只略微落后于 GPT-4。
UltraLlama,在多样化和高质量数据上进行微调后,匹配了 GPT-3.5-turbo 在其提出的基准测试中的表现,甚至在世界和专业知识领域超越了它。
扩大规模:巨型 LLM 的崛起
LLM 开发中一个显著的趋势是模型参数的扩大。像 Gopher、GLaM、LaMDA、MT-NLG 和 PaLM 这样的模型已经突破了界限,达到 540 亿参数的模型。这些模型展示了卓越的能力,但由于其闭源性质,其更广泛的应用受到限制。这一限制激发了开发开放源码 LLM 的兴趣,这一趋势正在增强。
除了扩大模型大小外,研究人员还探索了替代策略。他们没有简单地使模型更大,而是专注于提高较小模型的预训练。Chinchilla 和 UL2 是这样的例子,它们已经证明,更多的并不总是更好;更聪明的策略可以带来高效的结果。此外,语言模型的指令调优已经引起了相当大的关注,像 FLAN、T0 和 Flan-T5 这样的项目为这一领域做出了重大贡献。
ChatGPT 的催化剂
OpenAI 的 ChatGPT 的推出标志着 NLP 研究的一个转折点。为了与 OpenAI 竞争,像 Google 和 Anthropic 这样的公司推出了自己的模型,分别是 Bard 和 Claude。虽然这些模型在许多任务中表现出与 ChatGPT 相似的性能,但它们仍然落后于 OpenAI 最新的模型 GPT-4。这些模型的成功主要归因于强化学习从人类反馈(RLHF),一种正在接受越来越多研究关注以进一步改进的技术。
关于 OpenAI 的 Q*(Q-Star)的传闻和猜测
最近的报道表明,OpenAI 的研究人员可能已经在 AI 领域取得了重大进展,开发了一种新的模型,称为 Q*(发音为 Q 星)。据称,Q* 具有执行小学水平数学的能力,这一壮举引发了专家们关于其作为人工通用智能(AGI)里程碑的潜力的讨论。虽然 OpenAI 没有对这些报道发表评论,但 Q* 的传闻能力已经在社交媒体和 AI 爱好者中引起了巨大的兴奋和猜测。
Q* 的开发值得注意,因为现有的语言模型,如 ChatGPT 和 GPT-4,虽然能够执行一些数学任务,但并不是特别擅长可靠地处理它们。挑战在于,AI 模型不仅需要识别模式(如当前通过深度学习和变换器实现的那样),还需要推理和理解抽象概念。数学作为推理的基准,需要 AI 计划和执行多个步骤,展示对抽象概念的深刻理解。这一能力将标志着 AI 能力的重大飞跃,可能超越数学,扩展到其他复杂任务。
然而,专家们警告不要过度炒作这一发展。虽然一个可靠地解决数学问题的 AI 系统将是一项令人印象深刻的成就,但它并不一定标志着超级智能 AI 或 AGI 的到来。当前的 AI 研究,包括 OpenAI 的努力,已经专注于基本问题,取得了不同程度的成功。
像 Q* 这样的进步的潜在应用是巨大的,范围从个性化辅导到帮助科学研究和工程。然而,管理期望并认识到与此类进步相关的限制和安全问题至关重要。关于 AI 构成生存风险的担忧,OpenAI 的一个基本担忧,仍然很重要,尤其是当 AI 系统开始与现实世界接口时。
开放源码 LLM 运动
为了推动开放源码 LLM 研究,Meta 发布了 Llama 系列模型,引发了一波新的基于 Llama 的开发。这包括使用指令数据进行微调的模型,例如 Alpaca、Vicuna、Lima 和 WizardLM。研究还扩展到增强代理能力、逻辑推理和长上下文建模,所有这些都在 Llama 框架内进行。
此外,开发从头开始的强大 LLM 正成为一种趋势,项目如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi。这些努力反映了使闭源 LLM 的能力民主化的承诺,使先进的 AI 工具更加可访问和高效。
ChatGPT 和开放源码模型对医疗保健的影响
我们正在期待一个未来,LLM 将在临床笔记、报销表格填写和支持医生进行诊断和治疗规划方面提供帮助。这已经引起了科技巨头和医疗机构的关注。
Microsoft 与 Epic 的讨论,Epic 是一家领先的电子健康记录软件提供商,表明了将 LLM 集成到医疗保健中的意图。UC San Diego Health 和 Stanford University Medical Center 已经实施了此类计划。同样,Google 与 Mayo Clinic 的合作以及 Amazon Web Services 推出的 HealthScribe,一种 AI 临床文档服务,标志着这一领域的重大进展。
然而,这些快速部署引发了人们对将医学控制权交给企业利益的担忧。这些 LLM 的专有性质使其难以评估。出于盈利原因修改或停止这些模型可能会损害患者护理、隐私和安全。
迫切需要的是医疗保健中对 LLM 开发采取开放和包容的方法。医疗机构、研究人员、临床医生和患者必须在全球范围内合作,共同开发医疗保健的开放源码 LLM。这一方法,类似于万亿参数联盟,允许汇集计算、财务资源和专业知识。











