人工智能

ChatGPT一周年：重塑AI交互未来

发布时间

5个月前

2023 年 12 月 6 日

回顾 ChatGPT 的第一年，很明显这个工具已经显着改变了人工智能场景。 ChatGPT 于 2022 年底推出，因其用户友好的对话风格而脱颖而出，使与 AI 的交互感觉更像是与人聊天，而不是与机器聊天。这种新做法很快引起了公众的注意。发布后短短五天内，ChatGPT 已吸引了 2023 万用户。到 100 年初，这一数字激增至约 1.7 亿月度用户，到 XNUMX 月，该平台在全球吸引了约 XNUMX 亿次访问。这些数字充分说明了它的受欢迎程度和实用性。

在过去的一年里，用户发现了各种创造性的方式来使用 ChatGPT，从编写电子邮件和更新简历等简单任务到创办成功的企业。但这不仅仅与人们如何使用它有关；还与人们如何使用它有关。技术本身已经发展和改进。最初，ChatGPT 是一项免费服务，提供详细的文本回复。现在，有 ChatGPT Plus，其中包括 ChatGPT-4。这个更新版本接受了更多数据的训练，给出的错误答案更少，并且可以更好地理解复杂的指令。

最大的更新之一是 ChatGPT 现在可以通过多种方式进行交互 - 它可以听、说，甚至处理图像。这意味着您可以通过其移动应用程序与它交谈并向其显示图片以获取响应。这些变化为人工智能开辟了新的可能性，并改变了人们对人工智能在我们生活中的作用的看法和思考。

从最初的技术演示到目前作为科技界主要参与者的地位，ChatGPT 的历程令人印象深刻。最初，它被视为通过获取公众反馈来测试和改进技术的一种方式。但它很快成为人工智能领域的重要组成部分。这一成功表明，利用监督学习和人类反馈来微调大型语言模型 (LLM) 是多么有效。因此，ChatGPT 可以处理广泛的问题和任务。

开发最强大、最通用的人工智能系统的竞赛导致了开源和专有模型（如 ChatGPT）的激增。了解他们的一般能力需要跨广泛任务的综合基准。本节探讨这些基准，揭示包括 ChatGPT 在内的不同模型如何相互比较。

评估法学硕士：基准

MT 工作台：该基准测试跨八个领域的多轮对话和指令跟踪能力：写作、角色扮演、信息提取、推理、数学、编码、STEM 知识和人文/社会科学。像 GPT-4 这样更强的法学硕士被用作评估者。
羊驼毛评估：基于 AlpacaFarm 评估集，这个基于 LLM 的自动评估器针对 GPT-4 和 Claude 等高级 LLM 的响应对模型进行基准测试，计算候选模型的胜率。
打开 LLM 排行榜：该排行榜利用语言模型评估工具，在零样本和少样本设置中根据七个关键基准评估法学硕士，包括推理挑战和常识测试。
大板凳：这个协作基准涵盖 200 多个新颖的语言任务，涵盖各种主题和语言。它旨在探索法学硕士并预测他们未来的能力。
聊天评估：一个多智能体辩论框架，允许团队自主讨论和评估不同模型对开放式问题和传统自然语言生成任务的响应质量。

比较性能

就一般基准而言，开源法学硕士已经显示出显着的进步。骆驼-2-70B例如，取得了令人印象深刻的结果，特别是在使用指令数据进行微调之后。其变体 Llama-2-chat-70B 在 AlpacaEval 中表现出色，胜率高达 92.66%，超过了 GPT-3.5-turbo。然而，GPT-4 仍然以 95.28% 的胜率领先。

Zephyr-7B，一个较小的模型，展示了与较大的 70B LLM 相当的功能，特别是在 AlpacaEval 和 MT-Bench 中。与此同时，WizardLM-70B经过各种指令数据的微调，在MT-Bench上的开源法学硕士中得分最高。然而，它仍然落后于 GPT-3.5-turbo 和 GPT-4。

一个有趣的条目 GodziLLa2-70B 在 Open LLM 排行榜上取得了有竞争力的分数，展示了结合不同数据集的实验模型的潜力。同样，从头开始开发的 Yi-34B 也脱颖而出，其得分与 GPT-3.5-turbo 相当，仅略落后于 GPT-4。

UltraLlama 凭借对多样化和高质量数据的微调，在其提出的基准测试中与 GPT-3.5-turbo 相匹配，甚至在世界和专业知识领域超越了它。

扩大规模：巨型法学硕士的崛起

2020 年以来顶级法学硕士模型

法学硕士发展的一个显着趋势是模型参数的扩大。 Gopher、GLaM、LaMDA、MT-NLG 和 PaLM 等模型突破了界限，最终形成了具有多达 540 亿个参数的模型。这些模型显示出卓越的功能，但其闭源性质限制了其更广泛的应用。这种限制激发了人们对开发开源法学硕士的兴趣，这一趋势正在不断发展。

在扩大模型规模的同时，研究人员还探索了替代策略。他们不只是让模型变得更大，而是专注于改进较小模型的预训练。例子包括 Chinchilla 和 UL2，它们表明越多并不总是越好；更明智的策略也可以产生有效的结果。此外，语言模型的指令调优也受到了相当多的关注，FLAN、T0 和 Flan-T5 等项目对此领域做出了重大贡献。

ChatGPT 催化剂

OpenAI的介绍 ChatGPT 标志着 NLP 研究的一个转折点。为了与 OpenAI 竞争，Google 和 Anthropic 等公司分别推出了自己的模型 Bard 和 Claude。虽然这些模型在许多任务中表现出与 ChatGPT 相当的性能，但它们仍然落后于 OpenAI 的最新模型 GPT-4。这些模型的成功主要归功于人类反馈强化学习 (RLHF)，这项技术正受到越来越多的研究关注以进一步改进。

关于 OpenAI Q* (Q-Star) 的谣言和猜测

最近的报告表明 OpenAI 的研究人员可能已经在人工智能领域取得了重大进展，开发了一种名为 Q*（发音为 Q star）的新模型。据称，Q* 具有执行小学水平数学的能力，这一壮举引发了专家们对其作为通用人工智能 (AGI) 里程碑的潜力的讨论。虽然 OpenAI 尚未对这些报道发表评论，但 Q* 的能力传闻已经在社交媒体和人工智能爱好者中引起了相当大的兴奋和猜测。

Q* 的发展值得注意，因为 ChatGPT 和 GPT-4 等现有语言模型虽然能够执行一些数学任务，但并不特别擅长可靠地处理它们。挑战在于人工智能模型不仅需要像目前通过深度学习和转换器那样识别模式，而且还需要推理和理解抽象概念。数学作为推理的基准，需要人工智能规划和执行多个步骤，展示对抽象概念的深刻掌握。这种能力将标志着人工智能能力的重大飞跃，有可能超越数学，扩展到其他复杂的任务。

然而，专家警告不要过度夸大这一发展。虽然可靠地解决数学问题的人工智能系统将是一项令人印象深刻的成就，但它并不一定标志着超级智能人工智能或通用人工智能的出现。当前的人工智能研究，包括 OpenAI 的努力，都集中在基本问题上，在更复杂的任务中取得了不同程度的成功。

像 Q* 这样的潜在应用进步是巨大的，从个性化辅导到协助科学研究和工程。然而，管理期望并认识到与此类进步相关的限制和安全问题也很重要。对人工智能带来的生存风险的担忧是 OpenAI 的一个基本担忧，这一点仍然是相关的，特别是当人工智能系统开始更多地与现实世界交互时。

开源法学硕士运动

为了推动开源LLM研究，Meta发布了Llama系列模型，引发了基于Llama的新发展浪潮。这包括使用指令数据进行微调的模型，例如 Alpaca、Vicuna、Lima 和 WizardLM。研究还扩展到在基于 Llama 的框架内增强代理能力、逻辑推理和长上下文建模。

此外，从头开始开发强大的法学硕士的趋势越来越明显，项目包括 MPT、Falcon、XGen、Phi、Baichuan、寒冷西北风, 格罗克，和易。这些努力体现了对闭源法学硕士能力民主化的承诺，使先进的人工智能工具更容易使用和更高效。

ChatGPT 和开源模型在医疗保健领域的影响

我们正在展望未来，法学硕士将协助临床记录、填写报销表格，并支持医生进行诊断和治疗计划。这引起了科技巨头和医疗机构的关注。

微软的与 Epic 的讨论是一家领先的电子健康记录软件提供商，标志着法学硕士融入医疗保健领域。加州大学圣地亚哥分校健康中心和斯坦福大学医学中心已经采取了相关举措。同样，谷歌的与 Mayo Clinic 和 Amazon Web Services 建立合作伙伴关系人工智能临床文档服务 HealthScribe 的推出标志着这一方向的重大进步。

然而，这些快速部署引发了人们对将医药控制权拱手让给企业利益的担忧。这些法学硕士的专有性质使其难以评估。它们因盈利原因而可能进行的修改或终止可能会损害患者护理、隐私和安全。

迫切需要一种开放和包容的方法来发展医疗保健领域的法学硕士。医疗保健机构、研究人员、临床医生和患者必须在全球范围内合作，建立医疗保健领域的开源法学硕士。这种方法类似于万亿参数联盟，可以汇集计算、财务资源和专业知识。