存根 Google 的多模式 AI Gemini - 技术深入探讨 - Unite.AI
关注我们.

人工智能

谷歌的多模式 AI Gemini – 技术深入探讨

mm
更新 on
谷歌的第一个多模式模型:Gemini

谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 与谷歌 DeepMind 的德米斯·哈萨比斯 (Demis Hassabis) 一起, 于 2023 年 XNUMX 月推出 Gemini。 这种新的大型语言模型集成在 Google 的大量产品中,提供的改进波及数百万人使用的服务和工具。

Gemini 是谷歌先进的多模态人工智能,诞生于统一的 DeepMind 和 Brain AI 实验室的协作努力。 Gemini 站在其前辈的肩膀上,承诺提供更加互联和智能的应用程序套件。

紧随 Bard、Duet AI 和 PaLM 2 LLM 推出之后,Google Gemini 的发布标志着 Google 不仅要参与竞争,还要引领人工智能革命的明确意图。

与人工智能冬天的任何概念相反,Gemini 的推出预示着人工智能蓬勃发展的春天,充满潜力和增长。 ChatGPT 的出现本身就是人工智能的一个突破性时刻,当我们回顾这一年时,谷歌的举动表明该行业的扩张远未结束; 事实上,它可能只是在加快步伐。

什么是双子座?

Google 的 Gemini 模型能够处理多种数据类型,例如文本、图像、音频和视频。 它有三个版本——超级, 专业版纳米- 每个都是针对特定应用程序量身定制的,从复杂的推理到设备上的使用。 Ultra 擅长多方面任务,并将在 Bard Advanced 上提供,而 Pro 则提供性能和资源效率的平衡,已集成到 Bard 中以提供文本提示。 Nano 针对设备上部署进行了优化,有两种尺寸,并具有硬件优化功能,例如 4 位量化,可在 Pixel 8 Pro 等设备中离线使用。

Gemini 的架构的独特之处在于其原生多模态输出功能,使用离散图像令牌进行图像生成,并集成通用语音模型中的音频功能以实现细致入微的音频理解。 它能够将视频数据作为顺序图像处理,并与文本或音频输入交织在一起,体现了其多模式能力。

Gemini 支持文本、图像、音频和视频序列作为输入

Gemini 支持文本、图像、音频和视频序列作为输入

接触双子座

Gemini 1.0 正在整个 Google 生态系统中推出,其中包括 Bard,它现在受益于 Gemini Pro 的完善功能。 谷歌还将 Gemini 集成到其搜索、广告和 Duet 服务中,通过更快、更准确的响应来增强用户体验。

对于那些热衷于利用 Gemini 功能的人来说,Google AI Studio 和 Google Cloud Vertex 提供了 Gemini Pro 的访问权限,后者提供了更好的定制和安全功能。

要体验由 Gemini Pro 提供支持的 Bard 的增强功能,用户可以执行以下简单步骤:

  1. 导航到巴德:打开您喜欢的网络浏览器并访问 Bard 网站。
  2. 安全登录:通过使用您的 Google 帐户登录来访问该服务,确保无缝且安全的体验。
  3. 互动聊天:您现在可以使用 Bard,其中可以选择 Gemini Pro 的高级功能。

多模态的力量:

Gemini 的核心采用基于 Transformer 的架构,类似于 GPT-3 等成功的 NLP 模型中采用的架构。 然而,Gemini 的独特之处在于它能够处理和整合多种形式的信息,包括文本、图像和代码。 这是通过一种称为 跨模态注意力,它允许模型学习不同类型数据之间的关系和依赖关系。

以下是 Gemini 关键组件的详细介绍:

  • 多模态编码器: 该模块独立处理来自每种模态(例如文本、图像)的输入数据,提取相关特征并生成单独的表示。
  • 跨模态注意力网络: 这个网络是双子座的心脏。 它允许模型学习不同表示之间的关系和依赖关系,使它们能够相互“交谈”并丰富他们的理解。
  • 多模态解码器: 该模块利用跨模式注意力网络生成的丰富表示来执行各种任务,例如图像字幕、文本到图像生成和代码生成。

双子座模型不仅仅是理解文本或图像,它还以一种更接近我们人类感知世界的方式整合不同类型的信息。 例如,双子座可以查看一系列图像并确定其中对象的逻辑或空间顺序。 它还可以分析物体的设计特征来做出判断,例如两辆车中哪一辆具有更符合空气动力学的形状。

但双子座的才能不仅仅是视觉理解。 它可以将一组指令转化为代码,创建倒计时器等实用工具,不仅按指示运行,还包含激励性表情符号等创意元素,以增强用户交互。 这表明处理需要创造力和功能性相结合的任务的能力,而这些技能通常被认为是人类特有的。

双子座的能力:空间推理

双子座的能力:空间推理(来源)

 

Gemini 的功能扩展到执行编程任务

Gemini 的能力扩展到执行编程任务(来源)

Gemini 的复杂设计基于丰富的神经网络研究历史,并利用 Google 的尖端 TPU 技术进行训练。 尤其是 Gemini Ultra,在各个人工智能领域树立了新的基准,在多模态推理任务中展示了显着的性能提升。

凭借解析和理解复杂数据的能力,Gemini 为现实世界的应用(尤其是教育领域)提供了解决方案。 它可以通过理解手写笔记并提供准确的数学排版来分析和纠正问题的解决方案,例如物理学中的问题。 这些功能预示着人工智能在教育环境中提供协助的未来,为学生和教育工作者提供先进的学习和解决问题的工具。

Gemini 已被用来创建像 AlphaCode 2 这样的代理,它擅长解决竞争性编程问题。 这展示了 Gemini 作为多面手人工智能的潜力,能够处理复杂的多步骤问题。

Gemini Nano 将人工智能的力量带入日常设备,在总结和阅读理解等任务以及编码和 STEM 相关挑战中保持令人印象深刻的能力。 这些较小的模型经过微调,可在内存较低的设备上提供高质量的人工智能功能,使高级人工智能比以往任何时候都更容易使用。

Gemini 的开发涉及训练算法和基础设施方面的创新,使用了谷歌最新的 TPU。 这可以实现高效的扩展和强大的训练过程,确保即使是最小的模型也能提供卓越的性能。

Gemini 的训练数据集与其功能一样多样化,包括网络文档、书籍、代码、图像、音频和视频。 这个多模式和多语言数据集确保 Gemini 模型能够有效地理解和处理各种内容类型。

双子座和 GPT-4

尽管出现了其他模型,但每个人都关心的问题是 Google 的 Gemini 如何与 OpenAI 的 GPT-4(新法学硕士的行业基准)进行比较。 谷歌的数据表明,虽然 GPT-4 在常识推理任务中可能表现出色,但 Gemini Ultra 在几乎所有其他领域都占据上风。

双子座 VS GPT-4

双子座 VS GPT-4

上面的基准测试表显示了 Google Gemini AI 在各种任务中令人印象深刻的性能。 值得注意的是,Gemini Ultra 在 MMLU 基准测试中取得了 90.04% 准确率的骄人成绩,表明其对 57 个科目的多项选择题具有卓越的理解能力。

在评估小学数学问题的 GSM8K 中,Gemini Ultra 得分为 94.4%,展示了其先进的算术处理能力。 在编码基准测试中,Gemini Ultra 在 Python 代码生成的 HumanEval 中获得了 74.4% 的分数,表明其强大的编程语言理解能力。

在测试阅读理解能力的 DROP 基准测试中,Gemini Ultra 以 82.4% 的分数再次领先。 同时,在常识推理测试中,HellaSwag、Gemini Ultra 表现出色,尽管没有超越 GPT-4 设定的极高基准。

结论

Gemini 独特的架构由 Google 的尖端技术提供支持,使其成为人工智能领域的强大参与者,挑战 GPT-4 等模型设定的现有基准。 其版本——Ultra、Pro 和 Nano——各自满足特定需求,从复杂的推理任务到高效的设备上应用程序,展示了谷歌致力于让先进的人工智能在各种平台和设备上可用的承诺。

Gemini 与从 Bard 到 Google Cloud Vertex 的 Google 生态系统的集成,凸显了其在增强一系列服务的用户体验方面的潜力。 它不仅有望完善现有应用程序,而且还为人工智能驱动的解决方案开辟新途径,无论是在个性化帮助、创造性努力还是业务分析方面。

展望未来,像 Gemini 这样的人工智能模型的不断进步凸显了持续研究和开发的重要性。 训练如此复杂的模型并确保其道德和负责任的使用所面临的挑战仍然是讨论的焦点。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。