关注我们.

人工智能

谷歌的多模式 AI Gemini – 技术深入探讨

mm
谷歌的第一个多模式模型:Gemini

谷歌首席执行官 Sundar Pichai 和谷歌 DeepMind 的 Demis Hassabis 已经 于 2023 年 XNUMX 月推出 Gemini。这种新的大型语言模型集成在 Google 的众多产品中,其改进将波及数百万人使用的服务和工具。

Gemini 是谷歌先进的多模态人工智能系统,诞生于 DeepMind 和 Brain AI 实验室的通力合作。Gemini 继承了前辈的成果,承诺提供一套更加互联互通、更加智能的应用程序。

紧随 Bard、Duet AI 和 PaLM 2 LLM 推出之后,Google Gemini 的发布标志着 Google 不仅要参与竞争,还要引领人工智能革命的明确意图。

与任何关于人工智能寒冬的预测相反,Gemini 的推出预示着人工智能蓬勃发展的春天,充满潜力和增长潜力。回顾 ChatGPT 诞生一年来(ChatGPT 本身就是人工智能的突破性时刻),谷歌的举动表明,该行业的扩张远未结束;事实上,它可能只是在加速发展。

什么是双子座?

Google 的 Gemini 模型能够处理多种数据类型,例如文本、图像、音频和视频。它有三个版本:超级, 专业版纳米- 每个都是针对特定应用程序量身定制的,从复杂的推理到设备上的使用。 Ultra 擅长多方面任务,并将在 Bard Advanced 上提供,而 Pro 则提供性能和资源效率的平衡,已集成到 Bard 中以提供文本提示。 Nano 针对设备上部署进行了优化,有两种尺寸,并具有硬件优化功能,例如 4 位量化,可在 Pixel 8 Pro 等设备中离线使用。

Gemini 架构的独特之处在于其原生的多模态输出能力,它使用离散图像标记生成图像,并集成了通用语音模型的音频特征,以实现细致入微的音频理解。它能够将视频数据处理为连续图像,并与文本或音频输入交织在一起,充分体现了其强大的多模态能力。

Gemini 支持文本、图像、音频和视频序列作为输入

Gemini 支持文本、图像、音频和视频序列作为输入

接触双子座

Gemini 1.0 正在 Google 的整个生态系统中推广,包括 Bard,它现在受益于 Gemini Pro 的完善功能。Google 还将 Gemini 集成到其搜索、广告和 Duet 服务中,以更快、更准确的响应提升用户体验。

对于那些热衷于利用 Gemini 功能的人来说,Google AI Studio 和 Google Cloud Vertex 提供了 Gemini Pro 的访问权限,后者提供了更好的定制和安全功能。

要体验由 Gemini Pro 提供支持的 Bard 的增强功能,用户可以执行以下简单步骤:

  1. 导航到巴德:打开您喜欢的网络浏览器并访问 Bard 网站。
  2. 安全登录:通过使用您的 Google 帐户登录来访问该服务,确保无缝且安全的体验。
  3. 互动聊天:您现在可以使用 Bard,其中可以选择 Gemini Pro 的高级功能。

多模态的力量:

Gemini 的核心是采用基于 Transformer 的架构,类似于 GPT-3 等成功的 NLP 模型所采用的架构。然而,Gemini 的独特之处在于它能够处理和整合来自多种模态的信息,包括文本、图像和代码。这是通过一种名为“ 跨模态注意力,它允许模型学习不同类型数据之间的关系和依赖关系。

以下是 Gemini 关键组件的细分:

  • 多模态编码器: 该模块独立处理来自每种模态(例如文本、图像)的输入数据,提取相关特征并生成单独的表示。
  • 跨模态注意力网络: 这个网络是双子座的心脏。 它允许模型学习不同表示之间的关系和依赖关系,使它们能够相互“交谈”并丰富他们的理解。
  • 多模态解码器: 该模块利用跨模式注意力网络生成的丰富表示来执行各种任务,例如图像字幕、文本到图像生成和代码生成。

Gemini 模型不仅仅是理解文本或图像,它还能以一种更接近人类感知世界的方式整合不同类型的信息。例如,Gemini 可以查看一系列图像,并确定其中物体的逻辑或空间顺序。它还可以分析物体的设计特征并做出判断,例如判断两辆车中哪一辆的外形更符合空气动力学。

但双子座的才能远不止于视觉理解。它能够将一组指令转化为代码,创造出像倒计时器这样的实用工具,它不仅能按照指令运行,还能融入诸如激励表情符号等创意元素,增强用户互动。这表明它能够处理需要创造力和功能性相结合的任务——而这些技能通常被认为是人类独有的。

双子座的能力:空间推理

双子座的能力:空间推理(来源)

 

Gemini 的功能扩展到执行编程任务

Gemini 的功能扩展到执行编程任务(来源)

Gemini 的复杂设计基于丰富的神经网络研究历史,并利用 Google 的尖端 TPU 技术进行训练。 尤其是 Gemini Ultra,在各个人工智能领域树立了新的基准,在多模态推理任务中展示了显着的性能提升。

凭借解析和理解复杂数据的能力,Gemini 为现实世界的应用(尤其是教育领域)提供了解决方案。 它可以通过理解手写笔记并提供准确的数学排版来分析和纠正问题的解决方案,例如物理学中的问题。 这些功能预示着人工智能在教育环境中提供协助的未来,为学生和教育工作者提供先进的学习和解决问题的工具。

Gemini 的人工智能技术已被用于创建像 AlphaCode 2 这样的智能体,它在竞技编程问题上表现出色。这展现了 Gemini 作为通用人工智能的潜力,能够处理复杂的多步骤问题。

Gemini Nano 将人工智能的力量带入日常设备,在总结和阅读理解等任务以及编码和 STEM 相关挑战中保持令人印象深刻的能力。 这些较小的模型经过微调,可在内存较低的设备上提供高质量的人工智能功能,使高级人工智能比以往任何时候都更容易使用。

Gemini 的开发涉及训练算法和基础设施方面的创新,使用了谷歌最新的 TPU。 这可以实现高效的扩展和强大的训练过程,确保即使是最小的模型也能提供卓越的性能。

Gemini 的训练数据集与其功能一样多样化,包括网络文档、书籍、代码、图像、音频和视频。 这个多模式和多语言数据集确保 Gemini 模型能够有效地理解和处理各种内容类型。

双子座和 GPT-4

尽管其他模型层出不穷,但每个人都在思考一个问题:谷歌的 Gemini 与 OpenAI 的 GPT-4(业界新法学硕士的标杆)相比如何。谷歌的数据表明,虽然 GPT-4 可能在常识推理任务中表现出色,但 Gemini Ultra 在几乎所有其他领域都占据上风。

双子座 VS GPT-4

双子座 VS GPT-4

上述基准测试表展示了谷歌 Gemini AI 在各种任务中的出色表现。值得一提的是,Gemini Ultra 在 MMLU 基准测试中取得了令人瞩目的成绩,准确率高达 90.04%,表明其在 57 个科目的多项选择题理解方面拥有卓越的表现。

在评估小学数学问题的 GSM8K 中,Gemini Ultra 得分为 94.4%,展示了其先进的算术处理能力。 在编码基准测试中,Gemini Ultra 在 Python 代码生成的 HumanEval 中获得了 74.4% 的分数,表明其强大的编程语言理解能力。

在测试阅读理解能力的 DROP 基准测试中,Gemini Ultra 以 82.4% 的分数再次领先。 同时,在常识推理测试中,HellaSwag、Gemini Ultra 表现出色,尽管没有超越 GPT-4 设定的极高基准。

结语

Gemini 的独特架构由 Google 的尖端技术提供支持,使其成为 AI 领域的强大力量,挑战 GPT-4 等模型设定的现有基准。其 Ultra、Pro 和 Nano 版本分别针对特定需求,从复杂的推理任务到高效的设备端应用,彰显了 Google 致力于让先进的 AI 跨平台和设备触手可及的决心。

Gemini 融入谷歌生态系统(从 Bard 到 Google Cloud Vertex),凸显了其在一系列服务中提升用户体验的潜力。它不仅有望改进现有应用程序,还将为人工智能驱动的解决方案开辟新的途径,无论是在个性化协助、创意工作还是商业分析方面。

展望未来,像 Gemini 这样的人工智能模型的不断进步凸显了持续研究和开发的重要性。 训练如此复杂的模型并确保其道德和负责任的使用所面临的挑战仍然是讨论的焦点。

在过去的五年里,我一直沉浸在机器学习和深度学习的迷人世界中。 我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献,特别关注人工智能/机器学习。 我持续的好奇心也吸引了我对自然语言处理的兴趣,这是我渴望进一步探索的领域。