谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

智源社区2年前 (2023)发布智源社区

858 0 0

当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣谷歌的大语言模型 Gemini 1.0 版本，在 11 月份被媒体报道 Gemini 推迟发布后，此次的 Gemini 发布略显仓促，原计划中的线下活动也被取消，变成了线上活动。

Google 最早在今年五月的 IO 大会期间透露了 Gemini 的存在，但与之前外界预期的不同，Google 声称 Gemini 的发布并未因为任何内部原因而延期，表示其 AI 模型的研发进程从 2012 年已经开始，直到最近 2023 年发布 PaLM2 与 Bard 之后，就开始为 Gemini 的正式发布做准备。

01 三种尺寸版本，提供端侧可部署的 Gemini Nano

本次发布的 Gemini 分为三种不同的尺寸，适应不同任务的需求：

Gemini Ultra：规模最大且功能最强大的模型，适用于高度复杂的任务。

Gemini Pro：适用于各种任务的最佳模型，也是当前 Google Bard 使用的模型版本

Gemini Nano：适用于特定任务和端侧的，可以在使用特殊芯片的终端设备上运行。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。Gemini Ultra 的得分率为 90.0%，是第一个在 MMLU（大规模多任务语言理解）测试中超过人类专家的模型，MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

谷歌表示，Gemini Ultra 在广泛使用的基准测试中优于 GPT-4，这些基准测试了阅读理解、代码生成和视觉理解等能力。众所周知，比较和评测语言模型是一项艰巨的任务，由于基准测试是公开的，谷歌可以使用它们来训练模型。

Gemini 1.0 具有复杂多模态推理能力，可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini 1.0 通过阅读、过滤和理解信息具有了从数十万份文件中提取 insights 的超凡能力，这有助于科学、金融等诸多领域以超快的速度取得新突破。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

Gemini Ultra 将于明年推出。从 12 月 13 日开始，开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。

目前已经在 Bard 上部署的 Gemini Pro，谷歌声称它在八个行业标准基准中的六个中击败了 GPT-3.5。目前 Bard 在 170 多个国家和地区提供英语服务，谷歌计划在未来几个月内扩展不同的模态，并且支持新的语言和地区。

明年，谷歌计划推出由 Gemini Ultra 提供支持的「Bard Advanced」预览版，这是谷歌新的大型语言模型中最强大和最强大的版本。

Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机，它可以支持录音应用中的「总结」等新功能，并在 Gboard 中推出「智能回复」功能，从 WhatsApp 开始，明年还将推出更多信息应用。

Gemini Nano 除了登陆 Pixel 8 Pro 手机上之外，从即日起也将开放给所有 Android 14 开发者，开发者可以以 AICore 的形式，在手机系统中调用 Gemini 的能力，用在自己的 App 中尝试 AI 功能。

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

未来几个月，Gemini 将应用于谷歌更多的产品和服务，如 Search、Ads、Chrome 和 Duet AI。

02 原生多模态，暂时只支持英语对话

Gemini 最大亮点之一就是原生多模态大模型——设计时原生支持多模态，具有处理不同形式数据（语言+听力+视觉）的能力；一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。

谷歌没有像 OpenAI 创建 DALL-E 和 Whisper 那样训练图像和语音的单独模型，它从一开始就建立了一个多模态模型。

谷歌表示：Gemini 1.0 经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。第一代 Gemini 可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。

目前，Gemini 最基本的模型仅支持文本输入和文本输出，但 Gemini Ultra 可以处理图像、视频和音频，谷歌计划在之后增加输出图片的能力。

03 基于谷歌设计的 TPUs 训练，同时发布专供大模型训练的 TPU V5p

对于 Gemini 的训练，谷歌使用内部设计的张量处理单元 (TPU) v4 和 v5e 在人工智能优化基础设施上进行大规模训练。

在 TPU 上，Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。目前 TPUs 上运行的 AI 已经在支持谷歌核心产品如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android 的运行。

同时，谷歌同时发布了迄今为止最强大、最高效、可扩展的 TPU 系统—Cloud TPU v5p，专为训练尖端的人工智能模型而设计。

Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机。

对于缺少算力和 GPU 的很多企业来说，如果 Gemini 能成为 GPT 的平替甚至超越 GPT-4，可能也能缓解一些 GPU 算力紧缺恐慌。

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。

更多阅读

GPTs大爆发后，AI创业者该如何进场？

从100多个GPTs里，探究OpenAI究竟想要什么，又做了什么

AI女友产品开发记录：语音带来增长，OpenAI审查升级后访问量暴跌70%

拼多多创始人黄峥早期访谈：我们都是时代的产物，在大环境下做好自己该做的事情

月之暗面杨植麟：大模型需要新的组织范式，场景摩尔定律能催生 Super App

转载原创文章请添加微信：geekparker

文章版权归作者所有，未经允许请勿转载。

大模型的本质及其在游戏行为分析中的应用

智源社区

824

【医学图像描述】MedICaT: 医学图像，描述和文字参考的数据集（EMNLP-Findings 2020）

智源社区

1,511

ICML 2023 | 神经网络大还是小？Transformer模型规模对训练目标的影响

智源社区

866

再看多语种大模型预训数据如何清洗：兼论文档结构信息对大模型问答的重要性及实现思路

智源社区

1,081

2023推荐系统论文合集

智源社区

951

ReVT | ViT重参化+超强数据增强实现完美的域泛化

智源社区

877

暂无评论

暂无评论...

谷歌终于发布 Gemini：原生多模态，支持端侧部署，测试结果超 GPT-4

01

三种尺寸版本，提供端侧可部署的 Gemini Nano

02

原生多模态，暂时只支持英语对话

03

基于谷歌设计的 TPUs 训练，同时发布专供大模型训练的 TPU V5p

不错过 AGI 时代的每一波浪潮，极客公园创新大会 2024 全议程公布

HyperAI超神经 x Alluxio丨4 位大咖齐聚，2023 全球 AI 前沿科技大会完整议程公开

相关文章

暂无评论

相关文章

热门标签

热门网址