Loading...

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4
当地时间 12 月 6 日,谷歌 CEO Sundar Pichai 官宣谷歌的大语言模型 Gemini 1.0 版本,在 11 月份被媒体报道 Gemini 推迟发布后,此次的 Gemini 发布略显仓促,原计划中的线下活动也被取消,变成了线上活动。

Google 最早在今年五月的 IO 大会期间透露了 Gemini 的存在,但与之前外界预期的不同,Google 声称 Gemini 的发布并未因为任何内部原因而延期,表示其 AI 模型的研发进程从 2012 年已经开始,直到最近 2023 年发布 PaLM2 与 Bard 之后,就开始为 Gemini 的正式发布做准备。


01

三种尺寸版本,提供端侧可部署的 Gemini Nano

本次发布的 Gemini 分为三种不同的尺寸,适应不同任务的需求:

Gemini Ultra:规模最大且功能最强大的模型,适用于高度复杂的任务。

Gemini Pro:适用于各种任务的最佳模型,也是当前 Google Bard 使用的模型版本

Gemini Nano:适用于特定任务和端侧的,可以在使用特殊芯片的终端设备上运行。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。Gemini Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

谷歌表示,Gemini Ultra 在广泛使用的基准测试中优于 GPT-4,这些基准测试了阅读理解、代码生成和视觉理解等能力。众所周知,比较和评测语言模型是一项艰巨的任务,由于基准测试是公开的,谷歌可以使用它们来训练模型。

Gemini 1.0 具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息。这使得它尤其擅长发现海量数据中难以辨别的知识。Gemini 1.0 通过阅读、过滤和理解信息具有了从数十万份文件中提取 insights 的超凡能力,这有助于科学、金融等诸多领域以超快的速度取得新突破。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

Gemini Ultra 将于明年推出从 12 月 13 日开始,开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。

目前已经在 Bard 上部署的 Gemini Pro,谷歌声称它在八个行业标准基准中的六个中击败了 GPT-3.5。目前 Bard 在 170 多个国家和地区提供英语服务,谷歌计划在未来几个月内扩展不同的模态,并且支持新的语言和地区。

明年,谷歌计划推出由 Gemini Ultra 提供支持的「Bard Advanced」预览版,这是谷歌新的大型语言模型中最强大和最强大的版本。

Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,它可以支持录音应用中的「总结」等新功能,并在 Gboard 中推出「智能回复」功能,从 WhatsApp 开始,明年还将推出更多信息应用。

Gemini Nano 除了登陆 Pixel 8 Pro 手机上之外,从即日起也将开放给所有 Android 14 开发者,开发者可以以 AICore 的形式,在手机系统中调用 Gemini 的能力,用在自己的 App 中尝试 AI 功能。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

未来几个月,Gemini 将应用于谷歌更多的产品和服务,如 Search、Ads、Chrome 和 Duet AI。

02

原生多模态,暂时只支持英语对话

Gemini 最大亮点之一就是原生多模态大模型——设计时原生支持多模态,具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

谷歌没有像 OpenAI 创建 DALL-E 和 Whisper 那样训练图像和语音的单独模型,它从一开始就建立了一个多模态模型。


谷歌表示:Gemini 1.0 经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。第一代 Gemini 可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。

目前,Gemini 最基本的模型仅支持文本输入和文本输出,但 Gemini Ultra 可以处理图像、视频和音频,谷歌计划在之后增加输出图片的能力。

03

基于谷歌设计的 TPUs 训练,同时发布专供大模型训练的 TPU V5p

对于 Gemini 的训练,谷歌使用内部设计的张量处理单元 (TPU) v4 和 v5e 在人工智能优化基础设施上进行大规模训练。

在 TPU 上,Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。目前 TPUs 上运行的 AI 已经在支持谷歌核心产品如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android 的运行。

同时,谷歌同时发布了迄今为止最强大、最高效、可扩展的 TPU 系统—Cloud TPU v5p,专为训练尖端的人工智能模型而设计。

谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机。

对于缺少算力和 GPU 的很多企业来说,如果 Gemini 能成为 GPT 的平替甚至超越 GPT-4,可能也能缓解一些 GPU 算力紧缺恐慌。


如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
谷歌终于发布 Gemini:原生多模态,支持端侧部署,测试结果超 GPT-4

更多阅读
GPTs大爆发后,AI创业者该如何进场?
从100多个GPTs里,探究OpenAI究竟想要什么,又做了什么
AI女友产品开发记录:语音带来增长,OpenAI审查升级后访问量暴跌70%
拼多多创始人黄峥早期访谈:我们都是时代的产物,在大环境下做好自己该做的事情
月之暗面杨植麟:大模型需要新的组织范式,场景摩尔定律能催生 Super App
转载原创文章请添加微信:geekparker
© 版权声明

相关文章

暂无评论

暂无评论...