谷歌发布AI大模型Gemini，剑指ChatGPT

多方位碾压ChatGPT

谷歌近日发布了其最新的AI大模型Gemini，这一举措被业界视为直接对标OpenAI的ChatGPT。Gemini不仅在智能层面上多维度超越了ChatGPT，更在多模态交互方面展示了前所未有的能力。

Gemini是由三个不同规模的模型组成的家族：Gemini Ultra、Gemini Pro和Gemini Nano。每一个版本都支持高达32K的上下文理解能力，覆盖从数据中心到企业应用的广泛使用场景。

与OpenAI通过拼接不同单模态模型来实现多模态不同，谷歌从一开始就构建了一个真正的“多感官”模型。这种原生多模态模型可以无缝地处理和理解多种类型的信息，如文本、音频、图片和视频等。

据谷歌介绍，Gemini Ultra在多个学术基准测试中均优于GPT 4，并在MMLU测试中以90.0%的高分超越了人类专家，这在AI领域是一个里程碑式的成就。

多模态能力的提升意味着人类与通用人工智能（AGI）之间的距离正在缩短。谷歌DeepMind目前正在探索如何将Gemini与机器人技术结合，实现更自然的物理交互。

Gemini Nano作为系列中最高效的模型，特别适用于端侧设备，如安卓设备。它的出现使得AI技术不仅限于数据中心，而是可以更加广泛地应用于日常设备，如Pixel 8 Pro智能手机。

Gemini的实际应用案例包括但不限于教你烹饪、解决数学和物理难题、理解图像内容、分析视频并提供建议等。这些例子体现了Gemini在多模态理解和生成方面的强大能力。

尽管谷歌尚未进行现场演示或开放外部测试，但Gemini的多个版本将很快应用于谷歌的多项产品和服务中，包括Bard和Pixel 8 Pro智能手机。此外，谷歌也计划在明年初向开发者和企业客户推出Gemini Ultra。

谷歌的这一行动无疑将AI大模型竞争推向了新的高潮，同时也表明了谷歌在推进AI技术方面的决心和实力。随着Gemini的逐步落地，我们有理由期待AI能在更多领域发挥更大的作用，为人类社会带来更深远的影响。

浏览量: 138