返回博客列表
行业动态

Google Gemini 3.1 Pro 深度解读:ARC-AGI-2 狂飙 77%,这次 Google 是认真的

2026年2月20日5 阅读
分享

刚刚发生了什么

2026 年 2 月 19 日,Google 发布了 Gemini 3.1 Pro

距离 Gemini 3 Pro 发布(2025 年 11 月)才过了三个月。

三个月更新一个大版本,这节奏说明了两件事:第一,AI 军备竞赛的烈度还在升级;第二,Google 这次在 Gemini 3.1 Pro 上,交出了一张让人不得不认真对待的成绩单。


一、最值得关注的数字:ARC-AGI-2 得分 77.1%

先说最震撼的那个数字。

Gemini 3.1 Pro 在 ARC-AGI-2 上得了 77.1%,而上一代 Gemini 3 Pro 是 31.1%——三个月内,直接翻了一倍还多。

什么是 ARC-AGI-2?这是 AI 研究界目前公认最难作弊的推理测试之一。它的设计思路是:给模型呈现它从未见过的全新逻辑模式,测试它能否举一反三地解决问题

普通的 AI 评测,模型可以通过大量记忆训练数据来刷高分。但 ARC-AGI-2 的题目是动态生成的,没法提前背答案。你要么真的会推理,要么就是不会。

    在这个测试上,目前的竞品成绩是:
  • Claude Opus 4.6:68.8%
  • GPT-5.2:远低于 Gemini 3.1 Pro

77.1% 是目前所有前沿模型中最高的公开分数

另一个硬指标——Humanity's Last Exam(HLE),这是专门测试顶尖专家级知识的超难题库。Gemini 3.1 Pro 得了 44.4%,而上一代 Gemini 3 Pro 是 37.5%,同期的 GPT-5.2 是 34.5%。


二、16 项主要评测,拿下 13 项第一

以下是 Gemini 3.1 Pro 与主要竞品的关键对比:

评测项目Gemini 3.1 ProClaude Opus 4.6GPT-5.2
ARC-AGI-2(新逻辑推理)77.1%68.8%远低于
GPQA Diamond(研究生级科学)94.3%91.3%92.4%
SWE-Bench Verified(软件工程)80.6%
APEX-Agents(Agent 任务)33.5%
Humanity's Last Exam44.4%53.1%(含工具)34.5%
Google 这次在 16 项主要评测中拿下了 13 项第一。

唯一需要补充的是:在 Chatbot Arena(用户主观投票的对话质量排行榜)上,Claude Opus 4.6 仍以微弱优势领先。但这个榜单测的是"看起来好",而非"实际上对"。


三、最有意思的能力:代码就是画布

Google 在发布博客里重点展示了 Gemini 3.1 Pro 的创意编程能力,这是一个过去很少被强调的维度。

生成动态 SVG 动画

给一段文字描述,Gemini 3.1 Pro 可以直接输出一个运行在浏览器里的矢量动画——用纯代码写成,不是视频文件,意味着无限放大不失真,文件大小极小。这在以前需要设计师手工完成。

构建实时数据仪表盘

在演示中,Gemini 3.1 Pro 从一个复杂的公开 API 里拉取国际空间站的实时轨道遥测数据,自动生成了一个可视化仪表盘。整个过程:理解 API 文档 → 写数据请求代码 → 设计可视化界面,一步完成。

沉浸式 3D 交互体验

让模型写一个「鸟群飞行模拟」——Gemini 3.1 Pro 不止生成了视觉代码,还添加了手势追踪交互,以及一段随鸟群运动实时变化的生成音乐。这已经不是代码生成,而是用代码作为媒介进行创作

文学主题转化为网站

给出《呼啸山庄》作为主题,要求设计一个现代风格的作者个人网站。Gemini 3.1 Pro 没有做成一个通用模板,而是真正理解了小说的阴郁大气风格,设计出了一个符合作品气质的界面——这需要同时理解文学和设计。


四、Agentic 能力:APEX-Agents 近乎翻倍

对于开发者来说,最值得关注的可能是 Agent 能力的跃升。

Gemini 3.1 Pro 在 APEX-Agents 评测上得了 33.5%,而上一代 Gemini 3 Pro 是 18.4%——接近翻倍。

APEX-Agents 测试的是模型在真实 Agent 任务中的表现:能否自主制定计划、调用工具、处理中间状态、完成多步骤目标。这个分数的跃升,意味着 Gemini 3.1 Pro 在以下场景中将有明显提升:

  • Google Antigravity(Google 自研的 Agentic IDE)中的自主编程任务
  • 复杂工作流自动化:跨系统、多步骤的企业级 Agent
  • Gemini CLI 中的终端自主操作
  • Google 明确表示,发布 3.1 Pro 处于"Preview"(预览)阶段,核心目的之一就是为了在野外环境中验证 Agentic 工作流,收集真实数据后再做正式发布。


    五、价格没涨,上下文没变

    对开发者的好消息:API 定价与 Gemini 3 Pro 保持一致——

  • 输入:$2 / 百万 tokens
  • 输出:$12 / 百万 tokens
  • 上下文窗口:100 万 tokens 输入,64K tokens 输出(不变)
  • 性能提升,价格不变。这在当前整体算力成本上涨的大背景下,是一个相当有竞争力的姿态。


    六、在哪里用到 Gemini 3.1 Pro?

    消费者端:
  • Gemini 应用(Google AI Pro / Ultra 套餐用户,优先解锁)
  • NotebookLM(Pro 和 Ultra 用户专属)
  • 开发者端:
  • Google AI Studio(API 预览访问)
  • Gemini CLI(终端开发者工具)
  • Google Antigravity(Agentic 开发平台)
  • Android Studio
  • 企业端:
  • Vertex AI
  • Gemini Enterprise

  • 七、怎么看这次更新?

    坦率说,Gemini 系列一直以来给人的印象是:评测数字漂亮,实际体验差强人意。Gemini 1.5 时代如此,Gemini 3 Pro 发布初期也有类似的评价。

    但 Gemini 3.1 Pro 有几点不同于以往:

    第一,ARC-AGI-2 的突破是硬指标。 77.1% 这个数字,在一个不容易刷的评测上,大幅领先所有竞品。这不是 Google 自己家的 benchmark,无法被"内部优化"。 第二,Agent 能力的提升是战略重心的信号。 APEX-Agents 接近翻倍,配合 Antigravity 平台的持续投入,Google 显然在赌 Agentic 工作流是下一个主战场——这和整个行业的判断一致。 第三,发布节奏在加快。 从 3 Pro 到 3.1 Pro 只有三个月,且性能有实质性提升,说明 Google 内部的迭代速度真的在加快。 需要保持清醒的地方:
  • 在 Chatbot Arena 主观评分上,Claude Opus 4.6 仍然领先
  • Coding 能力上,SWE-bench 得分领先,但 Claude 在实际编程 Agent 场景中的用户口碑积累更深
  • 现在是"Preview"阶段,正式发布可能还要等几周,稳定性有待观察

  • 小结

    Gemini 3.1 Pro 是 2026 年开年以来,在评测数字上最有说服力的一次更新。ARC-AGI-2 的 77.1%、SWE-bench 的 80.6%、以及 APEX-Agents 的接近翻倍,三个维度的同步提升,让这次发布不能被轻易忽视。

    如果你是开发者,现在就可以去 Google AI Studio 申请预览访问,把它和你常用的模型跑跑同款任务,感受一下实际差距。

    基准测试告诉你潜力上限,实际使用告诉你真实水位——这两件事,都值得亲自做一遍。

    #Gemini#Google#AI模型#大模型评测#ARC-AGI#Agentic#2026
    浏览更多文章
    分享