Gemini 3.1 Pro 深度解读：ARC-AGI-2 得 77%，SWE-bench 第一

刚刚发生了什么

2026 年 2 月 19 日，Google 发布了 Gemini 3.1 Pro。

距离 Gemini 3 Pro 发布（2025 年 11 月）才过了三个月。

三个月更新一个大版本，这节奏说明了两件事：第一，AI 军备竞赛的烈度还在升级；第二，Google 这次在 Gemini 3.1 Pro 上，交出了一张让人不得不认真对待的成绩单。

一、最值得关注的数字：ARC-AGI-2 得分 77.1%

先说最震撼的那个数字。

Gemini 3.1 Pro 在 ARC-AGI-2 上得了 77.1%，而上一代 Gemini 3 Pro 是 31.1%——三个月内，直接翻了一倍还多。

什么是 ARC-AGI-2？这是 AI 研究界目前公认最难作弊的推理测试之一。它的设计思路是：给模型呈现它从未见过的全新逻辑模式，测试它能否举一反三地解决问题。

普通的 AI 评测，模型可以通过大量记忆训练数据来刷高分。但 ARC-AGI-2 的题目是动态生成的，没法提前背答案。你要么真的会推理，要么就是不会。

Claude Opus 4.6：68.8%
GPT-5.2：远低于 Gemini 3.1 Pro

77.1% 是目前所有前沿模型中最高的公开分数。

另一个硬指标——Humanity's Last Exam（HLE），这是专门测试顶尖专家级知识的超难题库。Gemini 3.1 Pro 得了 44.4%，而上一代 Gemini 3 Pro 是 37.5%，同期的 GPT-5.2 是 34.5%。

二、16 项主要评测，拿下 13 项第一

以下是 Gemini 3.1 Pro 与主要竞品的关键对比：

评测项目	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2（新逻辑推理）	77.1%	68.8%	远低于
GPQA Diamond（研究生级科学）	94.3%	91.3%	92.4%
SWE-Bench Verified（软件工程）	80.6%	—	—
APEX-Agents（Agent 任务）	33.5%	—	—
Humanity's Last Exam	44.4%	53.1%（含工具）	34.5%

Google 这次在 16 项主要评测中拿下了 13 项第一。

唯一需要补充的是：在 Chatbot Arena（用户主观投票的对话质量排行榜）上，Claude Opus 4.6 仍以微弱优势领先。但这个榜单测的是"看起来好"，而非"实际上对"。

三、最有意思的能力：代码就是画布

Google 在发布博客里重点展示了 Gemini 3.1 Pro 的创意编程能力，这是一个过去很少被强调的维度。

生成动态 SVG 动画

给一段文字描述，Gemini 3.1 Pro 可以直接输出一个运行在浏览器里的矢量动画——用纯代码写成，不是视频文件，意味着无限放大不失真，文件大小极小。这在以前需要设计师手工完成。

构建实时数据仪表盘

在演示中，Gemini 3.1 Pro 从一个复杂的公开 API 里拉取国际空间站的实时轨道遥测数据，自动生成了一个可视化仪表盘。整个过程：理解 API 文档 → 写数据请求代码 → 设计可视化界面，一步完成。

沉浸式 3D 交互体验

让模型写一个「鸟群飞行模拟」——Gemini 3.1 Pro 不止生成了视觉代码，还添加了手势追踪交互，以及一段随鸟群运动实时变化的生成音乐。这已经不是代码生成，而是用代码作为媒介进行创作。

文学主题转化为网站

给出《呼啸山庄》作为主题，要求设计一个现代风格的作者个人网站。Gemini 3.1 Pro 没有做成一个通用模板，而是真正理解了小说的阴郁大气风格，设计出了一个符合作品气质的界面——这需要同时理解文学和设计。

四、Agentic 能力：APEX-Agents 近乎翻倍

对于开发者来说，最值得关注的可能是 Agent 能力的跃升。

Gemini 3.1 Pro 在 APEX-Agents 评测上得了 33.5%，而上一代 Gemini 3 Pro 是 18.4%——接近翻倍。

APEX-Agents 测试的是模型在真实 Agent 任务中的表现：能否自主制定计划、调用工具、处理中间状态、完成多步骤目标。这个分数的跃升，意味着 Gemini 3.1 Pro 在以下场景中将有明显提升：

Google Antigravity（Google 自研的 Agentic IDE）中的自主编程任务

复杂工作流自动化：跨系统、多步骤的企业级 Agent

Gemini CLI 中的终端自主操作

Google 明确表示，发布 3.1 Pro 处于"Preview"（预览）阶段，核心目的之一就是为了在野外环境中验证 Agentic 工作流，收集真实数据后再做正式发布。

五、价格没涨，上下文没变

对开发者的好消息：API 定价与 Gemini 3 Pro 保持一致——

输入：$2 / 百万 tokens

输出：$12 / 百万 tokens

上下文窗口：100 万 tokens 输入，64K tokens 输出（不变）

性能提升，价格不变。这在当前整体算力成本上涨的大背景下，是一个相当有竞争力的姿态。

六、在哪里用到 Gemini 3.1 Pro？

消费者端：

Gemini 应用（Google AI Pro / Ultra 套餐用户，优先解锁）

NotebookLM（Pro 和 Ultra 用户专属）

开发者端：

Google AI Studio（API 预览访问）

Gemini CLI（终端开发者工具）

Google Antigravity（Agentic 开发平台）

Android Studio

企业端：

Vertex AI

Gemini Enterprise

七、怎么看这次更新？

坦率说，Gemini 系列一直以来给人的印象是：评测数字漂亮，实际体验差强人意。Gemini 1.5 时代如此，Gemini 3 Pro 发布初期也有类似的评价。

但 Gemini 3.1 Pro 有几点不同于以往：

第一，ARC-AGI-2 的突破是硬指标。 77.1% 这个数字，在一个不容易刷的评测上，大幅领先所有竞品。这不是 Google 自己家的 benchmark，无法被"内部优化"。 第二，Agent 能力的提升是战略重心的信号。 APEX-Agents 接近翻倍，配合 Antigravity 平台的持续投入，Google 显然在赌 Agentic 工作流是下一个主战场——这和整个行业的判断一致。 第三，发布节奏在加快。 从 3 Pro 到 3.1 Pro 只有三个月，且性能有实质性提升，说明 Google 内部的迭代速度真的在加快。 需要保持清醒的地方：

在 Chatbot Arena 主观评分上，Claude Opus 4.6 仍然领先

Coding 能力上，SWE-bench 得分领先，但 Claude 在实际编程 Agent 场景中的用户口碑积累更深

现在是"Preview"阶段，正式发布可能还要等几周，稳定性有待观察

小结

Gemini 3.1 Pro 是 2026 年开年以来，在评测数字上最有说服力的一次更新。ARC-AGI-2 的 77.1%、SWE-bench 的 80.6%、以及 APEX-Agents 的接近翻倍，三个维度的同步提升，让这次发布不能被轻易忽视。

如果你是开发者，现在就可以去 Google AI Studio 申请预览访问，把它和你常用的模型跑跑同款任务，感受一下实际差距。

基准测试告诉你潜力上限，实际使用告诉你真实水位——这两件事，都值得亲自做一遍。