Gemini 3 来势汹汹,学习建构规划一应俱全
Sam Altman 还在社交平台上祝贺 Gemini 3 的发布。网友评论道,“为什么没有祝贺马斯克的 Grok 4.1?我闻到了一股怨气。”
先抛开争端不谈,这次 Gemini 3 来势汹汹,官方宣称“可以将任何想法变为现实”。新模型旨在捕捉深层含义和细微差别,无论是洞察创意中的微妙线索,还是层层剖析难题。
Gemini 3 也更擅长理解请求背后的语境和意图,无需过多提示就能获得所需信息。
深度推理
在所有主要 AI 基准测试中,Gemini 3 的推理和多模态能力都优于 2.5 Pro。
文本推理方面,它以 1501 Elo 分数登上 LMArena 排行榜榜首。在“人类最后的考试”中不使用任何工具的情况下获得了 37.5% 的成绩。在 GPQA Diamond 测试中也取得了 91.9% 的成绩。此外,它还在 MathArena Apex 测试中取得了 23.4% 的全新最高分,展现了博士级别的推理能力。
除文本推理,Gemini 3 Pro 在 MMMU-Pro 测试中取得了 81% 的正确率,在 Video-MMMU 测试中取得了 87.6% 的正确率,重新定义了多模态推理能力。
它在 SimpleQA Verified 测试中也获得了 72.1% 的领先成绩,展现了在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 能够以高度的可靠性解决涵盖科学和数学等众多领域的复杂问题。
Gemini 3 Pro 每一次回复都呈现出智能、简洁、直接的互动,摒弃了陈词滥调和奉承,提供了一些真正深刻的见解。
它还可以编写代码来可视化托卡马克中的等离子体流动,并创作一首诗来捕捉聚变的物理原理。
在 Humanity's Last Exam 中,Gemini 3 深度思考模型在不使用工具的情况下得分 41.0%。 在GPQA Diamond 中得分 **93.8%**,表现均优于 Gemini 3 Pro。此外,它在 ARC-AGI-2 上也取得了前所未有的 45.1% 的得分。
学习、构建和规划的助手
学习知识
Gemini 3 结合了推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口,进一步拓展了多模态推理的边界。
如果想学习如何烹饪,Gemini 3 可以解读并翻译不同语言的手写食谱并生成食谱。它还可以为学术论文、长篇视频讲座或教程生成交互式记忆卡片、可视化或其他格式的代码。甚至可以分析匹克球比赛视频,找出改进的地方,并制定训练计划,帮助用户全面提升球技。
建构和编码
官方表示,Gemini 3 是迄今为止构建最佳的 Vibe 编码和代理编码模型。它在 WebDev Arena 排行榜上名列榜首,获得了 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在编码能力测试 SWE-bench Verified 中也大幅超越了 2.5 Pro 版本。
规划
与其他前沿模型相比,Gemini 3 Pro 展现出更好的长期规划能力,能够产生更高的回报。
通过将更深入的推理与更完善、更一致的工具使用相结合,Gemini 3 可以从头到尾处理更复杂的多步骤工作流程——例如预订本地服务或整理收件箱。
结语
Gemini 3 是迄今为止所有 Google AI 模型中安全评估最为全面的模型。该模型表现出更低的讨好倾向、更强的抵御提示注入的能力以及更强大的抵御网络攻击滥用的能力。
目前,Gemini 3 已登陆 Gemini 应用 、 AI Studio 和 Vertex AI 的开发者平台,以及 Google 的全新智能体开发平台 Google Antigravity。
参考资料:
https://blog.google/products/gemini/gemini-3/#gemini-3
(来源:维科网)





