Gemini 3 来势汹汹,学习建构规划一应俱全

今天,谷歌开发者关系负责人、Google AI Studio 负责人在社交媒体上发布了一条仅含“Gemini”一词的推文,引爆话题。 就在昨日,马斯克刚刚宣布 Grok 4.1 的发布。Gemini

Sam Altman 还在社交平台上祝贺 Gemini 3 的发布。网友评论道,“为什么没有祝贺马斯克的 Grok 4.1?我闻到了一股怨气。”

先抛开争端不谈,这次 Gemini 3 来势汹汹,官方宣称“可以将任何想法变为现实”。新模型旨在捕捉深层含义和细微差别,无论是洞察创意中的微妙线索,还是层层剖析难题。

Gemini 3 也更擅长理解请求背后的语境和意图,无需过多提示就能获得所需信息。

深度推理

在所有主要 AI 基准测试中,Gemini 3 的推理和多模态能力都优于 2.5 Pro。

文本推理方面,它以 1501 Elo 分数登上 LMArena 排行榜榜首。在“人类最后的考试”中不使用任何工具的情况下获得了 37.5% 的成绩。在 GPQA Diamond 测试中也取得了 91.9% 的成绩。此外,它还在 MathArena Apex 测试中取得了 23.4% 的全新最高分,展现了博士级别的推理能力。

除文本推理,Gemini 3 Pro 在 MMMU-Pro 测试中取得了 81% 的正确率,在 Video-MMMU 测试中取得了 87.6% 的正确率,重新定义了多模态推理能力。

它在 SimpleQA Verified 测试中也获得了 72.1% 的领先成绩,展现了在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 能够以高度的可靠性解决涵盖科学和数学等众多领域的复杂问题。

Gemini 3 Pro 每一次回复都呈现出智能、简洁、直接的互动,摒弃了陈词滥调和奉承,提供了一些真正深刻的见解。

它还可以编写代码来可视化托卡马克中的等离子体流动,并创作一首诗来捕捉聚变的物理原理。

在 Humanity's Last Exam 中,Gemini 3 深度思考模型在不使用工具的情况下得分 41.0%。 在GPQA Diamond 中得分 **93.8%**,表现均优于 Gemini 3 Pro。此外,它在 ARC-AGI-2 上也取得了前所未有的 45.1% 的得分。

学习、构建和规划的助手

学习知识

Gemini 3 结合了推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口,进一步拓展了多模态推理的边界。

如果想学习如何烹饪,Gemini 3 可以解读并翻译不同语言的手写食谱并生成食谱。它还可以为学术论文、长篇视频讲座或教程生成交互式记忆卡片、可视化或其他格式的代码。甚至可以分析匹克球比赛视频,找出改进的地方,并制定训练计划,帮助用户全面提升球技。

建构和编码

官方表示,Gemini 3 是迄今为止构建最佳的 Vibe 编码和代理编码模型。它在 WebDev Arena 排行榜上名列榜首,获得了 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在编码能力测试 SWE-bench Verified 中也大幅超越了 2.5 Pro 版本。

规划

与其他前沿模型相比,Gemini 3 Pro 展现出更好的长期规划能力,能够产生更高的回报。

通过将更深入的推理与更完善、更一致的工具使用相结合,Gemini 3 可以从头到尾处理更复杂的多步骤工作流程——例如预订本地服务或整理收件箱。

结语

Gemini 3 是迄今为止所有 Google AI 模型中安全评估最为全面的模型。该模型表现出更低的讨好倾向、更强的抵御提示注入的能力以及更强大的抵御网络攻击滥用的能力。

目前,Gemini 3 已登陆 Gemini 应用 、 AI Studio 和 Vertex AI 的开发者平台,以及 Google 的全新智能体开发平台 Google Antigravity。

参考资料:

https://blog.google/products/gemini/gemini-3/#gemini-3

(来源:维科网)
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐