Gemini 3 来势汹汹，学习建构规划一应俱全_数智科技

Gemini 3 来势汹汹，学习建构规划一应俱全

今天，谷歌开发者关系负责人、Google AI Studio 负责人在社交媒体上发布了一条仅含“Gemini”一词的推文，引爆话题。就在昨日，马斯克刚刚宣布 Grok 4.1 的发布。Gemini

Sam Altman 还在社交平台上祝贺 Gemini 3 的发布。网友评论道，“为什么没有祝贺马斯克的 Grok 4.1？我闻到了一股怨气。”

先抛开争端不谈，这次 Gemini 3 来势汹汹，官方宣称“可以将任何想法变为现实”。新模型旨在捕捉深层含义和细微差别，无论是洞察创意中的微妙线索，还是层层剖析难题。

Gemini 3 也更擅长理解请求背后的语境和意图，无需过多提示就能获得所需信息。

深度推理

在所有主要 AI 基准测试中，Gemini 3 的推理和多模态能力都优于 2.5 Pro。

文本推理方面，它以 1501 Elo 分数登上 LMArena 排行榜榜首。在“人类最后的考试”中不使用任何工具的情况下获得了 37.5% 的成绩。在 GPQA Diamond 测试中也取得了 91.9% 的成绩。此外，它还在 MathArena Apex 测试中取得了 23.4% 的全新最高分，展现了博士级别的推理能力。

除文本推理，Gemini 3 Pro 在 MMMU-Pro 测试中取得了 81% 的正确率，在 Video-MMMU 测试中取得了 87.6% 的正确率，重新定义了多模态推理能力。

它在 SimpleQA Verified 测试中也获得了 72.1% 的领先成绩，展现了在事实准确性方面的显著进步。这意味着 Gemini 3 Pro 能够以高度的可靠性解决涵盖科学和数学等众多领域的复杂问题。

Gemini 3 Pro 每一次回复都呈现出智能、简洁、直接的互动，摒弃了陈词滥调和奉承，提供了一些真正深刻的见解。

它还可以编写代码来可视化托卡马克中的等离子体流动，并创作一首诗来捕捉聚变的物理原理。

在 Humanity's Last Exam 中，Gemini 3 深度思考模型在不使用工具的情况下得分 41.0%。 在GPQA Diamond 中得分 **93.8%**，表现均优于 Gemini 3 Pro。此外，它在 ARC-AGI-2 上也取得了前所未有的 45.1% 的得分。

学习、构建和规划的助手

学习知识

Gemini 3 结合了推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口，进一步拓展了多模态推理的边界。

如果想学习如何烹饪，Gemini 3 可以解读并翻译不同语言的手写食谱并生成食谱。它还可以为学术论文、长篇视频讲座或教程生成交互式记忆卡片、可视化或其他格式的代码。甚至可以分析匹克球比赛视频，找出改进的地方，并制定训练计划，帮助用户全面提升球技。

建构和编码

官方表示，Gemini 3 是迄今为止构建最佳的 Vibe 编码和代理编码模型。它在 WebDev Arena 排行榜上名列榜首，获得了 1487 Elo 分数。此外，它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩，该测试旨在评估模型通过终端操作计算机的工具使用能力。同时，它在编码能力测试 SWE-bench Verified 中也大幅超越了 2.5 Pro 版本。

规划

与其他前沿模型相比，Gemini 3 Pro 展现出更好的长期规划能力，能够产生更高的回报。

通过将更深入的推理与更完善、更一致的工具使用相结合，Gemini 3 可以从头到尾处理更复杂的多步骤工作流程——例如预订本地服务或整理收件箱。

结语

Gemini 3 是迄今为止所有 Google AI 模型中安全评估最为全面的模型。该模型表现出更低的讨好倾向、更强的抵御提示注入的能力以及更强大的抵御网络攻击滥用的能力。

目前，Gemini 3 已登陆 Gemini 应用、 AI Studio 和 Vertex AI 的开发者平台，以及 Google 的全新智能体开发平台 Google Antigravity。

参考资料：

https://blog.google/products/gemini/gemini-3/#gemini-3

（来源：维科网）

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

Gemini 3 来势汹汹，学习建构规划一应俱全

深度推理

学习、构建和规划的助手

学习知识

建构和编码

规划

结语

相关推荐

友情链接