最强中文大模型,通义千问2.5追上GPT

最有希望的选手之一。 从 ChatGPT(GPT-3.5)发布至今的一年多,大语言模型的迭代速度之快、进步幅度之大,时刻刷新着我们的认知。最近一段时间,各家更是密集发布了新版的大模型,都在追赶和超越最新领先的大模型,甚至逼得 OpenAI 进一步取消了 GPT-4 的限制

最有希望的选手之一。

从 ChatGPT(GPT-3.5)发布至今的一年多,大语言模型的迭代速度之快、进步幅度之大,时刻刷新着我们的认知。最近一段时间,各家更是密集发布了新版的大模型,都在追赶和超越最新领先的大模型,甚至逼得 OpenAI 进一步取消了 GPT-4 的限制。 

现在阿里云最新的通义千问 2.5 版本也来了,不仅在中文语境下追上了 GPT-4 Turbo,更让人期待的是:在开源和免费的发展策略下,通义千问 2.5 会不会成为大模型落地的分水岭,加速 AI 应用的全面爆发? 

这一点还需要我们拭目以待,但至少,通义千问的这一轮升级中再次证明自己的能力和潜力。

 通义千问全面升级,中文性能追平 GPT-4 Turbo 

5 月 9 日,阿里云正式发布通义千问 2.5,这是其旗下的通义大模型系列的最新版本。与此同时,阿里云还开源通义千问 1100 亿参数模型。 

按照阿里云方面的说法,得益于全方位的能力提升,在中文语境下,通义千问 2.5 的文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超 GPT-4。

通义千问 2.5.png

图/阿里

而据权威基准测评 OpenCompass 的结果显示,通义千问 2.5 的得分也追平了 GPT-4 Turbo,是第一个做到的国产大模型。

在 LMSYS 最新的大模型对战排行榜中,通义千问(Qwen-Max)暂时位居总榜第 10,中文场景下与 GPT-4 Turbo 并列第 2,仅仅略逊于排在第一的 Claude 3 Opus 和 GPT-4(1106)。 

SCR-20240510-qozx.png

 图/ LMSYS 

当然,跑分和排行榜很难完全说明大模型的实际性能表现,更遑论最终落到实处的用户体验。 

根据介绍,通义千问 2.5 采用了阿里云自研的「问天」架构,并通过大量数据和算法的训练,使得模型的核心性能得到了大幅提升。相比 2.1 版本,2.5 版本通义千问的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。 

简单来说,你可以认为通义千问 2.5 能够更准确地理解自然语言的语义,并识别出其中的细微差别;也能进行更复杂的逻辑推理,并解决更具挑战性的问题等。此外,通义千问版本升级后还新增了文档处理、音视频理解、智能编码等多种能力。 

在文档处理上,通义千问 2.5 支持单次最长 1000 万字、100 个文档,覆盖 PDF、Word、Excel,甚至 Markdown 和 EPUB 等多种文件格式。同时不只是正文内容,还可以解析标题、段落、图表等多种数据格式。

SCR-20240510-ohav.png

 图/通义千问

另外在音视频理解上,通义千问 2.5 也支持了实时语音识别、说话人分离等能力,能够提取全文摘要、总结发言、提取关键词等,且支持最多同时上传处理 50 个音视频文件。 

这些升级或许看上去没有核心性能的提升来得「性感」,但从实际使用的角度,不管是能一次塞给大模型更大、更多、更多格式的文档,还是音视频的多种能力,其实都在大幅扩展大模型的真实使用场景。 

从这个角度来看,通义千问 2.5 的意义就远不只是在性能上追平 GPT-4 Turbo。 

另一方面,AI 算力成本的高昂已经广为人知,不管是海外的 ChatGPT Plus(GPT-4)、Gemini Advanced、Claude Pro,还是国内的文心一言会员(文心一言 4.0)、WPS AI 等服务,都有不低的收费。 

而面向 C 端用户,通义千问主打一个全功能「免费」。同时通义千问 APP 还升级为「通义 APP」,集成文生图、智能编码、文档解析、音视频理解、视觉生成等全栈能力,想成为用户的「全能 AI 助手」。

不难理解,阿里还是通过免费迅速扩大 C 端用户规模。但在现阶段,B 端用户可能更为关键。

大模型生态落地,开源路线加速 

「从 2022 年 9 月发布通义系列模型以来,如今我们的 API 日调用量已经过亿。」5 月 9 日,阿里云 CTO 周靖人在总结通义千问过去一年时指出。 

不仅如此,阿里云还透露通义系列大模型已经服务包括新浪微博、小米、中国一汽在内的 9 万家企业用户。发布活动上,阿里云还邀请微博和小米分享了他们对于通义千问的落地应用。 

其中微博作为最早的用户,就基于通义千问打造了出圈的官方评论机器人 「评论罗伯特」。小米的小爱同学同样也是基于通义千问,强化了在图片生成、图片理解等方面的多模态 AI 生成能力,包括在小米汽车、手机、音箱等硬件上。 

事实上,上个月联想发布了内嵌个人智能体的「真 AI PC」,其背后也是通义系列大模型。

Lenovo AI PC.jpg

图/联想

开源,毋庸置疑是阿里在大模型生态上发展迅猛的关键因素之一。「大到整个产业落地 AI,小到每个企业开发应用,开源技术都至关重要,这一点在全球范围内已经被多次证明,」周靖人在财新的采访中说道。 

去年 8 月,阿里宣布通义千问加入开源生态,随着沿着「全模态、全尺寸」的开源路线陆续推出十多款模型,参数规模横跨 5 亿到 1100 亿,并且迅速成为开源大模型社区最受欢迎的开源大模型之一。

通义千问 开源.png

图/阿里

其中,1.8B、4B、7B、14B 等小尺寸的通义千问,可以直接在手机、PC 等设备端侧部署运行;72B、110B 等大尺寸模型则更多运行在服务器和数据中心,支持更大规模、更专业的 AI 应用。 

而随着通义千问 2.5 的发布,其落地应用还有望得到进一步加速。在开源大模型中,通义千问拥有全尺寸的参数规模,还有目前最强的性能,开发者自然会更倾向基于通义千问的大模型生态进行开发。

更何况,即使相比最领先的闭源大模型,通义千问的差异也拉得很小了。

 写在最后 

「我们仍处于 AI 发展的初期阶段」,谷歌 CEO 桑达尔·皮查伊在最近一次采访中说道。 

过去一年多,AI 世界几乎是一天一变,头部厂商的大模型之争也愈演愈烈,实质也带动了整个生态的前进。事实上,今天打开手机,不提系统自带的 AI 功能,已经有大量的应用都引入了生成式 AI,还在涌现大量的生成式 AI 原生应用。 

不过还是不够。所有人都明白,面向普通用户的 AI 应用还没真正迎来爆发时刻,通义千问当然也不可能直接做到,但作为开源大模型,通义千问确实是最有希望推动 AI 应用真正爆发起来的大模型之一。

来源:雷科技

       原文标题 : 最强中文大模型,通义千问2.5追上GPT-4了?

(来源:维科网)
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐

  • 截胡GPT

    缺「爆品」,成了谷歌最大的心结。 一年一度的Google I/O开发者大会如期而至,在本场发布会中,谷歌一口气交出数个AI新品,轮番轰炸我们的视觉神经。 首先是真正意义上的全新产品—&

    2024-05-16
    0
  • 尬吹Open AI的GPT

    不要“揠苗助长”。 5月14日凌晨,朋友圈很多人都在围观OpenAI的GPT-4o发布会。OpenAI的发布会,俨然已取代苹果发布会成为科技圈新春晚。 早晨一看朋友圈,画风

    2024-05-15
    0
  • AI引发市场巨变,存储行业迎来历史性时刻

    存储行业触底反弹。 在过去两年里,存储芯片产业进入了调整周期,存储芯片公司们面临着库存芯片过剩,客户减少订单、价格暴跌等种种问题。2022年,DRAM(内存)价格从年头跌到了年尾,TrendForce调查显示,下半年合约价每季跌幅都超过了10%

    2024-05-14
    0
  • 押注端云协同,苹果选择紧抱OpenAI大腿!

    重做Siri。 自ChatGPT推出以来,生成式AI大模型已经成为百度、阿里巴巴、腾讯、谷歌、Meta、OpenAI等海内外科技公司的竞争新方向。然而面对逐渐升温的生成式AI浪潮,作为全球首屈一指的科技公司,苹果存在感极低,如同一个旁观者,默默注视着事态发展

    2024-05-12
    0
  • 中国科技大航海时代,“掘金”一带一路

    文|白    鸽 编|王一粟 “这不就是90年代的内地吗?” 在深度考察完沙特市场后,华盛集团联合创始人兼CEO张霆对镜相工作室感慨道。 在张霆

    2024-05-06
    0
  • 大模型应用当红顶流是如何练成的?

    图片|电影《功夫》截图 ©自象限原创 作者丨苏奕 编辑丨程心 如果你生活在中国,你可能不认识ChatGPT,但你一定知道Kimi。 从小学到大学,从学生党到打工人,都别想避开Kimi的广告

    2024-05-03
    0
  • 国产视频大模型真的来了,实现一次生成16秒高清视频

    日前,在备受瞩目的2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合生数科技正式发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这一重大成果的发布,标志着中国在视频大模型领域取得了重要进展,为全球人工智能发展注入了新的活力

    2024-04-30
    0
  • 如何加速AI PC的普及?英伟达将RTX作为终极答案

    AI的问题,用AI来解决。 在过去的十年里,人工智能(AI)技术已经从理论研究和小规模应用迈向全球性的技术革命,彻底改变了我们生活和工作的方式。无论是智能手机上的语音助手,还是复杂的数据分析和自动化生产线,AI 的影响无处不在,其带来的效率提升和成本降低正推动着一场前所未有的生产力革命

    2024-04-27
    0
  • 大模型没过“试用期”

    撰文 | 吴坤谚 编辑 | 吴先之 东市买骏马,西市买鞍鞯,南市买辔头,北市买长鞭。 出自《木兰辞》中的诗句展现了充分竞争的自由市场中,供给方各司其职的状态

    2024-04-23
    0
  • 宏愿尚未实现,百度仍需努力

    时下的AI似乎还不具备帮助百度留住更多用户的能力,百度也还远未到收获成熟果实的阶段。  ,内容/脱落酸    编辑 / TV&

    2024-04-22
    0