DBRX达1320亿参数,最强开源模型易主

前言: DBRX的诞生标志着全球范围内开源人工智能语言模型技术的最新巅峰,并预示着人工智能技术的发展已正式进入全新阶段。 该模型通过深度学习技术和大规模训练数据的结合,不仅在自然语言处理领域表现出色,更在程序代码解析与生成、复杂数学计算以及逻辑推理等多个领域展现了前所未有的卓越能力

前言:

DBRX的诞生标志着全球范围内开源人工智能语言模型技术的最新巅峰,并预示着人工智能技术的发展已正式进入全新阶段。

该模型通过深度学习技术和大规模训练数据的结合,不仅在自然语言处理领域表现出色,更在程序代码解析与生成、复杂数学计算以及逻辑推理等多个领域展现了前所未有的卓越能力。

作者 | 方文三

图片来源 |  网 络 

图片

全球最强开源大模型王座易主

近期,全球开源大模型领域迎来了重大变革,创业公司Databricks推出的新型开源模型DBRX在技术层面已超越先前的领军者Llama 2、Mixtral和Grok-1,荣登全球最强开源大模型之巅。

这一突破性的成就,无疑为开源模型领域树立了新的里程碑。

值得注意的是,DBRX在训练成本上实现了显著降低。Databricks公司仅投入1000万美元及3100块H100芯片,便高效地在两个月内完成了DBRX的训练。

相较于Meta开发Llama2所需的庞大投入,这一成本展示了Databricks公司在技术效率与成本控制上的卓越能力。

在性能表现方面,DBRX同样展现出了强大的实力。无论是在语言理解、编程、数学还是逻辑领域,DBRX均轻松超越了开源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是,DBRX的整体性能甚至超越了GPT-3.5,尤其在编程方面,DBRX展现出了超越GPT-3.5的卓越性能。

DBRX大模型,使用MoE架构

Databricks公司最近推出了开源模型DBRX,其参数规模高达1320亿。

这款模型采用了先进的细粒度MoE架构,每次输入仅需使用360亿参数,显著提升了每秒token吞吐量。

DBRX通过细粒度专家混合(MoE)架构,拥有更多的专家模型,从而在推理速度上大幅超越了LLaMA 2-70B,实现了两倍的提升。

DBRX是一款基于Transformer纯解码器的大模型,同样采用下一token预测进行训练。

在MoE中,模型的某些部分会根据查询内容启动,有效提高了模型的训练和运行效率。

相较于其他开源MoE模型如Mixtral和Grok-1,DBRX采用了细粒度设计,使用更多数量的小型专家。

DBRX拥有16个专家模型,每次选择4个使用,而Mixtral和Grok-1则分别拥有8个专家模型,每次选择2个。

这种设计使得DBRX提供了65倍可能的专家组合,极大地提高了模型质量。

此外,DBRX还采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术,以提高模型质量。同时,DBRX还使用了tiktoken存储库中提供的GPT-4分词器。

在方法层面,DBRX模型(包括预训练数据、模型架构和优化策略)与上一代的MPT模型相当,但计算效率提高了近4倍。

三大核心能力表现突出

①经过综合评估,DBRX的“微调版”Instruct在多个基准测试中表现卓越。

在Hugging Face Open LLM Leaderboard这一复合基准测试中,DBRX Instruct以74.5%的得分荣登榜首,显著领先于第二名Mixtral Instruct的72.7%。

同时,在Databricks Model Gauntlet这一包含超过30项任务、横跨六个领域的评估套件中,DBRX Instruct同样以66.8%的得分拔得头筹,较第二名Mixtral Instruct的60.7%有着明显优势。

②DBRX Instruct在编程和数学相关任务上展现出了尤为突出的能力。

在HumanEval这一评估代码质量的任务中,其正确率达到了70.1%,比Grok-1高出约7个百分点,比Mixtral Instruct高出约8个百分点,并超越了所有被评估的LLaMA2-70B变体。

在GSM8k数学问题解决测试中,DBRX Instruct同样取得了最优成绩66.9%,超过了Grok-1、Mixtral Instruct以及其他LLaMA2-70B变体。

值得注意的是,尽管Grok-1的参数数量是DBRX Instruct的2.4倍,但在上述编程和数学任务上,DBRX Instruct仍能保持领先地位。

甚至在针对编程任务专门设计的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表现依然出色。

③DBRX Instruct在多语言理解能力方面也表现出色。

在大规模多任务语言理解数据集(MMLU)上,DBRX Instruct继续展示出顶级性能,得分高达73.7%,超过了本次比较的所有其他模型。

综上所述,DBRX的“微调版”Instruct在多个基准测试中均表现出色,尤其在编程、数学和多语言理解方面展现出了卓越的能力。

Databricks再次搅局,力争市场破局

Databricks,源于加州大学伯克利分校的AMPLab项目,专注于研发基于Scala的开源分布式计算框架Apache Spark,并首创了“湖仓一体”(data Lakehouse)的概念。

2023年3月,该公司紧跟ChatGPT热潮,推出了开源语言模型dolly,并在后续2.0版本中提出了“首个真正开放和商业可行的指令调优LLM(大模型)”的口号,这标志着Databricks的“第二次行业革新”。

值得一提的是,Jonathan Frankle,曾是生成式AI初创公司MosaicML的首席科学家。

而Databricks在2023年6月以14亿美元成功收购了MosaicML,这一举措促使Frankle辞去了哈佛大学教授的职务,全身心投入到DBRX的研发中。

就在前些日子,马斯克宣布了史上最大的开源模型Grok-1的诞生,这一事件无疑引起了业界的广泛关注。

Databricks之所以能在竞争中脱颖而出,其关键在于公司的技术整合能力和专有数据。

这两项核心优势将继续推动新的、更优秀的模型变体的诞生。

DBRX团队拥有16名专家,并从中选择了4名进行模型开发,而Mixtral和Grok-1团队各有8名专家,选择了2名。

这种选择为DBRX提供了超过65倍的专家组合可能性,从而显著提高了模型质量。

DBRX在模型开发中采用了旋转位置编码(RoPE)、门控线性单元(GLU)和分组查询注意力(GQA)等技术,并使用了tiktoken存储库中提供的GPT-4令牌化器(tokenizer)。

这些决策都是团队经过深入评估和缩放实验后作出的明智选择。

透露下一步有关开源模型的计划

①即将推出RAG工具,这一模式对于其发展具有重大意义。同时,Databricks中已经内置了简洁高效的RAG方法。

接下来,将致力于将DBRX模型打造成为RAG的最佳生成器模型,为用户提供更为强大的支持。

②DBRX模型将在所有主流云环境产品,包括AWS、谷歌云(GCP)和Azure等平台上进行托管。

作为一款开源模型,鼓励用户根据自身需求自由地使用它,以推动业务的发展和创新。

③DBRX模型预计将通过Nvidia API Catalog进行提供,并在Nvidia NIM推理微服务上获得支持。

这将为用户带来更加稳定和高效的推理体验,进一步推动业务的增长和拓展。

让大模型厂商看到了变现的路径

Databricks专注于协助企业构建、训练和扩展符合其特定需求的模型,此举具有深远意义。

这支独角兽团队高度重视企业的采纳情况,因为这直接关系到他们的商业模式。

作为LLM发布计划的一部分,Databricks以开放许可证的形式推出了两个模型:DBRX Base和DBRX Instruct。

DBRX Base是一个预训练的基础模型,而DBRX Instruct则是针对少量交互的微调版本。

值得一提的是,DBRX得到了Azure数据库在AWS、Google Cloud和Microsoft Azure上的支持,这意味着企业可以轻松地下载模型并在任何他们选择的图形处理器(GPU)上运行。

此外,企业还可以选择订阅DBRX和其他工具,如检索增强生成(RAG),通过Databricks的Mosaic AI Model服务产品定制LLM。

Mosaic AI Model服务通过Foundation Model APIs与DBRX相连,使企业能够从服务端点访问和查询LLMs。这一功能为企业提供了更强大的定制能力和灵活性。

Foundation Model APIs提供两种定价模式:按Tokens付费和分配的吞吐量。

按Tokens付费的定价是基于并发请求,而吞吐量则是按每小时每个GPU实例计费。

两种费率,包括云实例成本,均从每个Databricks单位$0.070开始。

同时,Databricks还为不同的GPU配置提供了相应的定价区间,以满足企业在不同场景下的计算需求。

通过稳健的商业模式和开源大模型的结合,这也为企业提供了进入AIGC领域的门票。

通过使用我们的平台,企业不仅可以降低使用自身企业数据开发生成性AI用例的成本,而且不会受到封闭模型提供商(如OpenAI)对商业用途的限制。

结尾:

随着2024年AI大模型的迅猛进步,创新与突破呈现出指数级增长。

例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相继发布并开放使用。

随着LLM社区的逐渐成熟,我们有理由相信,在不久的将来,每个企业都将有能力在新兴的生成式AI领域构建专有的私有LLM模型,并充分发掘和利用企业私有数据的价值。

部分资料参考:机器之心:《开源大模型王座再易主,1320亿参数DBRX上线》,新智元:《全球最强开源模型一夜易主,1320亿参数推理飙升2倍》,CSDN:《Databricks 开源 1320 亿参数大模型强势搅局,Grok 和 LLaMA 悉数落败》,编程奇点:《马斯克刚开源10天的Grok遭吊打,1320亿参数DBRX上线》,开源AI项目落地:《DBRX:全球最强开源大模型易主》

       原文标题 : AI芯天下丨热点丨DBRX达1320亿参数,最强开源模型易主

(来源:维科网)
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐

  • 超算互联网崛起,数字经济社会势在必行

    前言: 在人工智能和大数据高速发展的当下,除了用于研制“国之重器”外,超算业已切入每个人的具体生活场景。 超算互联网正以一种全新的生产力形式,为各行各业的数字化转型注入新动能,成为数字经济社会高质量发展的重要驱动力

    2024-02-18
    0
  • 今年AI赢利到底从哪里来?

    前言: 生成式AI有望继续在今年成为科技产业发展的核心主线之一,对全球企业IT支出总量和结构、半导体和硬件行业需求,以及互联网公司运营效率产生相应影响。 作者 | 方文三 图片来源&n

    2024-02-02
    0