点击蓝字 关注我们
01
MoE的发展历程

混合专家模型(MoE)的发展历程可以追溯到1991年,当时由两位人工智能领域的泰斗Michael Jordan和Geoffrey Hinton首次提出了这一概念;他们发表的论文《Adaptive Mixtures of Local Experts》为MoE技术奠定了基础;这一技术的核心思想是通过将复杂任务分解给多个专家网络来处理,从而提高整体模型的效率和性能。
尽管MoE的概念早在上世纪90年代就已提出,但其在实际应用中的推广却相对缓慢,直到近些年才迎来了重要的突破;2020年,Google在其论文《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中首次将MoE技术引入到Transformer架构中;这一创新使得MoE技术在大模型领域的应用成为可能,推动了“MoE+大模型”时代的到来。
2022年,Google再度突破,在其论文《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》中提出了Switch Transformers模型;这一模型的参数规模达1.57万亿,与此前T5模型相比,在相同的计算资源下实现了高达7倍的预训练速度提升,并实现4倍的模型加速,成功突破了万亿参数大关;这一突破不仅验证了MoE技术的可行性,也展示了其在大规模模型训练中的巨大潜力。
在国际上,OpenAI,X,Mistral AI等公司纷纷推出了基于MoE架构的大模型,如GPT-4,Grok-1和Mistral等。
混合专家模型(MoE)在国内的发展
// 天工AI大模型的崛起
昆仑万维集团是国内MoE大模型发展的重要推动者;2023年4月17日,昆仑万维发布自研双千亿级大语言模型「天工1.0」,正式奠定了国产大模型崛起之路。2024年4月17日,昆仑万维重磅宣布,「天工3.0」正式开启公测。
// 天工3.0的创新和性能提升
「天工3.0」采用4000亿级参数MoE混合专家模型,是全球模型参数最大,性能最强的MoE模型之一;相较于上一代「天工2.0」MoE大模型,「天工3.0」在模型语义理解,逻辑推理,以及通用性,泛化性,不确定性知识,学习能力等领域拥有惊人的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。
天工3.0还新增了搜索增强,研究模式,调用代码及绘制图表,多次调用联网搜索等能力,并针对性地训练了模型的Agent能力,使得天工3.0能够独立完成规划,调用,组合外部工具及信息,以精准高效地完成产业分析,产品对比等各类复杂需求,带来全新的颠覆式人工智能体验。
// 天工AI的多模态能力
「天工3.0」是全球首个多模态“超级模型”(Super Model),集成了多项尖端AI技术和功能,其中天工AI搜索在天工AI中占据核心地位。
天工ai地址:https://www.tiangong.cn/

天工AI搜索是中国第一款AI搜索产品,也是我使用最多的国内AI搜索,在项目开发过程中,有什么问题或知识点不清楚都是用它来搜索;在使用过程中,深刻体会到它的不可替代和强大功能,比如:
-
增强搜索:处理复杂查询,精准理解用户意图。

-
实时联网搜索:获取最新信息,确保数据时效性和准确性。
-
研究模式:深入分析复杂问题,提供结构化或思维导图形式的展示。

-
多次调用联网搜索:多次获取信息,确保全面准确的结果。
-
多模态信息处理:能够同时处理文字和图像数据,例如,在搜索增强功能中,天工AI能够理解复杂的查询,精准地处理搜索结果的图像和文本内容(如上图所示),为用户提供准确和多样化的搜索结果;天工AI是中国AI产品里唯一具备这种图文并茂的搜索结果展现形式的,堪称孤品。
天工AI通过集成天工AI搜索的强大功能,以及AI写作,AI对话,AI语音合成,AI图片生成等多模态能力,成为全能的AI助手,展现了卓越的实力和广阔前景。
02
混合专家模型(MoE)的优势
提高模型容量和性能
MoE模型相比传统的稠密模型,能够在远少于后者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,从而使得模型规模得到显著扩大,获得更好的AI性能。
提升推理计算效率
MoE在模型推理过程中能够根据输入数据的不同,动态地选择不同的专家网络进行计算;这种稀疏激活的特性使得MoE模型拥有更高的推理计算效率,进而提供更快的AI响应速度。
强化处理复杂任务的能力
由于MoE架构中集成了多个专家模型,每个专家模型都能针对不同的数据分布和构建模式进行优化,从而显著提升大模型在各个细分领域的专业能力,使得MoE在处理复杂任务时表现更好。
灵活性和可扩展性
针对不同的专家模型,AI研究人员能够采用特定的优化策略,并通过增加专家模型数量,调整专家模型的权重配比等方式,构建更为灵活,多样,可扩展的大模型。
03
什么是混合专家模型(MoE)
MoE的核心逻辑
混合专家模型(MoE,全称Mixture of Experts)是一种创新的大模型架构,其核心思想是“术业有专攻”,将复杂任务分解并分配给多个专家网络来解决;MoE与传统的稠密模型(Dense Model)相比,更能有效处理复杂任务,提高计算效率和模型性能。
在MoE架构中,每个专家网络专注于解决特定类型的问题,而门控网络(Gating Network)负责将输入数据分配给合适的专家网络。这种设计让MoE模型在不显著增加计算成本的情况下,大幅提高了模型的容量和性能,使得万亿参数级别的大模型成为可能。
MoE的技术原理
混合专家模型(MoE)的核心工作原理是通过门控网络(Gating Network)将输入数据分配给多个专家模型(Experts),每个专家模型专注于处理特定类型的数据,从而提高整体模型的效率和性能。以下是MoE模型的具体工作流程:
-
数据分块:输入数据被分割成多个区块(Token)。
-
门控网络分配:每组数据首先进入门控网络,门控网络根据数据的特性将其分配给一个或多个专家模型;门控网络负责决定每个数据块应由哪个或哪些专家来处理,这种动态分配机制确保了数据能够被最合适的专家处理。
-
专家处理:每个专家模型专注于处理分配到的特定数据部分;每个专家模型都是一个小规模的神经网络,专门针对某一类任务进行优化;通过这种方式,专家模型能够以更高的效率和准确度处理数据。
-
结果汇总:所有专家的输出结果被加权融合,形成最终输出;在这一步骤中,模型将各个专家的处理结果进行整合,以提供一个综合的解决方案。

传统大模型(左)和MoE大模型(右)的对比展示了在数据流转过程中,MoE架构集成了一个专家网络层(红框部分),提高了模型的处理效率。

专家网络层由门控网络和多个专家模型构成。数据首先进入门控网络,由门控网络将数据分配给一个或多个专家模型;专家模型处理后,结果被加权融合,得到最终输出。
这种架构通过稀疏激活(Sparse Activation)的特性,实现了在不显著增加计算成本的情况下,提高模型容量和性能;具体来说,稀疏激活意味着在每次计算中只有一部分专家模型被激活,从而大幅减少了计算资源的消耗;这使得MoE模型能够在处理复杂任务时表现出色,同时显著提升训练和推理的效率。
04
总结
天工AI搜索作为中国第一款AI搜索产品,以其卓越的性能和多样化的应用场景,展示了AI技术的无限潜力和广阔前景。
天工AI将MoE架构赋能到AI PPT,AI视频转绘,AI音乐生成,AI写作,AI长文本阅读,AI对话,AI语音合成,AI图片生成,AI漫画创作,AI图片识别,AI代码写作,AI表格生成等多项核心产品能力中,展现多模态的极致能力。
混合专家模型(MoE)凭借其术业有专攻的设计理念,通过将复杂任务分解给不同的专家网络来处理,显著提升了模型的整体性能和效率;在全球范围内,MoE大模型的研究和应用正在快速推进,昆仑万维的天工系列大模型正是这一领域的重要代表;天工3.0以其强大的技术创新和多模态能力,不仅推动了国内大模型的发展,更在全球范围内树立了标杆。
亲爱的读者们,如果这篇文章让你有所收获,或者仅仅是让你的嘴角上扬,那就不要吝啬你的手指,轻轻一点,给予我们一个小小的赞👍。你的每一次点赞,都是对我们最大的鼓励和支持!
而且,别忘了点击“在看”,让你的朋友们也能享受到这份知识和乐趣。毕竟,好东西要分享,不是吗?😉
我们下期再见,期待你的持续关注和互动!👋
🎉往期文章 🎉
可控人物视频生成大模型vimi腾空出世,1张照片玩转3种控制,打造60秒高燃视频(含申请链接)
快手可灵再添盟友:寻光AI视频创作平台,让创作变得更简单(含申请链接)
文本转高质量语音在线免费工具TextToSpeech:打破语言障碍,51国语言和8000多种音色任你选
暂无评论内容