在探讨大模型MoE架构的起源时,我们不得不提及Robert A. Jacobs,一位在机器学习和神经网络领域具有开创性贡献的学者。正是他,在1991年的论文《Adaptive Mixture of Local Experts》中首次提出了MoE(Mixture of Experts)架构的核心理念。
MoE架构的核心理念
MoE架构的核心思想是将模型划分为多个专家网络,每个专家都是一个独立的神经网络子模型。在处理输入数据时,模型会选择一小部分与当前输入最相关的专家来处理,而不是让所有专家都参与计算。这种选择性的激活方式使得MoE模型在处理大规模任务时更为高效。
主要组件
- 专家(Expert):多个独立的神经网络子模型,可以是全连接层、卷积层等。
- 门控网络(Gating Network):根据输入样本决定最相关的专家。
- 路由器(Router):根据门控网络的输出,将输入数据路由到相应的专家。
MoE架构的发展历程
自从Robert A. Jacobs首次提出MoE架构后,该领域的研究取得了显著进展。以下是一些关键的发展节点:
- 2013年:Factored Representation of Deep MoE论文对MoE架构进行了重新审视和深化。
- 2017年:Sparsely Gated MoE Layer论文进一步发展了MoE架构。
- 近年来:MoE架构逐渐成为人工智能领域备受瞩目的存在,被应用于大模型产品,如OpenAI的GPT-4、谷歌的Gemini等。
首个提出大模型MoE架构的先驱者
综上所述,Robert A. Jacobs是首个提出大模型MoE架构的先驱者。他的研究成果为后续MoE架构的发展奠定了坚实基础,使其成为人工智能领域的重要技术之一。