揭秘M60：支持盘古大模型的黑科技秘密揭晓

引言

在人工智能领域，大模型技术正引领着一场技术革新。华为的盘古大模型作为其中的佼佼者，其背后的黑科技——M60，更是引发了业界的广泛关注。本文将深入解析M60的技术细节，揭示其如何成为支持盘古大模型的强大基石。

M60，全称Mistral 6000，是华为自主研发的AI训练集群，专为高性能计算而设计。它采用了昇腾AI芯片，能够提供强大的计算能力，是盘古大模型训练的核心基础设施。

M60集群由数千个昇腾AI芯片组成，单芯片峰值性能可达256Tensor/T。这使得M60能够处理大规模的数据集，快速训练复杂的AI模型。

为了应对超深千亿级大模型的训练稳定性问题，M60采用了深度缩放 sandwich-norm 和 TinyInit 初始化两项技术。这些技术能够保证大模型在训练过程中的稳定性，避免训练过程中的损失。

M60通过一系列系统优化策略，将算力利用率（MFU）提升至50%。这意味着M60能够更高效地利用计算资源，降低能耗。

M60集群支持盘古大模型，后者拥有1350亿参数，采用了94层的Transformer结构。这种结构使得盘古大模型在处理自然语言处理、多模态交互等领域具有强大的能力。

在FFN部分，盘古大模型采用了SwiGLU激活函数，这种激活函数能够提高模型的性能。

为了降低KV缓存占用，盘古大模型采用了GQA注意力层。

盘古大模型和M60集群已在多个行业和场景中得到应用，包括：

M60作为支持盘古大模型的黑科技，其高性能计算能力、稳定性架构和系统优化策略，使得盘古大模型在人工智能领域取得了显著的成就。随着技术的不断发展和应用场景的拓展，M60和盘古大模型有望在未来发挥更加重要的作用。