基于混合专家和3D模拟内存计算的大语言模型高效扩展

基于混合专家与三维模拟内存计算的大语言模型高效扩展 学术背景 近年来,大规模语言模型(Large Language Models, LLMs)在自然语言处理、文本生成等领域展现出了强大的能力。然而,随着模型规模的不断增加,训练和推理的成本也急剧上升,尤其是在内存占用、计算延迟和能耗方面。这成为阻碍LLMs广泛应用的主要瓶颈之一。传统的冯·诺依曼架构在处理大规模参数时,数据频繁在内存和计算单元之间移动,导致所谓的“冯·诺依曼瓶颈”,加剧了这些挑战。 为了解决这一问题,研究者们探索了多种技术路径,其中之一是“专家混合”(Mixture of Experts, MoE)架构。MoE通过条件计算(conditional computing)机制,动态选择输入的处理路径,只激活模型的一部分参数,从而显...