省心更要省钱，MIT亲自下场，拒绝“参数内耗”

在人工智能领域，大模型因其在理解和生成自然语言方面的卓越能力而备受关注。通过捕捉和再现人类语言的复杂性和微妙性，为使用者提供了与机器进行自然对话的可能性。

不过，这些模型背后的训练过程却因其成本之高而备受争议，这不仅涉及巨额的资金投入，还包括了庞大的计算资源和时间消耗。并且，有研究指出，训练一个先进的模型可能需要数周时间，并且需要数千甚至数万个GPU的并行计算。加之昂贵的硬件支持，仅高性能GPU和其他专用硬件的成本可能就高达数十万甚至数百万美元。种规模的计算资源对于大多数研究机构和个人来说是难以承受的。

这种资源密集型的发展趋势导致了资源获取的不平等。大型科技公司由于其雄厚的资本和资源，能够更容易地获取和维护这些高性能计算资源。相比之下，小型研究机构和个人由于资金和资源的限制，往往难以参与到大模型的研究和开发中。因此，如何降低大模型的资源门槛，使其更加普及和可持续，成为当前研究和实践中的一个重要议题。

近日，MIT、普林斯顿等研究机构的全华班团队带来意向全新的解决方案——JetMoE-8B，该模型使用不到10万美元的预算完成了训练，并且包括了1.25万亿个token和30,000个H100 GPU小时。

多管齐下，成本效益原地起飞

JetMoE-8B的核心特性在于其采用了Sparsely-gated Mixture-of-Experts (SMoE)架构。这种架构通过稀疏激活机制，使得模型在处理输入时只激活必要的参数，从而大幅降低了计算成本。据了解，JetMoE-8B拥有80亿个参数，但在推理时只为每个输入令牌激活20亿个参数，这使得模型在保持性能的同时，将计算成本减少了约70%。

此外，JetMoE-8B的训练策略也颇具创新。JetMoE-8B的训练遵循了一个两阶段策略，包括使用大规模开源预训练数据集的1万亿个token进行训练，以及使用指数学习率衰减进行第二阶段训练。

其中：

第一阶段：预训练

在预训练阶段，JetMoE-8B使用了来自多个高质量开源数据集的1万亿（1.25T）个token。这些数据集包括了从CommonCrawl中提取并通过MacroData Refinement (MDR) 管道处理的RefinedWeb数据集、StarCoder训练数据、Dolma大型英文文本语料库、The Pile以及其他数学和编程相关的数据集。这些数据集为模型提供了丰富多样的语言和知识背景，有助于模型学习到更广泛的语言模式和知识。

第二阶段：学习率衰减

在第二阶段，模型的训练采用了指数学习率衰减策略。这意味着随着训练的进行，模型的学习率会按照一定的指数函数进行调整，从而逐渐减小。这种策略有助于在训练初期快速学习并调整模型的权重，而在训练后期则通过减小学习率来细化模型的参数，使得模型能够更稳定地收敛到最优解。

具体来说，JetMoE-8B模型使用了Warmup-Stable-Decay (WSD) 学习率调度器，这个调度器将训练过程分为三个阶段：预热阶段（warmup stage）、稳定训练阶段（stable training stage）和衰减阶段（annealing stage）。在预热阶段，学习率会逐渐增加至最大值，以帮助模型快速适应训练数据。在稳定阶段，学习率保持不变，以便模型在较高水平上进行学习。最后，在衰减阶段，学习率会根据预定的指数函数进行衰减，以便模型在训练的后期进行细致的权重调整。

此外，研发团队针对JetMoE-8B模型使用了96个NVIDIA H100 GPU组成的集群进行训练。H100 GPU是专为AI和深度学习任务设计的高性能计算卡，具有强大的并行处理能力。通过将这些GPU组合成一个集群，JetMoE-8B能够同时处理大量的数据和计算任务，从而加快训练速度。

JetMoE-8B的另一个显著特点是其开放性和易访问性通过公开的数据集和开源的训练代码，使得任何有兴趣的研究者都能够访问和使用这个模型。这种开放性不仅促进了知识的共享，也为未来的研究和合作提供了基础。

得益于其高效的模型架构、精心挑选的数据集、两阶段训练策略以及强大的计算资源和开源社区的支持。这些因素共同使得JetMoE-8B能够在两周内完成训练，为控制成本带来新的思路和方向。这同样降低了进入大模型研究领域的门槛，使得更多的研究机构和个人能够参与到这一领域的研究中来。

“卷”大小的时代已经过去，满足需求才是王道

作为一款参数量较小的模型，JetMoE-8B充分发挥其高效率和速度优势，为技术创新提供了强有力的支持。开发者可以在有限的资源下，快速迭代和测试新的想法，这不仅加速了新技术的研发进程，也为市场上的创新应用提供了更多可能性。小型企业和初创公司尤其受益于这种成本效益高的研发环境，它们能够以更低的风险和成本，探索和实现自己的创新理念。

在大模型主导的市场趋势下，参数规模并非衡量模型价值的唯一标准。实际上，随着物联网设备的广泛部署，对于能够在资源受限环境中高效运行的小参数量模型的需求日益增长。这些设备往往对计算能力和存储空间有着严格的限制，而小参数量模型恰好能够满足这些条件，实现快速响应和实时数据处理的能力。