DeepSeek发布NSA稀疏注意力机制,提升长文本处理效率

大模型之家讯 2月18日,人工智能技术公司DeepSeek宣布推出一种名为NSA的新型稀疏注意力机制。该机制与硬件紧密结合且可在本地进行训练,旨在为超快速的长上下文训练和推理提供支持。经过针对现代硬件的优化设计,NSA不仅提高了推理速度,还显著降低了预训练成本,同时保持性能不降反升。在多个基准测试中,NSA的表现与传统的完全注意力模型相当甚至更优。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注