DeepSeek发布NSA稀疏注意力机制，提升长文本处理效率

大模型之家讯 2月18日，人工智能技术公司DeepSeek宣布推出一种名为NSA的新型稀疏注意力机制。该机制与硬件紧密结合且可在本地进行训练，旨在为超快速的长上下文训练和推理提供支持。经过针对现代硬件的优化设计，NSA不仅提高了推理速度，还显著降低了预训练成本，同时保持性能不降反升。在多个基准测试中，NSA的表现与传统的完全注意力模型相当甚至更优。