大模型之家讯 2月18日,人工智能技术公司DeepSeek宣布推出一种名为NSA的新型稀疏注意力机制。该机制与硬件紧密结合且可在本地进行训练,旨在为超快速的长上下文训练和推理提供支持。经过针对现代硬件的优化设计,NSA不仅提高了推理速度,还显著降低了预训练成本,同时保持性能不降反升。在多个基准测试中,NSA的表现与传统的完全注意力模型相当甚至更优。
大模型之家讯 2月18日,人工智能技术公司DeepSeek宣布推出一种名为NSA的新型稀疏注意力机制。该机制与硬件紧密结合且可在本地进行训练,旨在为超快速的长上下文训练和推理提供支持。经过针对现代硬件的优化设计,NSA不仅提高了推理速度,还显著降低了预训练成本,同时保持性能不降反升。在多个基准测试中,NSA的表现与传统的完全注意力模型相当甚至更优。