DeepSeek推出原生稀疏注意力机制NSA,加速长上下文训练与推理

DeepSeek今日正式发布NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩和细粒度token选择,旨在优化现代硬件性能。

官方表示,NSA在加速推理的同时,能够显著降低预训练成本,且不会牺牲模型性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现与全注意力模型相当甚至更优。这一技术的推出,为大规模语言模型的高效训练和部署提供了新的解决方案。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1