DeepSeek发布《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》论文

时间：2025年02月18日 21:21

比特家园 2月18日消息，DeepSeek团队近日发布了一篇题为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》的技术论文，介绍了他们提出的NSA（Natively Sparse Attention）机制。NSA结合了算法创新和硬件优化，旨在实现高效的长文本建模。其核心创新包括： 1. 动态分层稀疏策略，结合粗粒度的令牌压缩与细粒度的令牌选择，以保留全局上下文信息和局部精度； 2. 通过平衡算术强度的算法设计和现代硬件优化，显著加速计算； 3. 支持端到端训练，减少预训练计算成本，同时保持模型性能。实验结果表明，NSA在长文本任务和指令推理等领域表现优异，尤其在64k长度的序列处理中，实现了解码、前向传播和反向传播的显著加速。

本分分类： 快讯

Strategy上周未进行任何股票出售或比特币购买操作

Metaplanet宣布将于4月1日进行10:1股票拆分

币种	价格	涨跌幅
BTC 比特币	$114713.99	0.68%
ETH 以太坊	$3560.47	2.43%
USDT 泰达币	$0.9998	-0.01%
SOL Solana	$163.4834	0.93%
USDC USD Coin	$0.9998	-0.01%
XRP 瑞波币	$2.99865	3.62%
TON The Open Network	$3.5427	-2.24%
DOGE 狗狗	$0.201768	1.46%
ADA 卡尔达诺	$0.737037	1.59%
TRX 波场	$0.327576	0.59%
SHIB 柴犬	$0.00001233	1.07%
AVAX Avalanche	$21.7502	1.54%
WBTC Wrapped Bitcoin	$0	0%
DOT 波卡	$3.6325	1.2%
LINK ChainLink	$16.5899	2.23%

DeepSeek发布《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》论文

币安APP

OKX欧易app