Transformer - 小猪号

Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话：RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。...

这篇开山之作引用次数已高达 4 万，浏览新论文时经常会看到“(Vaswani et al., 2017 ”的字样，以至于这个名字都快被刻进 DNA 了。...