微软大模型 - 小猪号

Transformer 后继有模！MSRA 提出全新大模型基础架构：推理速度 8 倍提升，内存占用减少 70%

论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话：RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。...