Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70% 论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。... 人工智能 2023-07-19 325 #Transformer #微软AI #微软大模型