Transformer 后继有模!MSRA 提出全新大模型基础架构:推理速度 8 倍提升,内存占用减少 70% 论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话:RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。... 人工智能 2023-07-19 290 #Transformer #微软AI #微软大模型