在指令集架构的世界里,X86、Arm、RISC-V虽然长期各自的擅长的领域各自为政,但近年来在数据中心领域的竞争愈发明显,Arm阵营向服务器市场发起猛烈进攻,企图与x86和Arm正面抗衡的服务器级别的RISC-V CPU也在2022年底亮相,预计2023年中出货。
内部竞争加剧加上外部局势动荡,过去一年英特尔数据中心业务频频下滑,市场表现不如预期,急需更具竞争力的服务器改变救火。
1月11日,英特尔正式发布第四代至强可拓展处理器(代号“Sapphire Rapids”),同时推出英特尔至强CPU Max系列(代号“Sapphire Rapids HBM”)以及英特尔数据中心GPU Max系列(代号“Ponte Vecchio”),该系列产品家族有何性能优势?能否在未来助力英特尔夺回数据中心处理器第一的宝座?
新添七大算力神器,堆核不是唯一的解
“自2017年英特尔推出了第一款至强可扩展处理器以来,英特尔已经向全球客户交付了超过8500万颗至强可扩展处理器,支持着全世界的数据中心。
其中,在过去两年,第三代英特尔至强可扩展处理器已全球累计出货1500万颗。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰在发布会上对英特尔至强处理器过去的成绩总结道。
英特尔第四代至强可扩展处理器采用Intel 7制程工艺制造,具有全新的芯片架构,其支持每个插槽最多60个内核,及每个系统1、2、4或8个插槽,每个插槽有80个PCIe Gen5通道,搭配DDR5内存和CXL 1.1等新技术,以支持高带宽和附加加速器效率。
值得注意的是,与上一代相比,第四代英特尔至强可扩展处理器除了核心数的持续增加外,新的内置加速器,涉及人工智能、科学计算、安全、网络、数据分析、存储等领域,性能较前一代平均提升1.53倍。
英特尔认为,从行业应用需求到真实物理世界的局限性,仅靠核心频率和核心数量的增强,将不能满足其在真实工作负载下对CPU性能更高的追求,所以引入全新的针对实际工作负载优化加速的设计理念,采用系统级设计方法,在CPU芯片架构中内置专用的工作负载加速器,以提升性能和效率。
在发布会上,庄秉翰将处理器内置的加速器总结为七大算力神器:
英特尔高级矩阵扩展(英特尔AMX)
可以大幅度提升深度学习工作负载的性能,例如推荐系统、自然语言处理、图像识别、媒体处理和交付,以及媒体分析。与上一代(FP32)相比,内置英特尔高级矩阵扩展(英特尔AMX)(BF16)的PyTorch实时AI推理和训练性能提高了10倍。结合通用CPU计算单元,第四代英特尔至强可扩展处理器可以端到端运行任何AI工作负载。
英特尔动态负载均衡器(英特尔DLB)
支持在多个CPU内核及线程间高效分布网络工作负载,实现分布式处理,并在负载不平衡时,动态地将数据负载重新分配到各个CPU内核上,实现动态负载均衡。还可以调整CPU内核上同时处理的网络数据包的顺序,实现动态网络处理重排序,从而达到更高的整体系统性能。与前一代处理器相比,在相同功率范围下,vRAN工作负载的容量提升高达2倍。
英特尔数据流加速器(英特尔DSA)
帮助用户在存储,网络和数据分析中实现更快速的数据移动而增添的加速器,有助于加快CPU、内存、缓存以及存储和网络设备之间的数据移动,释放CPU性能并降低时延,提高用户对CPU内核的利用率,可将性能提升1.7倍。
英特尔存内分析加速器(英特尔IAA)
针对数据库和分析工作负载,可提高内存查询吞吐量,减少内存数据库和大数据分析工作负载的内存占用,与上一代相比,Intel IAA加速器可使RocksDB性能提高3倍。
英特尔数据中心与压缩加速技术(英特尔QAT)
可加速加密和压缩。英特尔QAT可以显著提高CPU效率和应用程序吞吐量,同时减少数据占用的空间和能耗,使企业能够在保障性能的情况下加强加密。
英特尔安全引擎
包括英特尔软件防护扩展(英特尔SGX)、英特尔Trust Domain Extension(英特尔TDX)、英特尔密码操作硬件加速、英特尔内存故障管理技术、英特尔平台固件弹性技术等,提供增强的安全防护能力。
英特尔至强CPU Max系列
首款集成高带宽内存(HBM)的英特尔至强处理器。据介绍,它为内存受限的工作负载提供了3.7倍的性能提升,同时实现能耗的显著减少。
值得注意的是,虽然英特尔认为仅靠增加核心无法满足真实负载下的CPU性能,但基于Arm架构的服务器GPU已经有好几款产品核心数高达70核心,超过目前已经发布的至强可扩展处理器,同样体现了超多核的性能优势。
对此,英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示,数据中心处理器往多核方向发展是大趋势,Arm能做到的英特尔X86也可以做,只不过Arm核本身比较小,所以能够快速堆叠出更多核的产品。
“我们更关注客户如何使用我们的产品,并不是越多核就一定越好,今天的许多用户在使用数据中心处理器时,也并非一味执着于多核,而是具体工作具体分析。”陈葆立补充道。
“下一代多放10个核数,不如多放一个加速器。根据客户反馈,很多都不是50%的性能提升,而是3倍、5倍、6倍甚至13倍的性能提升,内置加速器比增加核数更能满足客户日益增长的业务需求。”庄秉翰持有相同的意见。
试行 Intel on Demand,发布首个旗舰数据中心GPU
除了硬件层面的更新升级,内置加速器外,为更好满足客户需求,英特尔还推出了一项新服务——Intel on Demand(按需服务)。
按需服务,此前称之为英特尔软件定义芯片,可用于扩展大多数第四代至强处理器SKUs中的加速器和硬件增强功能,该服务支持的功能特性包括上文中所描述的英特尔DLB、DSA、IAA、QAT和SGK,还包括一个用于许可证订购的API,以及用于配置许可证和激活CPU功能的软件代理。
值得一提的是,英特尔表示初期客户如果无法确定自己是否需要这些加速器,可以先采用第四代英特尔至强可扩展处理器,在需要其他加速功能时再选择开通,且不用改变数据中心的部署,或直接更换服务器就能享有这些加速器带来的性能提升。
为何推出“按需服务”的功能?英特尔表示这是因为终端客户曾经告诉过英特尔,希望把资本支出变成运营支出,更好地根据需求和预算控制来购买计算。
“客户的需求会根据真实工作负载随时产生变化,而且对于功能的要求也不尽相同。在Intel on Demand形势下,客户可以灵活选择最合适的服务。例如春运高峰时,12306铁路总局会购买很多云服务,高峰期之后,又回归到自身的技术设施支持日常业务。”英特尔公司市场营销集团副总裁兼中国区云与行业解决方案部总经理梁雅莉在接受采访时说。
除了CPU,英特尔还在此次发布会上推出了首个旗舰级数据中心GPU,采用3D封装的Chiplet技术,在单个产品上整合了47个小芯片,集成超过1000亿个晶体管。Max系列GPU提供多达128个Xe内核和光线追踪单元,高达128 GB的高带宽内存。
不难看出,英特尔此次推出Max CPU+GPU,是要同英伟达抢夺数据中心GPU市场,那么英特尔的优势在哪里?
庄秉翰表示,事实上很多合作伙伴都希望在GPU上多一个选择,所以也非常期待英特尔的GPU产品。
“如果服务器集群专门做AI训练,那就需要加速器,且对加速器性能的要求会超过CPU中嵌入的AMX加速器,这时就需要专门做AI处理的GPU”,庄秉翰如此解释英特尔Max系列GPU的定位。
英特尔在提供GPU产品的同时也提供oneAPI设计框架,oneAPI可以在英特尔产中开发的IP可以重新复用,因此即便是诸如TensorFlow、PyTorch在其他厂商GPU上运行,也能无缝衔接。
“第四代至强可扩展处理器和Max系列CPU和GPU的推出,是数据中心领域历史性的一刻。”庄秉翰说道。
半导体下行周期,英特尔能否稳住数据中心第一宝座?
2022年,英特尔数据中心业务连连下滑,英特尔CEO帕特·基辛格将公司业绩下滑的原因归咎于全球新冠肺炎疫情冲击下供应和运输问题,以及经济下行等因素。
英特尔依然对未来保有信心。梁雅莉在接受采访时说道:“过去一年确实是比较困难的一年,是三年疫情的累积,是很多因素的叠加,例如疫情造成的供应问题,半导体行业的周期性问题,这导致了去年市场需求层面的疲软。疫情之外,是整个行业面临的转型问题转,而行业转型恰好是技术革新带动的,所以我们希望在今年能打下一个非常好的基础。”
最近,中国疫情防控政策的放开也给了英特尔不少信心。“今年对中国的经济,我们始终抱有厚望,如果中国经济有增长,肯定也会贡献全球的经济、带动消费、带动数字经济,这就和我们的服务器息息相关。所以我们还是对今年还是保持乐观的态度。”庄秉翰告诉雷峰网。
而面对来自Arm和RISC-V的冲击,梁雅莉认为,科技的发展取决于健康的竞争,x86拥有最广泛的应用基础和最广泛的生态系统支持,英特尔集中精力做的事情就是如何让自己的产品能够更好地支持客户自身业务的创新、转型和发展。
责任编辑:宪瑞