文︱郭紫文


(资料图)

图︱Arm

如今,算力已经成为数字经济时代的关键生产力。面向移动终端领域,尤其在3A游戏等市场,计算在很大程度上决定了消费者的日常使用体验。在Arm高级副总裁兼终端事业部总经理Paul Williamson看来,智能手机是视觉体验的核心,开发者亟需提高硬件性能,以便丰富和释放其创造力,从而满足愈加丰富的沉浸式3D视觉体验。

Arm在全面计算战略方面布局多年,专注于计算性能、开发者对性能的可及性以及平台安全性。“移动端是最大的游戏平台,该市场的增长有赖于移动设备的创新。”Paul表示,随着相关性能和需求增长,持续的性能表现成为游戏的关键指标。

从CPU、GPU和系统IP等多方面入手,Arm为提升性能指标进行了系统层面的全面优化和创新。此外,面向消费级设备,Arm推出了最新计算解决方案,为性能和高效计算制定了标准,持续突破移动市场界限,塑造未来的视觉体验。

GPU全面优化,性能与效率大幅提升15%

随着移动游戏的迅猛发展,视觉效果出色的3A游戏也要求底层硬件具备相互匹配的性能表现。在GPU方面,Arm拥有深厚的技术积淀,经过配置和增强为移动设备提供终极3D体验。Arm持续对其Mali系列GPU进行更新和升级,目前该系列GPU的出货量已超过80亿颗。

延续Mali系列GPU的优势,Arm推出了全新GPU——Immortalis-G715,以及Mali-G715和Mali-G615 GPU。与前代产品相比,最新的 Arm GPU 基于Arm Mali-G710 GPU构建,能效优化了15%,同时带来了15%的性能提升。

此外,Immortalis-G715可提供基于硬件的光线追踪功能,每个着色器核心里面拥有两个光线追踪硬件模块。其光线追踪单元仅占用了约4%的着色器核心面积,却实现了300%的显著性能提升。

据Paul介绍,这是Arm迄今为止性能及能效设计最强的GPU,可提供两倍的机器学习能力,实现更多智能应用和更出色的用户体验。从内核数量来看,Immortalis-G715的内核数量将达到或超过10核,Mali-G715只支持7至9个内核数量,Mali-G615最多仅支持6个内核。

此外,对于开发者而言,基于硬件的光线追踪可实现更高性能,更适用于渲染移动游戏的画面和特效。开发者可通过Vulkan标准API来实现对Immortalis GPU光线追踪的应用。

CPU架构升级,打造终极视觉体验

“对于全面计算,需要用一个性能高效的CPU集群来平衡GPU。”据Paul介绍,Arm于2021年推出了Armv9 CPU,今年又继续扩展CPU集群,推出了Armv9第二代CPU产品,包括Arm Cortex-X3、Arm Cortex-A715、升级版Arm Cortex-A510和DSU-110等。

其中,作为Arm Cortex-X系列第三代CPU IP,Arm Cortex-X3在前代产品的基础上,再度达到双位数的性能提升,助力移动设备和安卓设备实现终极性能。具体而言,Arm Cortex-X3 CPU较目前的安卓旗舰手机可带来25%的性能提升;而在笔记本电脑方面,此款CPU较主流笔记本电脑的单线程性能提升了34%。

另一款CPU产品Arm Cortex-A715则专注于高效性能,与Cortex-A710相比,前者性能提升了5%,能效提升了20%,达到了可媲美Cortex-X1性能的重要里程碑。此外,Arm还更新了两款重要IP,即增强了小核Cortex-A510,以提升效率,并改善了DSU-110的可扩展性,使核心数可扩展到12个。

“Cortex-X3与Cortex-A715相结合,可实现性能和效率的完美平衡。”据Paul介绍,Cortex-A715 CPU集群采用了基于大小核(big.LITTLE)的配置,这是目前全球消费级设备最常用的异构处理架构。而Cortex-X3则在微架构创新中不断优化基准和工作负载,峰值性能持续攀升。

专注系统层级优化,完善全面计算生态系统

在第二代Armv9 CPU和Immortalis系列、Mali系列GPU IP等产品,以及配置工具、软件生态系统、实体IP和通用标准等基础上,Arm推出了2022全面计算解决方案(TCS22),可满足不同级别的性能、效率和可扩展性要求,适用于各类消费级设备市场的专用处理需求。

在提升计算性能方面,Paul表示,64位的支持能力至关重要,中国计算生态系统和应用生态系统已经全面就绪64位,这意味着未来几年的旗舰级智能手机需保证为全64位设计,以确保为旗舰级市场提供最佳效率和最强的性能。

在开发者可及性方面,Arm IP产品持续关注机器学习性能的更新和提升。通过Arm计算库和Arm NN框架,无论在GPU矩阵乘法的改善,还是系统级优化和设计的缓存微调中,开发者都能够获取这些性能。

在安全性方面,Arm推出非对称内存标签扩展,将同步MTE和异步MTE相结合,同时将人脸解锁、面部识别等安全增强功能扩展至设备的可信执行环境中,保护系统免受额外的恶意攻击。

通过系统层级的优化,Arm全面计算解决方案提供了出色的性能体验。以游戏为例,Arm全面计算解决方案降低了23%的DRAM带宽,系统能耗也减少了16%,在不同工作负载中性能提升了28%,显著改善了缓存大小与游戏工作负载,同时提高了效率,延长了游戏续航时间。

推荐内容