以“核数”论英雄的时代,似乎在2014年已经被终结,取而代之的是体验为王的产品逻辑。国内厂商五元素等品牌即将发售的采用瑞芯微RK3288的平板产品,除了采用性能与功率更佳的ARM全新架构外,更是搭载号称图形性能直逼笔记本集显的Mali-T764 GPU,第三代Midgard架构表现出巨大的性能影响力。
我们都知道,一部汽车引擎,不一定是排量大动力就强,比如1.6T的动力就要比普通的2.0L排量要强出不少,这因为1.6T引擎采用了更新、更先进的动力架构设计。同理,显卡的“血统”也是相当重要的。在这一点上,T764就没有让我们失望——采用ARM第三代MIDgard架构,效率更高。
以前的Mali -400就采用Utgard的架构,这种架构属于采用垂直型图形管线构造的架构,各自拥有顶点着色器和像素着色单元的架构,相当于PC产品上DirectX 9时代的架构,因此在非图形处理的通用性上要低许多。在GPU统一渲染架构流行的今天,Mali-400就如同一款老爷车,看着还不错,但越来越不堪大用了。因此在设计Mali –T600系列之时,ARM对架构进行了更新,开发与当前PC上GPU一样的统一渲染架构,这诞生了第一代Midgard架构,Mali-T658则采用第二代Midgard架构,而现在Mali T764升级到第三代Midgard架构。
Midgard架构的特点就是在提升通用处理功能的同时,依然保持足够的图形处理效率。包括有64-bit双精度浮点运算和64-bit整数运算,64-bit寻址,shader单元间的内存同步。同时在另一方面,运算管线将会面临128-bit的矢量引擎,而这与NVIDIA和AMD目前GPU核心所采用的分解矢量引擎和scalar引擎的SIMD构架形成了鲜明对比。需要说明的是,ARM在第三代MIDgard架构中进行了重新设计,特别是大幅度改变了着色器核心的配置方式。比如Mali T764的着色器数量是之就高达16个,运算管线达到64条,这也是Mali T700系列中的最高规格。
这16个着色引擎以四个来分组管理,每组都拥有独立的共享L2缓存的核心群。如果换一种说法,可以将其称为四GPU构成。四个核心群被合并后,通过单一的dispatcher,每个核心群都会分到相同的处理任务。而shader间的内存同步以及核心群间的SCU依然保持。不过核心群间依然采用独立的L2 缓存和snoop单元,彼此之间的联系通过AMBA4总线实现。因此可以认为任务的分配可以根据需要实现最佳化。需要说明的是,各个shader均拥有独立的线程调度。工作高度用于将各个作业当作线程分配给shader,而线程调度则对各自的管线分配来自各个线程的程序指令。各个管线用于执行来自各自线程的指令,这样如果有128条管线,那么就可以同时运行128个线程。当线程在内存中等待时,指令会分配给不同的线程。指令的线程源是可以获得的,而指令则以乱序的方式发出。Mali-T764的shader单元最多能够控制800个以上的线程。同时Mali T76每个着色器核心内都有四个ALU簇,也较T600系列番了一番,同时也对ALU做了相应的优化改变。