寒武纪发布云端AI芯片思元370，chiplet技术打造，性能大幅提升2倍

2021-11-12 14:44:43 来源：机器之心

小大

公司成立仅5年，寒武纪科技就已推出三代云端AI芯片，并实现了四次处理器架构的迭代。

又一款重磅国产AI芯片发布了。

11月3日晚间，寒武纪宣布推出自研第三代云端AI芯片思元370，及搭载该芯片的 MLU370-S4、MLU370-X4 加速卡和全新升级的 Cambricon Neuware 软件栈。

思元370是寒武纪首款采用chiplet（芯粒）技术的AI芯片，应该也是国内首颗chiplet AI芯片。基于台积电7nm制程工艺，整体集成了390亿个晶体管，最大算力达到256TOPS（INT8），这一数据是寒武纪第二代产品思元270算力的2倍。

凭借寒武纪最新智能芯片架构MLUarch03，相较于峰值算力的提升，思元370实测性能表现非常亮眼：同功率性能超过T4两倍还多，完成同样的任务，功耗可以是A10的一半。

自思元100以来，寒武纪在三年之内已经连续推出三代云端AI芯片，最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升，实现了同级芯片的顶尖水平。

一半功耗，实现业内领先性能

此次发布中，寒武纪推出了两款基于思元370的加速卡：一款高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。

与上一代产品相比，思元370系列加速卡在性能、能效方面都有大幅度提升。例如对标准ResNet-50v1进行软件定制优化后，MLU370-X4加速卡性能高达30204fps。

寒武纪表示，在Cambricon Neuware SDK上实测，常用的4个深度学习网络模型中，MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面，MLU370-S4优势更为明显，处理相同AI任务相较于70W GPU用电量减少50%以上。

相比主流同尺寸GPU产品，MLU370-S4加速卡的性能优势

MLU370-S4加速卡在解码方面具有优势，相较于同尺寸GPU，其可以提供3倍的解码能力和1.5倍的编码能力。总体而言，MLU370-S4加速卡着重体现了高密度优势。MLU370-X4加速卡的优势则表现为高性能，算力可达256TOPS（INT8），加强了FP16、FP32的计算性能，新增BF16计算类型。

在 Cambricon Neuware SDK 上进行实测可知，常用的4种深度学习网络模型中，X4加速卡与市场主流150W GPU相比，性能表现2项持平2项更优，实测能效则为GPU的2倍。如YOLOv3物体检测网络中，MLU370-X4的性能是150W GPU性能的1.5倍，能效为GPU的2.5倍。

相比主流GPU产品，MLU370-X4的性能优势

从功耗与加速卡配置来看，寒武纪推出的加速卡对标的正是AI算力的标杆英伟达：思元370-X4加速卡在70-75W功率上性能大幅领先于T4，在150W功率上又实现了与最新一代安培架构、基于GA102核心的A10持平或小幅领先，功耗效率则高出2倍还多。

这意味着在推理任务上，同等尺寸的思元370加速卡可以2倍性价比替代T4，相比A10甚至A30也可以节省超过1/4的总拥有成本（TCO）。

在英伟达该级别芯片生产接近停滞的当前，寒武纪的芯片显得极具竞争力。

MLU370-S4、MLU370-X4两种加速卡的规格

为什么在计算机视觉和自然语言处理任务中，寒武纪能够做到超越同级数据中心的GPU？在性能的背后，是寒武纪全方位的技术革新。

「chiplet」技术，未来芯片的发展方向

根据英伟达的统计，自2012年到现在的大规模深度学习模型参数量呈现指数增长。相比之下，即使通过增加功耗等方法，AI芯片的算力还是只能延续每两年翻倍的速度。

为了提供更高的运算效能，人们寻找的方法包括增加处理器核心数量，提升缓存容量及I/O数量等等。这些情况使得IC设计者即便使用最先进制程，也很难把芯片尺寸变得更小。

自2017年底英伟达发布Tesla V100之后，训练最大模型的算力需求增长了3000倍

从英伟达T4到A10的迭代我们可以看出，制程从12nm进步到8nm，功耗翻倍，性能提升则是2.2-2.5倍。另一方面，先进制程、低良品率造成的成本问题也让芯片厂商不堪重负，使用chiplet的方式打造新一代芯片或许是未来的重要发展方向。

思元370是寒武纪首次采用chiplet技术打造的芯片，在一颗芯片中封装2颗AI计算芯粒（被称为 MLU-Die），每个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，相互之间通过MLU-Fabric保证两个MLU-Die间的高速通讯。

此前，AMD在CPU上就通过使用7纳米制程和chiplet构建芯片的方式实现了对于英特尔的「逆袭」。最近一段时间，英特尔也提出即将使用chiplet构建芯片的计划。在一块芯片上置入多个die虽然可以提高晶圆的利用效率，但会面临很多技术方面的问题，芯粒间的信息传递速度是其中最大的挑战。

尤其在深度学习的推理和训练任务中，模型和数据在芯片内部是强并行的，所以芯粒间信息传递速度的问题还会更加凸显。对此，寒武纪称MLU-Fabric能够以低功耗、低延时、超高带宽的技术来解决传递速度的问题，帮助用户实现应用无感知的体验，单从这点来看，寒武纪MLU-Fabric芯粒间的互联技术已经超越了AMD的处理器。

尽管寒武纪已经凭借思元370验证了自己在chiplet技术上的突破，但chiplet技术，仍会面临着诸多挑战，例如在封装技术与生产工艺、EDA工具链、片上互联（NoC）或Interposer上互联、chiplet间接口与协议标准化、chiplet模块的DFT、验证、可靠性与DFM等方面仍然有较多经验需要积累。

但寒武纪对chiplet技术依然充满信心，并希望思元370可以通过不同的组合为客户提供更多样化的产品选择。

处理器架构大幅更新

架构方面的改进是思元370的又一个升级重点，在AI芯片上，整型常用于推理，浮点运算应用于训练，寒武纪自研的智能处理器架构MLUarch03拥有新一代张量运算单元，全面加强了FP16、BF16以及FP32的浮点算力，同时支持推理和训练任务。

寒武纪智能芯片架构演进

芯片的指令集对于任务执行效率与硬件本身几乎同等重要，当年英特尔在摩尔定律减缓的情形下就采取了Tick Tock策略——一代提升制程，一代改进指令集。自研架构的寒武纪对自家芯片拥有完整操控权限，也可以实现两条腿走路，其在思元 370 上更新了指令集，内置的 Supercharger 模块大幅提升了各类卷积效率。

Supercharger 和多算子硬件融合技术

思元370采用的全新MLUv03指令集功能更加完备，效率更高且向前兼容，其还采用了全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间。

新的加速卡还升级了内存，从DDR4升级为LPDDR5，带宽从102.4GB/s提升至307.2GB/s，LPDDR5是一种适用于移动端的内存产品，是如今中高端手机的标配。为什么要把它用在云端AI加速卡上？这或许是在带宽、成本和能效比之间进行权衡的结果。

思元370是国内第一款公开发布支持LPDDR5内存的云端AI芯片，从数据上看，其内存带宽达到了上一代产品的3倍，访存能效达GDDR6的1.5倍。

全新推理加速引擎 MagicMind

MagicMind是寒武纪全新打造的推理加速引擎，其定位对标的应该就是英伟达CUDA之上的TensorRT，但是架构和功能上相对于TensorRT更为先进和强大。在寒武纪的整体软件栈架构中，MagicMind之下是高效软件栈工具和高性能库，并且还提供了Bang语言支撑定制化开发功能。

MagicMind的优势在于可提供极致的性能、可靠的精度以及简洁的编程接口，让用户能够专注于业务本身，无需理解芯片更多底层细节就可实现模型的快速高效部署。与此同时，通过MagicMind插件化的设计，还可以满足在性能或功能上追求差异化竞争力的客户需求。

MagicMind支持跨框架的模型解析、自动后端代码生成及优化，在MLU、GPU、CPU训练好的算法模型上，借助MagicMind，用户仅需投入极少的开发成本，即可将推理业务部署到寒武纪全系列产品上，并获得优化后具有竞争力的性能。

推理加速引擎MagicMind是寒武纪软件栈Cambricon Neuware全新升级的重要组成部分

为了加快用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，寒武纪的统一基础软件平台Cambricon Neuware整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将MagicMind和深度学习框架Tensorflow，Pytorch 做了深度融合，可以实现训推一体。

随着软件栈升级，开发者们在寒武纪全系列计算平台上，从云端到边缘端，用户均可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，可快速响应业务变化，提升算力利用率，降低运营成本。

在通用性方面，Cambricon Neuware 支持FP32、FP16混合精度、BF16和自适应精度训练等多种训练方式并提供灵活高效的训练工具，高性能算子库已完整覆盖视觉、语音、自然语言处理和搜索推荐等典型深度学习应用，可满足用户对于算子覆盖率以及模型精度的需求。

支持8K解码

思元370升级了视频图像编解码单元，可提供更高效的视频处理能力和更优的编码质量，支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面，思元370可支持132路1080p视频解码或10路8K视频解码。编码方面，全新编码器通过灵活的码率优化（RDO）控制、多参考帧、二次编码等特性组合，在相同图像质量（全高清视频 PSNR）的情况下比上一代产品节省42%带宽，有效降低带宽成本。

除了性能强大，从披露的信息中我们也可以得知思元370从研发到商业化落地的速度非常快：它在2020年第三季度流片，预估在12月底顺利回片，今年二季度应该就已投放至阿里、百度等厂商进行测试和导入了，而从新品新闻里的客户评价来看，总体性能表现「超出预期」，据说已有厂商开始小批量采购。

前天的发布，意味着寒武纪的第三代云端AI芯片已经走过了流片、点亮、小范围商业应用等多个节点，全部时间不到一年。

除互联网之外，近年来寒武纪已在智慧金融、智慧能源、智慧交通等领域与合作伙伴共同完成了大量落地案例。作为国内首家发布云端AI芯片及加速卡的公司，寒武纪具有先发优势，在技术多次迭代之后，其产品已经获得众多客户的认可。

寒武纪的目标还不止于此。未来，它还将继续在指令集、架构层面继续优化AI芯片计算性能，让AI芯片覆盖更多领域。

（来源：机器之心）

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

关键词：

少年志智未来 iEnglish2020用户年度盛典在京落幕

美国“毅力”号火星车发射升空探索矿物、寻找生命迹象

无人机技术将重新定义城市规划塑造智慧城市的方式

光伏发电“一毛钱一度” 可再生能源替代传统能源已成全球趋势

寒武纪发布云端AI芯片思元370，chiplet技术打造，性能大幅提升2倍

相关新闻

最新资讯

科技推荐

科技图片

市占率行业领先 酷我音乐尽显车载音频市场“实力派”魅力

数字建设成效凸显 新一代信息领域企业“风光无限”

进博会打造全球经济新引擎 粤港澳携手长三角共发展

国际空间站开展机器人实验 未来还可应用于月球和人造卫星等

新闻排行

市占率行业领先酷我音乐尽显车载音频市场“实力派”魅力

数字建设成效凸显新一代信息领域企业“风光无限”

进博会打造全球经济新引擎粤港澳携手长三角共发展

国际空间站开展机器人实验未来还可应用于月球和人造卫星等