近日,商汤大装置SenseCore与昇腾384超节点率先完成全面适配,在功能、性能验证上达到预期目标,为加速国产AI算力从“可用”迈向“好用”取得了重点突破,为大模型高效训练与推理提供了坚实支撑。

超节点(SuperPod)是一种通过高速互联技术,将多个GPU/NPU整合为统一计算单元的新型架构,解决AI大模型训练中的算力协同与通信效率问题。
昇腾384超节点(Atlas 900 A3 SuperPoD)是华为推出的业界最大规模超节点方案,凭借创新的“全对等架构”,实现高速互联总线的关键突破——把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将CPU、NPU、DPU、存储和内存等资源全部互联和池化,形成一台“超级计算机”,实现更大的算力密度和互联带宽。
商汤联合华为昇腾,实现超节点适配多项创新
华为昇腾推出的与此同时,这一全新方案架构,也对软件栈的升级和平台调度优化提出了更高要求,让它能“跑得快、跑得稳”。
作为AI云原生平台,商汤大装置SenseCore致力于为用户提供敏捷、灵活、可靠的全栈AI基础设施服务,以极致性价比推动大模型技术的高效落地与规模化应用。
基于商汤大装置SenseCore与昇腾384超节点的特点,双方团队联合攻关,在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新:
· 调度优化:在调度能力上,除了支持POD内单机和多机调度、跨POD多机调度、亲和性调度等基础能力,SenseCore平台配合模型并行策略实现了逻辑超节点自动划分,使EP/TP等大通信策略可以充分利用灵衢网络,提升模型训练效率。
· 跨POD训练稳定性:另外SenseCore团队提交了多个MR修复多POD场景下master/work任务rank乱序问题,从根本上解决了跨POD训练任务概率性失败的问题。
· 多维度故障检测与恢复:在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE网络到任务、进程软硬件多维度检测,结合检测能力实现Job/Pod/进程多级恢复机制,全面提升昇腾384超节点在训练场景下的可靠性与容错性。
此次商汤大装置SenseCore与昇腾384超节点的成功适配,让多租户、大规模、弹性AI云服务成为可能。未来,双方还将探索更多应用场景,包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等,进一步加速基于SenseCore的昇腾384超节点在各行各业的应用落地。
商汤科技大装置事业群CTO宣善明表示:“商汤大装置非常重视并深度参与国产化算力生态建设。SenseCore成为首批完成昇腾384超节点适配的AI云平台,不仅得益于SenseCore平台的开放性、完善的功能和丰富的应用实践,更是国产AI基础设施融合发展的重要里程碑。SenseCore通过与昇腾的深度融合,充分释放昇腾算力潜能,为产业界提供更加敏捷、智能、可靠的算力底座,商汤也将在此基础上打造面向各行业的AI解决方案,共同推动千行百业的智能化升级”。
责任编辑:kj005
工业陶瓷凭借高硬度、耐高温、耐腐蚀、绝缘等卓越性能,已成为航天、能源、电子、化工等现代工业领域的关键材料在此背景下,本次《2025 工业陶瓷厂家最新推荐排行榜单...
脑中风,作为严重威胁人类健康的疾病之一,常常以其突然发作和严重后果令人谈之色变无症状脑中风,也被称为静止性脑梗死,并非真的毫无痕迹,而是症状隐匿到连患者自身都难...
在日常生活中,脑血管疾病一直是威胁人类健康的重要杀手之一小中风,其医学全称为短暂性脑缺血发作(TIA)小中风的常见症状多种多样,并且很容易与疲劳所产生的不适相混...
近日,北京朝医院副院长、泌尿外科主任胡小鹏教授再次莅临河北燕达医院泌尿外科,开展教学查房与疑难病例指导工作作为河北省临床重点专科,燕达医院泌尿外科一直致力于为患...
随着人们生活方式和饮食习惯的改变,胃肠疾病的发病率呈逐年上升趋势,对胃肠外科的诊疗技术提出了更高的要求胃肠外科主要负责胃、小肠及结直肠等器官疾病的手术治疗光源伸...
在临沂新益民眼科医院,有这样一位医者 —— 她深耕眼科领域多年,带着对专业的极致追求与对患者的拳拳仁心,从临床一线到学科建设,从公益践行...