第三届OpenHarmony技术大会OS原生智能分论坛圆满举办

2024-10-15 14:29:34 来源：看点时报

小大

金秋沪上，智启未来。

10月13日上午，第三届OpenHarmony技术大会OS原生智能分论坛在上海举行。汇聚产学研力量，与会专家聚焦OpenAtom OpenHarmony（以下简称“OpenHarmony”）在端侧原生智能领域的技术探索与优秀实践，围绕端侧大模型的算法、系统、新体系结构，共同探讨深入挖掘操作系统与AI在端侧融合的潜力。多位专家就如何更好地应对多元化的行业挑战，助力客户和用户实现技术突破展开分享。内容不仅涵盖了端侧大模型部署与优化，大模型稀疏算法、异构系统、新体系结构在端侧的创新应用，还包括端侧AI与智能应用实践，以及延伸到端侧原生智能生态构建，探索端侧AI生态系统的构建策略与未来发展方向，为端侧系统级大模型服务把脉机遇与挑战。

华为基础软件资深技术专家丁天虹、湖南开鸿智谷数字产业发展有限公司AI技术资深专家杨德志、华为终端BG云服务小艺产品部术专家高光远、华为2012实验室中研诺亚实验室研究员唐业辉、清华大学助理教授章明星、上海交通大学副教授糜泽羽、上海交通大学副教授戴国浩、北京邮电大学副教授徐梦炜、北京大学副教授孙广宇、华为终端BG软件架设部技术专家李有福等出席论坛并发表演讲。

当前，AI智能家居控制技术备受关注。凭借先进的人工智能算法，家居设备实现智能联动与精准控制。为人们带来便捷、舒适的生活体验，因而成为行业热门话题。湖南开鸿智谷数字产业发展有限公司AI技术资深专家杨德志详细分享了在OpenHarmony终端设备上，利用语音识别技术、小语言模型技术和模型压缩技术，实现对语音信号的高效识别和对用户意图的精准理解，实现对家居设备的智能控制。从端侧语音识别、端侧意图识别、端侧模型部署三方面为与会嘉宾详细介绍。

（湖南开鸿智谷数字产业发展有限公司AI技术资深专家杨德志）

华为终端BG云服务小艺产品部技术专家高光远，作为华为终端云服务产品总监，深入阐述了HarmonyOS NEXT原生智能的相关理念。他强调，通过将AI能力下沉到操作系统，汇聚AI相关能力至AI子系统，并赋能其他子系统，使得系统在不用重复构建 AI 能力的情况下，方便地具备智能特性。同时，构建强大的AI运行时，以实现整机最优的性能和功耗运行，为用户带来卓越体验。他还与大家共同探讨了原生智能的定义、实施原因以及为TOD带来的收益和TOC体验等关键问题。

（华为终端BG云服务小艺产品部技术专家高光远发言）

华为 2012 实验室中研诺亚实验室研究员唐业辉则聚焦于端侧设备的“小”模型研究与实践。鉴于端侧设备计算和存储资源有限的现状，他指出需要部署计算高效的大模型，并介绍了一种硬件亲和的 Transformer架构——盘古-π，其通过级数激活函数和增广跨层连接提高模型表达能力。同时分享了针对“小”模型的优化方法，如词表裁剪和难例续训创新策略，以缓解“小”模型遗忘难题，成功打造出业界领先的 “小” 模型，有力支撑了端侧的AI应用。

（华为 2012 实验室中研诺亚实验室研究员唐业辉发言）

清华大学助理教授章明星带来了关于KTransformers的精彩分享。在通向AGI的道路上，训练更大模型和支持更长文本是两个重要方向，但纯GPU方案进行推理成本过高，限制了大模型的广泛应用。为解决这一问题，章明星团队设计并开源了KTransformers 框架，通过将稀疏部分有效卸载到CPU上，仅需一张24GB甚至16GB的显卡，即可支持236B DeepSeek模型和1M超长上下文的本地推理，在同等环境下有三到十倍的性能提升。

（清华大学助理教授章明星发言）

上海交通大学副教授糜泽羽就《PowerInfer：端侧大模型推理系统进展与展望》主题展开分享，糜泽羽说，PowerInfer是一个在个人电脑或智能手机等端侧设备进行大型语言模型快速推理的框架，设计核心是利用大语言模型推理中固有的稀疏激活和高局部性，进一步整合了自适应预测器和神经元感知的稀疏运算符，优化了神经元激活的效率和计算稀疏性。

（上海交通大学副教授糜泽羽发言）

在智能技术飞速发展的当下，端侧设备的大模型应用成为研究热点。北京邮电大学副教授徐梦炜就端侧系统级大模型服务发表了深刻见解。他指出，大语言模型（LLM）及相关多模态变体正极大地改变着电子设备的能力，推动了个人代理等新型应用的发展。他重点阐述了一种面向高效端侧大模型部署的创新方案——LLM-as-a-Service。该方案由操作系统为应用提供统一的LLM服务，通过Prompt/LoRa等方式与应用进行交互，从而确保服务的可扩展性和硬件兼容性。

（北京邮电大学副教授徐梦炜发言）

“基于Transformer架构的大语言模型逐渐在智能终端中大放异彩，有望让AI真正触手可及。”上海交通大学副教授戴国浩《稀疏计算与软硬协同：智能终端中的大模型解决方案》展开分享，他认为，现有硬件平台仍难以有效满足端侧大模型推理的算力、带宽与能效需求。针对当前大模型软件优化效果逐渐趋平的现状，他介绍了“软硬协同+稀疏计算”的创新研究思路，展望未来智能终端的发展方向，以及在视频生成模型稀疏加速的最新探索。

（上海交通大学副教授戴国浩发言）

北京大学副教授孙广宇分享了《基于DRAM近存计算架构的端侧大模型推理优化》。他认为，DRAM近存计算架构具备高访存带宽、大存储容量的优势，对于大规模神经网络、图计算、推荐系统等应用有较好的加速效果，因此受到了学术界和工业界的广泛关注。孙广宇回顾近期工业界提出的DRAM近存计算芯片，并分析其特点和面临的挑战；然后，进一步介绍如何利用DRAM近存架构来加速端侧大模型推理；最后，分享了针对大模型推理的一个算法与架构协同优化的工作。