腾讯多媒体实验室自研AI作曲框架XMusic，亮相2023中国新媒体大会

2023-07-13 20:35:54 来源：财讯网

小大

7月11日，2023中国新媒体技术展在湖南国际会展中心举行。本届技术展以“智慧促深融”为主题，重点聚焦人工智能新技术新应用、智慧媒体服务社会治理新场景等，呈现新技术赋能融合发展新生态。

会上，腾讯多媒体实验室展出了自研AI通用作曲框架XMusic，基于AIGC技术，用户只需上传视频、图片、文字、标签、哼唱等任意内容，即可生成情绪、曲风、节奏可控的高质量音乐，能够大幅降低音乐创作的门槛。该产品前几日首度亮相2023年世界人工智能大会，并被评为“镇馆之宝”，引发广泛关注。

随时随地实现AI辅助创作，打造专属“行走的音乐库”

在日常生活中，用户对使用音乐有着多种多样的需求。比如在视频剪辑时，需要应用多样的配乐来让画面更加生动，但音乐搜索一般只能用歌曲名字、歌手名字等指向性强的信息来搜索，需要耗费大量的时间精力；亦或在商超、会场等场所布置时，传统的环境音乐选择容易受到版权限制，很难获得多样且合法的音乐素材。

面对这些难题，腾讯多媒体实验室自研AI通用作曲框架XMusic可以随时随地利用AI辅助实现音乐创作，打造个人专属的“行走的音乐库”。一张图片、一段文字、一个视频，甚至是一段哼唱，XMusic都能够对应生成出乐曲优美连贯、旋律起伏明显、节奏强弱交替的高质量音乐。比如输入“逗趣横生，让人捧腹大笑”的描述，XMusic就会生成一段节奏俏皮、旋律欢快的音乐。

对于视频创作者而言，XMusic无疑是解决配乐难题的一大利器。除此之外，针对互动娱乐、辅助创作、音乐教育、互动娱乐、音乐治疗等诸多场景，XMusic也有着很高的实用价值。

以场景音乐生成为例，XMusic的商用级音乐生成能力可以有效解决线下展厅、体验展、餐厅商超等场景中的环境音乐版权问题，为展厅提供多样化的公播音乐，并在体验展中融入多种智能音乐方案，提升展厅的科技感和体验感。

此外，XMusic也可以发挥重要的教学辅助能力，推进线上音乐教育的发展。比如在智慧音乐课堂中，教师可以用XMusic生成多样的节拍、节奏、音高练习曲目，结合实际教学场景，发挥AI生成音乐的教学辅助能力，为学生在演奏、练耳等多种场景中提供个性化的指导和训练，帮助学生更快地提升音乐技能。

　全面AIGC能力矩阵支撑，实现音乐高效精准创作

作为本次技术展中的亮点之一，XMusic背后的腾讯多媒体实验室也受到了广泛关注，一位热爱音乐的科学家，带领一群同样热爱音乐的工程师们从零到一落地了XMusic项目。2019年，腾讯多媒体实验室负责人、腾讯杰出科学家、IEEE Fellow 刘杉博士带领实验室开展“基于多模态融合的智能内容生产”相关技术能力研发并逐步完善AIGC能力矩阵。

腾讯多媒体实验室自研AI通用作曲框架XMusic，是基于自研的多模态和序列建模技术，可以将提示词内容解析至符号音乐要素空间，并以此为控制条件引导模型生成丰富、精准、动听的音乐，达到商用级的音乐生成能力要求。

刘杉博士表示，人工智能技术的飞速发展对多媒体和相关领域产生深远影响。“腾讯（多媒体实验室）将继续推动人工智能和多媒体及相关领域的国际和国家标准制定，打造音视频、互动沉浸和智能媒体核心能力矩阵，通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球用户、助力各行业发展并践行科技向善。”

腾讯多媒体实验室还在展区展出前沿技术方面的三个项目：“全景'云'游东北虎豹国家公园”通过自研技术智能影像处理和自研VR360解决方案供所有人在“云端”走进这片山林秘境；“虚实融合技术”产品，可将传统虚拟制片的成本与难度大幅降低，无需传感器，只通过一台相机或手机，就可将自己植入到虚拟世界中；“腾讯水墨画”产品融合了视觉、音乐、文字等多种模态，结合山水画创作、智能作诗、音乐生成等多种技术能力，形成了多模态融合且能互动娱乐的完整技术方案。

腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、产品研发和应用落地，其行业领先的视频图片压缩和处理引擎、沉浸式VR系统和智能媒体能力矩阵，通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球海量用户并助力传媒、文化、旅游等行业的发展。同时代表腾讯参与多个国际及国家标准制定，数十人次担任联合主席、主编等核心职务，数百项技术提案被国际标准采纳，荣获工程艾美奖、技术卢米埃奖、ISO/IEC杰出贡献奖等，享有国际盛誉。

未来，腾讯多媒体实验室将以创新的视角和前瞻的思维，不断探索多媒体技术与AIGC能力的融合，拓展多领域的应用场景，为用户提供更加智能、便捷和丰富的多媒体体验。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

关键词：

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

关键词：