新研究表明人工智能技术有望媲美专业配音演员

2021-12-20 18:18:16 来源：科技日报

小大

科技日报实习记者孙明源

影视配音是一项对专业能力要求很高的工作。配音演员需要观看、分析视频中任务的表演，并用适当的韵律（例如重音、语调和节奏）重新录制每一句台词，让配音和画面同步，并且具备丰富的情感和前后一致性，目前的人工智能配音还不能胜任这种工作。然而，近日发表在机器学习和计算神经科学领域顶级会议NeurIPS2021上的一项前沿研究表明，可以媲美专业配音演员的人工智能技术是有望实现的。

论文内容表明，清华大学交叉信息研究院赵行研究组（MARS Lab）联合字节跳动提出了神经网络配音器概念，旨在解决自动视频配音任务。它能够合成与给定视频同步的高质量语音，并利用视频中的嘴部运动来控制生成语音的韵律，以达到语音和视频同步的目的。此外，该工作还针对多说话人场景开发了基于图像的说话人嵌入模块，让神经网络配音器能够根据说话人的面部生成具有合理音色的语音。

“配音的主要应用场景有两个。一是替换拍摄时录制的对话，如拍摄场景下录制的语音音质不佳，又或者出于某种原因演员只是对了口型，声音需要事后配上；二是对译制片进行配音。例如，为了便于中国观众欣赏，将其他语言的视频翻译并配音为中文。我们主要关注的是第一个场景。”在接受科技日报记者采访时，论文的第一作者、清华大学交叉信息研究院博士生胡晨旭解释说。

实验中的定性和定量评估结果都说明，神经网络配音器可以通过视频控制合成语音的韵律，并生成与视频同步的高质量语音。“不过，我们的技术还处于起步阶段，模型需要在真实电影数据上进行训练，也暂时还没有开始中文配音应用。”胡晨旭补充说。

“我们的研究还在继续，请期待我们下一版本的模型。”胡晨旭说。

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

关键词：

北京超算“名”“利”双收，超算商业化已经来临