近日,以“驱动•创新•数智”为主题的AISummit全球人工智能技术大会在线上举办,作业帮首席算法专家宋旸受邀出席大会,并出任“智能语音的应用与探索”论坛专场出品人。在该专场论坛上,来自作业帮、字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家从各自业务实践的角度,分享了智能语音应用领域的前瞻思考。
智能语音即声音信息在人机间的交互模拟,是AI三大核心基础技术之一,同时也是人工智能落地最早的技术之一。作业帮首席算法专家宋旸出任该技术方向论坛专场的出品人。他说,自己是在上世纪90年代中期接触语音识别技术,早期产品如IBM via voice,是当时为数不多的成熟语音识别软件,使用前需要花十几分钟录制本人的声音语料做适应性训练,使用中还需要字正腔圆缓慢的朗读。
但是今天,日趋成熟的语音识别技术可以将开会、电话、视频节目等各种场景下自由的语音对话以极高准确率转写成文本,可以让三岁孩子很自然的和音箱交互,问问题,听儿歌。宋旸表示,未来,随着多模态,预训练大模型等新技术逐步在智能语音领域落地成熟,可以更大程度利用好现有的海量数据,借助预训练大模型的优势,在少数据低资源的领域获得更大的突破。
在本次智能语音论坛专场上,作业帮语音技术团队负责人王强强首先从语音识别、评测、发音纠错、语音合成几个方向,介绍了作业帮的语音技术实践。在语音识别方面,作业帮主打数据高效的端到端语音识别系统。端到端语音识别的优势比较明显,不需要传统的 HMM-GMM/DNN 方案中的决策树聚类操作和 alignment 操作,流程更简单,也不需要发音词典,避免额外的人为操作。数据高效的端到端语音识别系统将常见端到端模型(CTC、 CTC-CRF 、Hybrid CTC/Attention)和语言模型(ngram、rnnlm、transformer-lm)融合,能够更高效利用音频和文本数据。目前,作业帮的所有场景均切换到了端到端语音识别系统。
发音纠错是作业帮目前在做的比较有代表性的探索场景。王强强说,通过计算机发音评测技术帮助学生纠音,在告诉学习者读的不好的同时指出哪里读的不好,帮助大家改进口语发音。而且发音纠错服务一旦部署,就可以随时随时指导学生发音。
“实际上,在语音技术实践中,我们还积累了很多原子能力。” 王强强说,比如,在识别方向做了声纹、中英混合识别、话者分离等。在评测方向也做了非常多的维度,包括连读、浊化、重音、升降掉等。通过这些原子能力,作业帮的语音技术支撑了内部多条产品线。
会上,字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家也分别从各自业务实践的角度,分享了智能语音应用领域的前瞻思考。
AISummit全球人工智能技术大会由51CTO主办,广泛邀请业内资深技术负责人、专家论道人工智能的行业驱动力,研讨人工智能的前沿创新技术,共话人工智能时代下的“数智”浪潮。大会设置一个主会场和十个分论坛,专题覆盖计算机视觉、自然语言处理、算法与模型、推荐系统、机器学习、智慧金融等众多技术细分领域。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com要问今年夏天最具话题性的一枚腕表,RICHARD MILLE与法拉利联名推出的第一款腕表:全新RM UP-01 Ferr...