近日,微软首席语音科学家黄学东在论文中表示,他们在近期产业标准Switchboard语音识别基准测试中,实现词错率(WER)低至6.3%的这一技术突破,这比IBM上周达到的6.6%WER下降了0.3%,达到目前语音识别领域错误率最低的水平。
黄学东在论文中提到:“我们最好的单个系统在 NIST 2000 Switchboard 集上取得了 6.9% 的词错率。我们相信这是目前单个系统能取得的最好表现。在Switchboard 测试数据上,多个语音模型的组合将进一步使词错率降至 6.3%。”
微软表示,人类大脑的生物运作原理启发微软研发深层神经网络来实现这一突破。此外,他们还提及计算网络工具包(CNTK)的深层学习算法对这次技术突破的影响,以及GPU集群为这个进步所做的贡献。微软指出,相比于以往,现在Cortana可以在相同的时间内吸收十倍以上的语音数据。
微软的语音识别技术已较为成熟,在不断突破语音识别基础技术的前提下,其继续提升以语音识别技术为基础的各种应用服务,包括Cortana以及Skype翻译等,使得人与机器可以更自然地交互。