顶级语音识别专家Daniel Povey：新一代Kaldi可大幅降低收听语音词错误率年底或将应用于所有小米AIoT产品

2021-09-01 11:05:49 来源: 中国网科技

　　中国网科技8月31日讯小米集团语音首席科学家、“Kaldi之父”Daniel Povey(丹尼尔·波维)今日接受媒体采访时称，新一代Kaldi目标不仅仅是赶上或者稍微领先这些语音识别库，而是要根本地改变语音识别的实现方式。

　　Daniel Povey对中国网科技透露，目前小米AIoT产品中还用的是第一代Kaldi，接下来小米将逐步把新一代Kaldi能力融入到小米产品中，预计在今年年底或明年初，开始将新一代Kaldi能力应用于小米产品，但现在仍在测试之中。

　　谈及为何选择在小米开发新一代Kaldi，Daniel Povey对记者直言：“事实上有很多大型互联网公司都想把我招致麾下，但小米是一家公司战略规划相对稳定的公司，加上表现出对开源项目的承诺与重视，因此在我需要做开源项目这一硬性标准看来，小米是最佳去处。”

　　据悉，现有端到端语音识别模型的流行和准确率的逐步提升，以及PyTorch、TensorFlow等深度学习工具包的普及，是开发新一代Kaldi主要动力。相较初代而言，新一代Kaldi是一个全新代码库，需要完全重新打造，由C++以及CUDA完成，并可以在Python调用。新一代Kaldi由3个独立的项目组成，分别称为 k2、Lhotse和Icefall。

　　其中，最新算法Icefall是这次新一代Kaldi重要部分，基于实现“双向建模”和多层模型的优势，拥有新一代Kaldi能力的AIoT产品可以大大提高语音识别能力，从而降低收到语音指令的词错误率。小米集团方面称，目前已经在LibriSpeech数据集上取得了2.57%的词错误率，而且还在持续的进一步优化。

小米集团语音首席科学家、“Kaldi之父”Daniel Povey

　　Daniel Povey表示：“新一代Kaldi与PyTorch兼容，并且代码更容易修改，比初代Kaldi代码库更灵活得多，允许用户更轻松地尝试新想法。并且止于目前，依托于Kaldi而发展起来的很多中小型企业有很多，Kaldi将一直坚持做项目开源。”

　　公开信息显示，Daniel Povey是语音识别开源工具Kaldi的主要开发者和维护者，因此被称为“Kaldi之父”。而Kaldi工具简而言之的讲，目前国内三大语音助手小爱同学、小度、天猫精灵使用的底层框架都是Kaldi，Kaldi等于是能让智能物联通过语音交互方式呈现的基础，是目前被业界公认的语音识别框架基石。

(责任编辑：单征宇)