人类与人工智能进行语音交互的梦想已经很久了,但直到21世纪之初,这个梦想仍然只是在影视作品和游戏中不断完善。技术进步的道路并非一帆风顺,几代科学家在艰难中不断探索。科技巨头们早已在智能语音交互应用中布局,大家都感觉到了智能语音交互时代即将来临,只是不知以何种方式呈现,直到智能音箱的出现。
从时间上来看,智慧音箱的出现与近些年快速发展的AI技术是同步的,可说是AI市场最为成功的一个落地应用。从2015年不到一百多万台,到2018年的一亿台出货量,智能音箱市场正在大规模爆发……
艰难中前行的语音交互技术
一直以来,通过语言与机器直接沟通,是很多技术人员追求的目标,可看似简单的语音交互,却经历了长达半个多世纪的技术探索。这期间不管文学还是影视作品,都一次次描绘了人机语音交互的美好场景。但直到21世纪初,人与机器的语音交互仍然是令人抓狂的一种操作,远远没有键盘和鼠标来得方便。
原始发展阶段
在1952年,贝尔实验室研发出了 10 个孤立数字语音的识别系统,为人类的语音识别开启了篇章;20 世纪 60 年代开始,卡耐基梅隆大学 Reddy 等人开展了连续语音识别的研究,但是相关研究进展缓慢;1969年,经历了十几年语音识别研究的贝尔实验室,也不得不承认在当时的技术条件下,语音识别难度超乎想象,Pierce J在公开信中将语音识别列为短期内难以突破的技术难题。但是科学界仍然在寻找语音识别的突破方法。
20世纪80年代开始,以隐马尔可夫模型(hidden Markov model,HMM)方法为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号短时平稳特性,将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。
快速发展阶段
当时在美国卡耐基梅隆大学读书的台湾人李开复在HMM模型的此基础上研发出了SPHINX系统,这是技术人员首次尝试“非特定人连续语音识别系统”,其核心框架就是GMM-HMM框架,其中GMM是指(Gaussian mixture model,高斯混合模型)用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。
同时期发展出的技术,还有20世纪80年代后期人工神经网络(artificial neural network, ANN),采用ANN技术进行语音识别研究也成为了语音识别的一个方向【而当ANN后来进化为深度神经网络(deep neural network,DNN),语音识别技术才有了本质的突破】。
到了20世纪90年代,随着计算机技术的快速发展,包括个人电脑在内的一大批设备开始尝试使用语音识别技术。这一时期剑桥发布的HTK开源工具包大幅度降低了语音识别研究的门槛。然而在接下来的一段时间,GMM-HMM框架的技术局限性使得其应用效果差强人意。笔者清晰得记得,当时IBM推出的一款语音识别软件,安装包就有几张光盘,在硬盘容量寸土寸金的个人电脑中,语音识别软件的体积比很多当时的大型软件还要大,除去存储成本,更加麻烦的问题是安装之后的训练工作,仅仅识别一个人的语音就需要花上几个小时来训练,而且识别错误率还很高,最后不得不束之高阁。这可能是接下来在21世纪初的几年中,语音识别很少被人提及的原因。
语音交互技术实现突破
2006 年 Hinton提出深度置信网络(deep belief network,DBN),解决了深度神经网络训练过程中容易陷入局部最优的问题,为深度学习技术开启新方向。2009 年,Hinton 和他的学生Mohamed D将 DBN 应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。
2011 年 DNN 在大词汇量连续语音识别上获得成功语音识别效果取得了近10年来最大的突破,并从此成为主流的语音识别建模方式。
3年以后的2014年11月,以DNN技术为基础的亚马逊凭借Echo一举开创出了智能音箱这个全新的市场。
在语音识别技术方向中,具有更强的长时建模能力的循环神经网络(recurrent neural network,RNN),卷积神经网络(convolutional neural network, CNN),以及在语音识别领域独树一帜的科大讯飞公司提出的DFCNN技术相继出现,从而使得人机语音交互的体验越来越好,以智能音箱为代表的语音交互设备开始受到越来越多消费者的欢迎。
值得一提的是科大讯飞在语音识别技术方面的研究,其DFCNN框架的识别率相较以往的技术再次提升了15%以上,比传统的GMM-HMM框架性能提升30%~60%,并与Google在语音识别方面展开深度合作。在中文语音识别方面,更是占据超7成市场,是中国相当多智能音箱中的首选语音识别技术。
参考数据:《语音识别技术的研究进展与展望》科大讯飞股份有限公司人工智能研究院
作者:王海坤, 潘嘉, 刘聪