浅析语音识别技术所面临的问题和前景展望

来源：投影时代　更新日期：2021-10-20 作者：pjtime资讯组

年度商显市场最大的看点何在投影行业十大猜想年度评选盛典获奖揭晓

当今语音识别技术的主流算法，主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

(1) 动态时间规整(DTW)

DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术，是较早的一种模式匹配和模型训练技术。该方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。

(2) 矢量量化(VQ)

矢量量化是一种重要的信号压缩方法，主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的k个样点的每1帧，或有k个参数的每1参数帧，构成k维空间中的1个矢量，然后对矢量进行量化。量化时，将k维无限空间划分为M个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。

(3) 隐马尔可夫模型(HMM)

HMM是对语音信号的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是较为理想的一种语音模型。

(4 )人工神经元网络(ANN)

人工神经元网络在语音识别中的应用是目前研究的又一热点。ANN实际上是一个超大规模非线性连续时间自适应信息处理系统，它模拟了人类神经元活动的原理，最主要的特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的稳健性和学习联想能力。这些能力是HMM模型不具备的。但ANN又不具有HMM模型的动态时间归正性能。因此，人们尝试研究基于HMM和ANN的混合模型，把两者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是目前研究的一个热点。

(5) 支持向量机（SVM)

支持向量机是应用统计学习理论的一种新的学习机模型，它采用结构风险最小化原理(SRM)，有效克服了传统经验风险最小化方法的缺点，在解决小样本、非线性及高维模式识别方面有许多优越的性能。其基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数实现的。

语音识别所面临的问题

中天智领

(1)识别系统的适应性差。主要体现在对环境依赖性强，特别在高噪音环境下语音识别性能还不理想。

(2)语音识别系统从实验室演示系统到商品的转化过程中，还有许多具体问题需要解决。例如，口语中的重复、改正、强调、倒叙、省略、拖音、韵律、识别速度、拒识等问题，还有连续语音中去除不必要语气词如“呃”、“啊”等语音的技术细节问题。

(3)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需要进一步研究。

(4)语音识别的方言和口音问题

(5)信道问题:我们知道在无线互联应用中，涉及到的信道种类可能会很多，比如固定电话、手机、IP、网络、车载系统等等，各种各样的信道都有不同的特性。语音识别、声纹识别和语音理解如何去适应不同信道的差异是一个不得不面对的问题。

(6)语音合成:语音合成当中，怎样能够很好地把感情色彩、情绪等正确地表达出来，也需要进一步去研究。

可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统，要建成这样一个系统仍然是人类面临的一个大的挑战，我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在60年代，谁又能预测今天超大规模集成电路技术会对我们的社会产生这么大的影响。

语音识别技术的前景展望

中天智领

语音作为当前通信系统中最自然的通信媒介，语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展，语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译，可消除人类相互交往的语言障碍。

近年来语音交互功能被应用到了应急指挥中心当中，通过语音调用大屏幕场景，语音调用监控，语音调用信号源，语音调用预设内容等；

智能语音交互基于指挥中心的应用，领导只需按键，说出关键词即可调用想要的监控、PC、及相关信息，提高了整体指挥调度的水平。

中天智领研发的智慧语音交互系统：用户按下遥控器上的语音键，下达清晰和直接的单向预设语音指令，传输到网络中的语音识别引擎，达到对应的控制效果。独有的语音压缩算法，将语音压缩以实现抗干扰及较远距离的语音实时传输，30米范围内精准遥控，360°无死角声源定向。对话模型本地运行，数据本地存储和处理，保障数据的私密性。

中天智领研发的智慧语音交互系统拥有以下特点：

应用范围广：通过一支智能语音激光遥控，可进行业务软件及文档控制，播放音视频，调取监控画面等多项操作。

识别精度高：系统通过无线蓝牙传输数据和音频，360度声源定向，大大提高语音识别精度，系统支持方言模糊识别。

反应时间短：语音识别结果响应时间≤100ms，从对语音交互设备下达指令到交互指令被执行整个过程完成的时间≤1s。

硬件配置优：专业防喷麦设计，声音内容更加清晰；高保真采声，使声音采集更加清晰；语音键设置高度贴合人体工学。（临场指挥得心应手）

中天智领

中天智领可根据用户需求及建设目标，搭建应急指挥中心，中天智领智慧应急指挥中心拥有多种系统：智慧交互激光遥控系统、AI语音交互系统、智慧交互系统级触控系统、智慧交互手势识别系统、大屏KVM管控系统、云享控系统、智慧交互电子沙盘、分布式交互处理器、联合标绘、实物交互等。系统实现通过网络及通讯传输，将全需要监控的前端视音频及多媒体信息资源汇集到监控指挥中心综合管控平台，实现信息的资源共享、统一处理。

返回数字告示频道首页