咨询热线:13080701712
返回 沈宇动态

摄像头干扰器能否屏蔽语音识别系统

    言语是人与人之间最简单的交流方式,事实上,它是人类之间最有效的信息交流方式。人类对语言的感知看似简单,但实际上却相当复杂。一种语言中的同一个词,不同的人可以根据他们所生活的地区而有不同的发音。而且,每个人都有独特的音调和共振峰。因此,为了理解与语音相关的不同特征并保留确定语音特征所需的信息,需要对摄像头干扰器语音信号进行表示。

    通常,语音的表示由包括信号的参数和系数的模型描述来指定[1]。基于这些监控屏蔽器参数,语音表示可以分为两类,即参数表示(基于模型参数,例如脉冲编码调制)和非参数表示(仅由信号系数组成,例如正弦信号)[1]。在自动语音识别(ASR)系统中,完整而紧凑的语音表示是非常重要的[2]。使用适当的语音信号表示可以产生更有效的语音编码系统,这可以提高语音合成的质量和识别器的性能[1]。摄像头屏蔽器语音识别系统通常假设语音信号是编码为一个或多个符号序列的一些消息的实现。为了实现从语音中识别潜在符号序列的反向操作,首先将连续语音波形转换为等距离散参数向量序列[3]。假设该参数向量序列在单个向量覆盖的持续时间内(通常为10ms左右)形成语音波形的精确表示。在这一领域已经有很多研究来表示语音,然而,大部分的工作只使用了几个不同的信号表示。倒谱系数(CC)是监控干扰器语音识别系统中最常用的一种表示方法[4]。
 
    在过去的文献[1]中,利用语音的规范表示,利用TIMIT数据库进行了清浊声音的分离。本实验以该分离为重点,取得了高效的分离效果。但是,它没有进行语音识别的研究。其他相关的研究也使用了组合基音同步声学特征的频谱表示,结果表明相对较低的字错误率(WER)[5]。然而,实验只进行了很少的光谱特征。在TIMIT数据库中,基于浊音锁相环(PLL)特征的语音表示在高噪声范围内进行测量时,显示出较高的识别率[6],但仍然存在着覆盖清音段的问题。利用曼尼普尔语的三种频谱特征(线性预测倒谱系数(LPCC)、感知线性预测(PLP)和Mel频率倒谱系数(MFCC))在三种不同的会话模式下进行了手机识别。结果显示略有改善[7]。然而,他们并没有对不同的隐马尔可夫模型(HMM)状态和混合模型进行分析。在本文中,摄像头干扰器语音识别将使用不同的HMM状态和混合模型,同时使用更多的频谱特征。