识别人的言语的计算机系统。
计算机用算法识别言语的一般过程:(1)用滤波器组件分析、傅里叶分析、线性预测编码等技术将人的语音从模拟量转化为数字表达式;(2)将由此产生的数据规格化,以控制不同的语速、振幅和输入语音物理背景(如噪声);(3)从数字表达式中提取可区别不同语音的声学特征,如共振峰,用户语音的数学表达式和与它相联系的声学特征,提供一个数据模式;(4)将数据模式与存贮在识别系统中的语音样板进行比较;(5)系统决定为用户语音选中某个匹配样板或拒绝识别。根据对说话人的依存性,可分为依存说话人识别系统和不依存说话人识别系统。前者只有在得到用户个人的言语样本后,才能识别他的言语;后者在理论上能识别使用某种语言的任何人所说的话。实际上它的识别准确性取决于用户群体言语特征的相似性。相似性越大,识别准确性越高。根据说话方式,可分成孤立词识别系统、连接词识别系统和连续词识别系统。
用户向孤立词识别系统说话时,必须在各个词项之间作短暂的停顿。这种系统的识别准确性最高。连接词识别系统能识别词与词之间没有人为停顿的言语,但是用户读个别词要用允许的同样的声调模式。连续词识别系统能识别自然言语。
这种系统正在研制发展中。根据所用词表大小,可分为固定词表识别系统和无限词表识别系统。
无限词表的算法还在研制中,需要将言语分成音素段,然后确定所说的词,进而组成文本。不管哪一种系统,均碰到人的言语可变性问题。这种可变性不仅表现在不同国家的语言差异上,还反映在同种言语的方言差异、个人语型差异以及由生理、心理或环境因素引起的个人语型在时间上的变化等。
这些因素将影响识别绩效。
如在应激条件下人的语调变化时,系统会拒绝识别。