语音信号可以进行压缩编码的基本依据包括两个方面的原因:一方面是语音信号本身存在很大的冗余度,这是语音可压缩编码的外因另一方面是由于人耳的听觉感知机理,这是语音可压缩编码的内因。

1、外因:语音信号本身存在很大的冗余度

根据统计分析,语音信号中存在着多种冗余度,可以分别从时域和频域来进行描述。

1)语音信号存在时域冗余度

语音信号时域冗余度主要表现在:幅度非均匀分布、语音信号样本间的相关性很强、浊音语音段具有准周期性和存在静止系数(语音间隙)等5个方面。

2)语音信号存在频域冗余度

(1)非均匀的长时功率谱密度。在相当长的时间段内进行统计平均,可得到长时功率谱密度,它呈现出强烈的非平坦性。这种非平坦性表现为功率谱的低频能量较高、高频能量较低,这恰好对应于时域上相邻样本间的相关性。这就意味着没有充分利用给定的语音频段,或者说存在着固定的冗余度。

(2)语音特有的短时功率谱密度。语音信号的短时功率谱在某些频率上出现峰值,在另一些频率上出现谷值。而这些峰值频率,也就是能量较大的频率,通常称为共振峰(Formant)频率。此频率不止一个,最主要的是前3个,由它们决定了不同的语音特征。另外,整个短时谱也是随着频率增加而递减。更重要的是,整个功率谱的细节以基音频率为基础,形成了高次谐波结构。

2、内因:人耳的听觉感知机理

语音信号可以进行压缩编码的第二个依据是利用人类听觉的某些特点,即人耳的听觉感知机理。人的听觉生理和心理特性对于语音感知的影响主要表现在以下3个方面。

1)人类听觉系统(HAS)具有掩蔽效应(ME)。HAS特性曲线随不同声音压、不同频率声音的影响而变化形成了所谓的掩蔽曲线(掩蔽阈),它大致表现为声级越高的一个单音对其周围频率声音的掩蔽作用越强。通俗地讲,掩蔽曲线反映了人耳的掩蔽效应,即一个强音能抑制一个同时存在的弱音而导致人耳听不到或不敏感这个弱音。对人耳听不到或极不敏感的声音分量可以看做是冗余。语音压缩编码本质上就是设法去掉这些冗余度,从而达到压缩比特率的目的。

2)人耳对不同频段声音的敏感程度不同。由于浊音的周期和共振峰主要集中在低频段,因此人耳对低频端比较敏感,而对高频端不太敏感,即较强的低频音能妨碍同时存在的高频音。

3)人耳对语音信号的相位变化不敏感。人耳能做短时的频率分析,对语音信号的周期性很敏感,但对语音信号的相位感知却很迟钝。因此人耳听不到或感知很不灵敏的声音相位分量可以被当作冗余信号。