13. 由于语音信号的幅度相对于背景噪声而言其幅度的动态范
围大。因此可以认为语音信号在范围 ( 一 M,M) 中的随机事件大
,也就是熵值大,而无声状态 ( 信号中只含噪声 ) 的幅度小、
分布相对集中,因而熵值小。
按照以上原理,在构造出了熵函数之后就可只计算出每帧
信号的信息熵 ( 幅度熵 ) 。假设语音信号 S(n) 的帧长为 N ,在
一帧语音中最大幅度值与最小幅度值分别为 M 、一 M ,分别统
计这一区域中 S(n)=S i , S i ∈( 一 M , M) 出现的次数 n i ,并将
比例 n i /N 作为出现 S i 这一值的概率 :P i = n i /N 。将 P i 代入前
面的熵函数公式,即可得到语音信号的熵函数曲线。背景噪声
信号的幅度熵的值较小而浊音信号的幅度熵值比较大,因此可
以进行端点检测。首先通过实验确定一个阈值 h ,然后对每帧
语音的熵值进行比较,认为熵值大于等于 h 时为语音帧,小于 h
则为无声帧,即可检测出语音信号的端点。
14. 基于谱熵的检测方法
谱熵方法与信息嫡方法有着相似之处,信息熵方法是在
时域内对信号进行熵值统计和计算,谱熵检测方法是从语音信
号的频域来进行计算,然后从频谱分布概率来进行语音端点的
检测。
谱熵的计算方法如下 : 首先通过快速傅立叶变换 (FFT) 得
到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信
号在该频率点的大小分布。然后计算每个频谱分量在每帧总能
量中所占的比例,将其作为信号能量集中在某频率点的概率,
其概率密度函数定义为 :
式中, S(f i ) 是 f i 的能量, P i 是相应的概率密度, N 是
FTF 中频率成分的所有点数。由于语音信号的绝大部分能量集中
200Hz ~ 350OHZ 之间,所以,为了集中计算谱熵以增加语音和
非语音在概率密度函数中的区分性,我们把 200HZ ~ 3500Hz 之
外的频率分量置为 0 ,即 :