语音识别MFCC系列（二）——离散信号、离散傅里叶变换

看了很多傅里叶变换（连续信号和离散信号）的博客，都写的不是很清楚，有些地方可能有误，我在查阅了书籍和大量资料以后，争取能用前后标注一致的公式把相关内容（帕斯瓦尔公式，能量信号，功率信号，能量谱，功率谱等）讲清楚，说正确。最好先看连续信号再看离散信号哦连续信号的请看语音识别MFCC系列（一）——连续信号、傅里叶变换离散信号的请看语音识别MFCC系列（二）——离散信号、离散傅里叶变换耐不住...

谁是momo子

3266人浏览 · 2018-11-30 13:27:16

谁是momo子 · 2018-11-30 13:27:16 发布

看了很多傅里叶变换（连续信号和离散信号）的博客，都写的不是很清楚，有些地方可能有误，我在查阅了书籍和大量资料以后，争取能用前后标注一致的公式把相关内容（帕斯瓦尔公式，能量信号，功率信号，能量谱，功率谱等）讲清楚，说正确。最好先看连续信号再看离散信号哦

连续信号的请看语音识别MFCC系列（一）——连续信号、傅里叶变换

离散信号的请看语音识别MFCC系列（二）——离散信号、离散傅里叶变换

耐不住的话直接看第五部分也行。下面将讲述：

不连续周期信号的傅里叶级数
不连续非周期信号的傅里叶变换
离散傅里叶变换

一、不连续周期信号的傅里叶级数（DFS）

对一个连续周期信号 $x\left ( t \right )$ 的一个周期 $T_0$ 进行 $N$ 点采样，得到离散序列 $x\left ( n\right )$ ，则 $T _ { 0 } = N T_s$ ， $\omega _ { 0 } = 2 \pi / T _ { 0 } = 2 \pi / (NT_s )$ ， $T_s$ 为采样周期， $f_s$ 为采样频率。

重现连续周期信号的傅里叶级数：

$x ( t ) = \sum _ { k = - \infty } ^ { \infty } X \left( k \omega _ { 0 } \right) e ^ { j k w _ { 0 } t }$

$X \left( k \omega _ { 0 } \right) = \frac { 1 } { T _ { 0 } } \int _ { 0 } ^ { T _ { 0 } } x ( t ) e ^ { - j k w _ { 0 } t } d t \quad k = 0,1,2 , \cdots$

记 $\Omega _ { 0 } = \omega _ { 0 } T_s = 2 \pi / N$ 为离散域的基本频率，就是频率分辨率啦，就是最小的频率单元啦，各个频率分量的频率都是他的整数倍， $\Omega =k \Omega _ { 0 }$ 是 $k$ 次谐波的数字频率（下面会有例子解释哦）。因 $t = n T_s , d t = T_s$ ，则：

$X \left( k \frac { \Omega _ { 0 } } { T_s } \right) = \frac { 1 } { N T_s } \sum _ { n = 0 } ^ { N - 1 } x ( n T_s ) \mathrm { e } ^ { - j k \frac { Q _ { 0 } } { T }n T_s } = \frac { 1 } { N } \sum _ { n = 0 } ^ { N - 1 } x ( n T_s ) \mathrm { e } ^ { - j k \Omega _ { 0 } n }$

在序列表示中，可仅用 $n$ 表示 $nT_s$ ，用 $k \Omega _ { 0 }$ 表示 $k \frac { \Omega _ { 0 } } { T_s }$ ，则上式为：

$X \left( k \Omega _ { 0 } \right) = \frac { 1 } { N } \sum _ { n = 0 } ^ { N - 1 } x ( n ) e ^ { - j k \Omega _ { 0 } n } \quad k = 0,1,2 , \cdots , N - 1$

$x ( n ) = \sum _ { k = 0 } ^ { N - 1 } X \left( k \Omega _ { 0 } \right) e ^ { j k \frac { Q_ { 0 } } { T_s } nT_s}= \sum _ { k = 0 } ^ { N - 1 } X \left( k \Omega _ { 0 } \right) e ^ { j k \Omega _ { 0 } n }$

当周期信号从连续域变换到离散域以后，它的频率 $\omega$ 从 $- \infty \sim + \infty$ 映射到数字频率 $\Omega$ 从 $0 \sim 2 \pi$ 。离散信号被分为 $N$ 个频率分量，频率分辨率为 $2 \pi / N$ ，根据连续信号的傅里叶级数同理，离散信号的傅里叶级数也有复共轭的性质，即 $X \left( k \Omega _ { 0 } \right) =X^* \left( -k \Omega _ { 0 } \right)$ 。

二、离散信号的帕斯瓦尔公式

$\sum _ { k = 0 } ^ { N - 1 }\left |x ( n ) \right |^2=\frac{1}{N} \sum _ { k = 0 } ^ { N - 1 } \left |X \left( k \Omega _ { 0 } \right) \right |^2$

推导就不写了，就是用上面那些式子推出来的（猜测对于周期信号，上式代表的是功率，对于长度有限的离散信号，上式代表的是能量）。

三、不连续非周期信号的傅里叶变换（DTFT）

哎呀这里和连续信号处理类似啦，所以连续信号一定要理解好哦！将长度有限的非周期信号 $x\left ( n\right )$ ，以 $N$ 为周期，将 $x\left ( n\right )$ 延拓为周期信号 $x _ { N } ( n )$ ，这里 $N$ 要大于信号长度哦，那当 $N \rightarrow \infty$ 时， $\Omega _ { 0 } = 2 \pi / N \rightarrow \mathrm { d } \Omega , k \Omega _ { 0 } \rightarrow \Omega = \omega T_s$ 为连续量， $\sum _ { k = 0 } ^ { N - 1 } \rightarrow \int _ { 0 } ^ { 2 \pi }$ ， $\frac { 1 } { N } = \frac { \Omega _ { 0 } } { 2 \pi } \rightarrow \frac { d \Omega } { 2 \pi } , x _ { N } ( n ) \rightarrow x ( n )$ ，且这时 $X(k \Omega _ { 0 })$ 趋于0，则乘个 $N$ ，采用频谱密度表示频谱。

$X ( \Omega ) = \lim _ { N \rightarrow \infty } N X \left( k \Omega _ { 0 } \right) = \sum _ { n = - \infty } ^ { n = \infty } x ( n ) e ^ { - j \Omega n }$

$x ( n ) = \lim _ { N \rightarrow \infty } x _ { N } ( n ) = \lim _ { N \rightarrow \infty } \sum _ { k = 0 } ^ { N - 1 } X \left( k \Omega _ { 0 } \right) e ^ { j k \Omega_ { 0 } n }= \lim _ { N \rightarrow \infty } \sum _ { k = 0 } ^ { N - 1 } \frac { 1 } { N } X ( \Omega ) \mathrm { e } ^ { \mathrm {j} \Omega n }=\frac{1}{2 \pi} \int _ { 0 } ^ { 2 \pi }X ( \Omega ) \mathrm { e } ^ { \mathrm {j} \Omega n }d \Omega$

四、离散傅里叶变换（DFT）

因DTFT在频域是连续的，我们需要在时域和频域都是离散的离散傅里叶变换，将长度有限的非周期信号 $x\left ( n\right )$ ， $x\left ( n\right )$ 长度为 $N$ ，以 $N$ 为周期，将 $x\left ( n\right )$ 延拓为周期信号 $x _ { p } ( n )$ ，则DFS为：

$X_p \left( k \Omega _ { 0 } \right) = \frac { 1 } { N } \sum _ { n = 0 } ^ { N - 1 } x_p ( n ) e ^ { - j k \Omega_ { 0 } n } \quad k = 0,1,2 , \cdots , N - 1$

$x_p ( n ) = \sum _ { k = 0 } ^ { N - 1 } X_p \left( k \Omega _ { 0 } \right) e ^ { j k \Omega _ { 0 } n }$

当 $X_p \left( k \Omega _ { 0 } \right)$ 和 $x _ { p } ( n )$ 都取主值区间 $0 \leq k \leq N - 1$ ，则：

$X \left( k \Omega _ { 0 } \right) = \frac { 1 } { N } \sum _ { n = 0 } ^ { N - 1 } x ( n ) e ^ { - j k \Omega_ { 0 } n } \quad k = 0,1,2 , \cdots , N - 1$

$x ( n ) = \sum _ { k = 0 } ^ { N - 1 } X \left( k \Omega _ { 0 } \right) e ^ { j k \Omega _ { 0 } n }$

将上式乘以 $N$ ，用频谱密度来表示，简称频谱：

$X \left( k \right) =\sum _ { n = 0 } ^ { N - 1 } x ( n ) e ^ { - j k \Omega_ { 0 } n } \quad k = 0,1,2 , \cdots , N - 1$

$x ( n ) =\frac{1}{N} \sum _ { k = 0 } ^ { N - 1 } X \left( k \right) e ^ { j k \Omega _ { 0 } n }$

因为 $X \left( k \right)$ 是频谱密度，所以，当 $k=0$ 时， $X \left( k \right)$ 对应的频率分量的波形峰值是 $\left |X \left( k \right) \right |\cdot N$ ，当 $k\neq 0$ 时， $X \left( k \right)$ 对应的频率分量的波形峰值是 $\frac{\left |X \left( k \right) \right |\cdot N}{2}$ 。因为负频率的 $X ( k )$ 和正频率共轭，所以当 $k$ 为偶数时，只给 $N/2+1$ 个点的频谱，最后一个点的频率为二分之一的采样频率，当 $k$ 为奇数时，只给 $\frac{N+1}{2}$ 个点的频谱，最后一个点的频率稍小于二分之一的采样频率。

五、奈奎斯特频率，频谱混叠和泄露

采样信号为

$x _ { s } ( t ) = x ( t ) \delta _ { \mathrm { T } } ( t ) = x ( t ) \sum _ { n = - \infty } ^ { \infty } \delta \left( t - n T _ { s } \right) = \sum _ { n = - \infty } ^ { \infty } x \left( n T _ { s } \right) \delta \left( t - n T _ { s } \right)$

对其做傅里叶变换得：

$X_ { s } \left( \omega \right) = \frac { 1 } { T_ { s } } \sum _ { n = - \infty } ^ { \infty } X \left( \omega - n \omega _ { s } \right)$

可知采样信号的傅里叶变换为原连续信号傅里叶变换周期延拓到以 $\pm \omega _ { s } , \pm 2 \omega _ { s },\cdots$ 为中心的频谱， $\omega _ { s }$ 为采样角频率，奈奎斯特频率（Nyquist频率）是采样频率的一半，原信号傅里叶变换频谱的边缘是它本身的最高频率 $\omega _ { m }$ ，容易看出来当 $\omega _ { s }\geqslant 2\omega _ { m }$ 才不会发生频谱混叠，也就是说奈奎斯特频率大于 $\omega _ { m }$ 即可。

频谱泄露，就是比如本来只有频率为 $\frac{1}{2}Hz$ 的分量，但是频谱中出现了和 $\frac{1}{2}Hz$ 相近的分量。举个例子说明吧。

比如说有一段连续的周期信号，周期为2s，那么这段连续周期信号的傅里叶变换的基频 $f_0=\frac{1}{2}$ （就是上一篇博客的基本角频率 $\omega _0$ ，其他频率分量的角频率都为 $\omega _0$ 的倍数， $f_0=\frac{\omega _0}{2\pi}$ ），也就是说其他频率分量的频率都是 $f_0=\frac{1}{2}$ 的整数倍，如果我们就截断2s的信号，那截断以后就是连续非周期信号了，那就要先周期延拓再做傅里叶变换，周期延拓后和截断前的信号一致，傅里叶变换也一致，频谱为一条线（在基频处有个分量）。如果截断4s的信号，周期延拓后和截断前的信号一致，傅里叶变换的基频为 $\frac{1}{4}$ ，那么频谱为一条线（在二倍频处有个分量），幅值与原来相同。但是如果截断3s的信号，周期延拓后在3s处有跳跃，容易产生高频分量，而且重要的是，傅里叶变换的基频为 $\frac{1}{3}$ ，按道理说频谱应该在1.5倍频处有个幅值，但是频谱中没有1.5倍频，只有1倍频，2倍频，那么频谱就会以1.5为中心的其他整数倍频处有分量，越靠近1.5幅值越大，和原来的不一致了！这就是频谱泄露！如下图所示：

根本解决方法是 $x(n)$ 必须取自一个基本周期或基本周期的整数倍为宜。但有的时候我们截断的时候不知道基本周期，这时可以加长截取时间段，信号多一点能多代表一下整段信号吧，也可以加汉明窗等等窗函数，窗函数主要是减少旁瓣。可以参考下面几个网址看细致的分析和图，内容都类似，总有一个能打开：

http://www.ni.com/white-paper/4844/zhs/

https://zhuanlan.zhihu.com/p/24318554

http://zhangzhenyuan163.blog.163.com/blog/static/85819389201410112942281/

http://www.ilovematlab.cn/thread-30099-1-1.html

http://www.chinaaet.com/article/15991

六、举个DFT的例子吧，通俗解释一下

1. 采样得到一段离散的信号，用包含100个数字的数字序列表示，其中前12个数字如下所示：

1.00, 0.62, -0.07, -0.87, -1.51, -1.81, -1.70, -1.24, -0.64, -0.15, 0.05, -0.10

我们将上述数字序列用 $x\left ( n \right )$ 表示， $n$ 为某个数字在序列中的下标，如 $x ( 0 ) = 1.00$ ， $x ( 1 ) = 0.62$ 等。这里我们期待使用的信号是零均值信号，即数字序列的平均值为0，相当于每个数字减去了数字序列的平均值（下文会解释为什么这样做）。

我们希望求得一系列频率分量，将信号从时域转化到频域，使得上述数字序列为一系列频率分量之和。

2. 其次，什么是信号相关性？

下面这个公式不是严格意义上的相关性计算公式，只能说是在信号是零均值的情况下，一定程度上能反应相关性。

$\sum _ { i = 0 } ^ { N } x ( i ) y ( i )$

有两个信号 $x$ 和 $y$ ，在信号是零均值的情况下，一定程度上他们越相关（比如同正同负），所求的和越大，但不绝对。例如下面的图a相关性大，和大，图b相关性小，和小。

3. 下面来解释离散傅里叶变换的公式！

$X ( k ) = \sum _ { n = 0 } ^ { N - 1 } x ( n ) e ^ { -j 2 \pi k n / N },k=0,1,\cdots ,N-1$

$X ( k )$ 代表的是某个频率分量的系数，这个式子很想上面求相关性的式子呀，求得是 $x(n)$ 和 $e ^ { - j2 \pi k n / N }$ 的相关性，那到底是什么意思呢？先引入欧拉公式：

$e ^ { - j \theta } = \cos \theta - j \sin \theta$

令 $\theta = 2 \pi k n / N$ ，则：

$X ( k ) = \sum _ { n = 0 } ^ { N - 1 } x ( n ) ( \cos ( 2 \pi k n / N ) - j\sin ( 2 \pi k n / N ) )$

$X ( k ) = \sum _ { n = 0 } ^ { N - 1 } x ( n ) \cos \left( \frac { 2 \pi k n } { N } \right) - j \left[ \sum _ { n = 0 } ^ { N - 1 } x ( n ) \sin \left( \frac { 2 \pi k n } { N } \right) \right]$

可以看到 $X ( k )$ 是个复数，被分为两部分，实轴为 $x(n)$ 和某个频率的余弦函数的相关性，虚轴为 $x(n)$ 和某个频率的正弦函数的相关性。

4. 当 $k$ 变化的时候，上述相关性的意义到底是什么呢？

$k=0$ ，

$\begin{aligned} X ( 0 ) & = \sum _ { n = 0 } ^ { N - 1 } x ( n ) \cos \left( \frac { 2 \pi 0 n } { N } \right) + j \sum _ { n = 0 } ^ { N - 1 } x ( n ) \sin \left( \frac { 2 \pi 0 n } { N } \right) \\ & = \sum _ { n = 0 } ^ { N - 1 } x ( n ) +j \sum _ { n = 0 } ^ { N - 1 } 0 \end{aligned}$

意味着当分量频率为0的时候（即为一条直线），该分量的系数为数字序列中所有数字之和。

$k=1$ ，

$\begin{aligned} X ( 1 ) & = \sum _ { n = 0 } ^ { N - 1 } x ( n ) \cos \left( \frac { 2 \pi 1 n } { N } \right) +j \sum _ { n = 0 } ^ { N - 1 } x ( n ) \sin \left( \frac { 2 \pi 1 n } { N } \right) \\ \end{aligned}$

$\cos \left( \frac { 2 \pi 1 n } { N } \right)$ 代表什么？当 $n$ 从 $0$ 到 $N-1$ 的时候， $\frac { 2 \pi 1 n } { N }$ 从0到 $2 \pi$ 呀！这代表了所有的采样点仅代表一个周期！看下图a，正弦波是不是只有一个周期。图b代表上式的实数部分，图c代表上式的虚数部分。

$k=3$ ，

$\begin{aligned} X ( 1 ) & = \sum _ { n = 0 } ^ { N - 1 } x ( n ) \cos \left( \frac { 2 \pi 3 n } { N } \right) + j \sum _ { n = 0 } ^ { N - 1 } x ( n ) \sin \left( \frac { 2 \pi 3 n } { N } \right) \\ \end{aligned}$

$\cos \left( \frac { 2 \pi 3 n } { N } \right)$ 代表什么？当 $n$ 从 $0$ 到 $N-1$ 的时候， $\frac { 2 \pi 3 n } { N }$ 从0到 $6 \pi$ 呀！这代表了所有的采样点仅代表三个周期（ $2 \pi\ast 3$ 可不就是三个周期吗）！看下图a，正弦波是不是只有三个周期。

$k=N-1$ ，所有的 $N$ 个采样点代表了 $N-1$ 个周期，约等于1个采样点代表一个周期，那么这个分量的周期是不是等于约采样周期了！这个分量的频率是不是约等于采样频率 $f_s$ 了！

这时你再回看一下 $k=0$ ， $k=1$ ， $k=3$ ，有没有发现，当从0到 $N-1$ 时，频率分量的频率从0到 $f_s$ 了！并且 $k$ 对应的分量频率为 $f = \frac { k \times \mathrm { f_s } } { N }$ ，均匀分布哦！这个结论很重要哦！在求MFCC特征时会用到！

5.能量密度谱

能量密度谱为

$E\left ( k \right )= \frac{\operatorname { Re } ( X ( k ) ) ^ { 2 } + \operatorname { Im } ( X ( k ) ) ^ { 2 }}{N}$

看上面的帕斯瓦尔公式。

上面已经解释过（具体的证明类似连续信号中的证明），当 $x\left ( n \right )$ 均为实数时，负频率的 $X ( k )$ （对应的 $\pi$ 到 $2\pi$ ，或者说 $-\pi$ 到0）是正频率（对应的0到 $\pi$ ）的共轭， $P(k)=P(N-k)$ 即， $P(k)$ 基于 $k=N/2$ 成轴对称。比如说做一个 $N=512$ 的DFT，因为负频率的 $X ( k )$ 和正频率共轭，所以只给 $N/2+1$ 个点的频谱，即257，因为多给没有意义啊，共轭的模是一样的。