1. 信息系统及安全对抗实验中心首页
  2. 其他

走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

我们人类是可以轻易地分辨声音的种类,但很难有人能说清楚人们分辨声音种类的原理。

很难吗?好吧,我尝试总结一下:耳膜可以感受到空气中声波所传递的压强变化,进而由神经传导给大脑,然后……然后就没有然后了,因为我们对于大脑学习机理的认知目前还不足以解释这些问题。

那么,计算机是依靠什么来分辨声音种类的呢?

我们都知道,音频在计算机的存储是以数字方式进行的,而这个数字,是如何得到的呢?没错,就是数模转换器。麦克风或者模拟信号的输入信号,通过数模转换,变成量化的数字信号,用横轴表示时间,纵轴表示声音能量的大小,就是而我们常见的波形图,也就是下面这个样子:
走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

下面的图是另一段音频的样子:

走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

你能看出这两段音频的差异么?比较难是吧!第一幅图的是一段外文电影的音频,而下面这幅图,是蜂群飞舞的声音。差别挺大是吧!可是从波形图上看上去,这两段音频似乎没啥区别啊?于是,一位困扰了很多通信类本科生的老先生出马了,他就是——傅里叶。

通过傅里叶变换,我们可以得到语谱图。语谱图就是以时间为横轴、频率为纵轴,以颜色的明亮程度表示能量大小的图像(颜色越暗,表示能量越小,颜色越亮,表示能量越大)。频率可以和平常的听觉联系起来,频率高的信号,耳朵听起来比较刺耳,频率低的信号,听上去比较低沉。
从语谱图中,我们可以轻易地看出上面两段音频的差异。

这是电影音频的语谱图:

走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

这是蜂群飞舞音频的语谱图:

走近特定音频识别(之二)——计算机是靠什么来分辨声音种类的?

怎么样,这下很清楚了是吧!

    计算机就是依靠傅里叶变换之后的数据,来进行音频识别的。
    可是计算机也没有长眼睛,它是如何进行判别的呢?且听下回分解:)

原创文章,作者:BFS,如若转载,请注明出处:https://www.isclab.org.cn/2014/10/31/%e8%b5%b0%e8%bf%91%e7%89%b9%e5%ae%9a%e9%9f%b3%e9%a2%91%e8%af%86%e5%88%ab%ef%bc%88%e4%b9%8b%e4%ba%8c%ef%bc%89%e2%80%94%e2%80%94%e8%ae%a1%e7%ae%97%e6%9c%ba%e6%98%af%e9%9d%a0%e4%bb%80%e4%b9%88%e6%9d%a5/