最近AI很火,深度学习作为核心理念被众人所知,因为我一直从事音视频行业,音视频(听觉与视觉)本来就是人类与外界交互的接口,而AI其实也就是要在机器上模拟人类与外界交互的方式,因此人工智能主要主要输入信号也是两个:图像和音频。

    传统的模式识别里面,主要是对信号进行特征提取,然后对特征进行识别,这样既能减除大部分无谓的干扰,又能降低识别的运算量。所谓特征就是信号的本质,本质总是能通过各种形式表现出来,表现形式就是信号本身,我对信号本质进行抽取,也就是特征。

    提取特征最简单的方式就是正交变换,正交变换是无损的特征提取,可以在信号与特征之间互相转换。正交变化具有能量集中特点,也就是能把决大部分信息集中到很小的数据量上,这个也是稀疏编码的概念。如果可以接受细微的差别,我只处理前面重要特征即可,音视频压缩也用到 这个性质。

    大家熟知的一种正交变换就是傅里叶变换,他能把信号转换到频率域,也就是将信号拆分成多个正弦信号,所以他的正交基组是正弦函数。其实也可以理解给定信号在正弦基组上的投影,变换的结果就是某些频率点能量较大,大部分频率点能量很小,这样就行了能量集中,形成了一种稀疏表示,我们信号处理就方便很多。

    当时学习图像DCT变换的时候,我就在想,既然DCT具有能量集中的效果,那么我对DCT结果再进行DCT变换,是不是就更集中呢,这样形成一个链条,数据就越来越集中,最后给定一个信号,只用一个频率值就能表示,然后反复逆变换就可以得到信号,这个压缩率将有大大的提高,识别也方便很多。然后我就开始去尝试对DCT变换结果再进行DCT变换,然后发现跟之前结果一致,但是就郁闷了,不知道问题出在什么地方,然后就放弃。

    直到最近看深度学习网络相关理论知识,才突然顿悟,我当时之所以没有得到想要的结果,是因为我第二次变换所用的基组是一样的,在同样的基组让做投影,当然数据结果一样,相单于一个坐标基里面重新画了数据而已。而深度学习里面的学习网络一层正是一个类正交变换,每一层将输入信号的输出一个稀疏表示,然后层层相连,并传递下去,到最后数据将变得极其稀疏,直接就可以识别分类。

    虽然感性认识了深度学习网络的基本原理,但是各个层级之间该怎级联,每层该用什么变换,目前并没有数学证明,现在只是用大量的数据并结合反向传播算法来训练每层变换的正交基。这个也许等哪一天数学家们证明了数据什么基组级联能得到唯一稀疏表示,那么人工智能将发生质的飞跃,并为人类所控。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐