人脑是怎样认知图像的?——成分识别理论(最新模式识别之三)
2007-09-19 16:08
文章来源反演集合数学博客  http://hi.baidu.com/liujianz
作者是刘建忠
Biederman(1987)在Marr和Nishihara(1978)的理论的基础上提出了成分识别理论(recognition-by component theory)。该模型基于这样一种观点,通过把复杂对象的结构拆分为称做简单的部件形状,就可以进行模式识别。
这一理论的中心假设是,物体是由一些基本形状(shapes)或成分(components),也就是几何离子(geon)组成。几何离子包括方块(block)、圆柱(cylinder)、球面(sphere)、圆弧(arc)、楔子(wedge)。他认为几何离子大约有36种。
几何离子与特征说中的特征非常相似。“几何离子”:容积本质、形状本质(三维)而非线或角的本质(二维)。
几何离子能够对物体进行充分描述,部分原因是几何离子间的各种空间关系可形成很多种组合,足以让我们识别所有物体。如杯子和水桶:圆弧和圆柱。(英文单词:我们在只有44个因素的情况下仍然可识别数量巨大的英文单词,原因是这些因素具有几乎无限的组合形式。几何子也类似)。
按照的Biederman模型,我们是通过感知或恢复基本的几何离子来识别物体的。如果出现了足够的信息,我们能够觉察出几何离子,那么就能识别物体。但是,如果给我们呈现信息的方式不能让我们觉察出个别的原始离子,就不能识别物体。
几何离子一旦得到分析,它们就和长时记忆中的表征进行匹配,这种匹配是自动化的,具有很快的速度,同时又是很强的,即使在不利的条件下进行观察,也能产生正确的识别。
包含的程序:
第一步是边缘抽取(edge extraction)。是对亮度、纹理和颜色这些表面特征的差异作出发应,并对物体作线条描述(line drawing description)。
第二步是确定一个视觉物体怎样被分解成一些片断,去建立它所构成的成分或几何子。他同意Marr&Nishihara的观点,物体轮廓的凹面部分把表象分解成一些片断很有价值。
另一个关键过程是确定哪些来自物体边缘信息有独立于观察角的关键特征。他认为有关于边缘的不变性特征(invariant properties):曲率(curvature)、平行(parallel)、共端性(co termination)、共线性(co-linearity)。
根据这一理论,可视物体的成分或几何子是基于以上不变性特征而建构起来的。
与不变性相关的重要部分是他所提出的非偶然原则(non-accidental principle)。根据这一原则,蕴含于视觉图像中的哪些规律反应了客观世界实际的(或非偶然的)规律性,而不是依赖于一个给定观察点的次要特征。
非偶然性原则有助于物体识别,但偶尔也会导致错误。
任何正确的物体识别理论都必须考虑捆绑问题(binding problem)。所谓捆绑问题是指,当几个物体同时呈现时,我们必须确定哪些特征或几何子分别属于哪些物体。
Hummel&Beiderman(1992)建构了联结主义网络模型,这一模型是由7个层次组成,其输入是一个物体的素描图,而输出则是代表这个物体的单元。那些对某一物体来说具有代表性特征的单元会通过一些快速连线而连接起来,这种策略可保证所有相关单元在同一时间激活。
总的来说,对Biederman(1987)提出的这类理论还是有些实验支持的。然而,该理论的中心假设并没有得到直接证明。例如,并无信服的证据支持Biederman提出的36个成分或几何离子确实构成了物体识别的主体框架。
评论:
物体识别的许多理论(近期理论)提出物体识别依赖于以下一系列加工过程:边缘编码、对更高层次特征的组合或编码、对贮存的结构性知识进行匹配、提取语义知识。
在关于三维物体识别的复杂性方面,这些理论相对于那些更强调实际情况的早期理论具有较大优势。RBC模型能解释模式识别的某些实验结果,而且用成分及关系来描述模式识别,也有利于在计算机上模拟人的模式识别。近年来,有人将这一模型应用到汉字识别中(黄荣村,1992),认为汉字也是通过成分及其关系的确认来识别的。但什么是汉字的基本成分——几何离子,汉字包含着哪些关系,是一些尚待进一步研究的问题。
同时,理论还存在以下局限性:
1)  对那些具有清晰识别成分的物体来说理论很有效,但当物体不具备这些特征时理论就不怎么适用。
2)Biederman提出基于边缘的抽取加工可提供物体识别所需的足够信息,且对这一假说提出了实验证据,然而Sanocki获得了非常有力的证据支持边缘信息常常不足以满足物体识别的加工条件这一观点。
3)理论强调的观点:物体识别涉及一个把以目标为中心的、独立于观察位置的表征与贮存于长时记忆中的目标信息进行匹配的过程。Biederman等人自己的发现支持了这一假设,但其他相关研究没有支持它。
4)Biederman以及其他研究者所提出的理论只对相当粗糙的知觉辨认问题(如判断呈现于面前的动物是一只狗还是一头牛)进行了解释,很少涉及同类目标的精细知觉辨认问题。(例如,同样的那些几何离子被用来描述几乎任何一个杯子,但事实是我们可很容易地识别我们日常所用的那个杯子。)
5)这些理论也不重视情景在物体识别中所扮演的重要角色。实验:Palmer(1975)先向被试呈现一情景画面(如厨房),然后快速呈现一目标图片;或不呈现任何情景画面。目标图片与情景画面有时相称(如面包),有时不相称(如信箱或圆鼓)。结果,情景对物体识别的正确率具有系统性影响,即当相称时,识别成绩最好;无情景次之;不相称时,成绩最低。
 
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐