转自:http://kkx.github.io/blog/2012/09/08/gao-du-xiang-si-tu-pian-jian-ce-introduction/



Near-duplicate image(高相似图片)的检测不比完全一样的图片检测来的简单,后者可以直接用哈希生成像MD5类似的指纹,然后保存每个图片的时候也保存那个指纹,这样在查找的时候只要比对指纹就可以了,这样的话速度上会有很大的提升。

那用什么样的办法能有效的比对图片的相似度呢? 方法有很多。 首先要说的一点是,在比对的时候,速度是非常重要的,所以,一般都是通过指纹(fingerprint)技术把一张图片合理的压缩成一个容量占用很小的方便计算相似度的数据集。 前面说过md5是不能用在这里的,为什么呢?因为一个微小的变化会是两个图片之间的MD5完全不一样。而在这里要做的是:

  • 相同图片的指纹要一样
  • 类似图片的指纹也要类似
  • 完全不相同的图片指纹的差别很大

做到以上几点,那么图片的相似度的识别就完成了,但是要找到一个函数f做到以上这种方法很难。这也是这里要慢慢探索的。


Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐