logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文本相似性算法:Simhash算法原理及实践

 simhash(局部敏感哈希)的原理simhash的背景 simhash广泛的用于搜索领域中,也许在面试时你会经常遇到这样的问题,如果对抓取的网页进行排重,如何对搜索结果进行排重等等。随着信息膨胀时代的来临,算法也在不断的精进,相似算法同样在不断的发展,接触过lucene的同学想必都会了解相似夹角的概念,那就是一种相似算法,通过计算两个向量的余弦值来判断两个向量的相似性,但这种方式需...

距离(distance)算法小结

18种和“距离(distance)”、“相似度(similarity)”相关的量的小结在计算机人工智能领域,距离(distance)、相似度(similarity)是经常出现的基本概念,它们在自然语言处理、计算机视觉等子领域有重要的应用,而这些概念又大多源于数学领域的度量(metric)、测度(measure)等概念。 这里拮取其中18种做下小结备忘,也借机熟悉markdown的数学公式语法...

多线程(三)工作空间

1、首先解读Java内存模型(这里区别于JVM的内存模型,堆、栈、工作区)  Java 内存模型来屏蔽掉各种硬件和操作系统的内存差异,达到跨平台的内存访问效果。JLS(Java语言规范)定义了一个统一的内存管理模型JMM(Java Memory Model)  Java内存模型规定了所有的变量都存储在主内存中,此处的主内存仅仅是虚拟机内存的一部分,而虚拟机内存也仅仅是计算机物理内存的一部分...

ChromeDriver启动Chrome浏览器后,地址栏只显示data;——chromeDriver版本不对

chromeDriver版本不对,不同版本的chromeDriver对应不同版本的chrome浏览器chromedriver下载地址:http://chromedriver.storage.googleapis.com/index.html解决方法:找到自己chrome浏览器适合的chromeDriver版本去官网(我没爬墙就直接能下了)下载并且

多线程(三)工作空间

1、首先解读Java内存模型(这里区别于JVM的内存模型,堆、栈、工作区)  Java 内存模型来屏蔽掉各种硬件和操作系统的内存差异,达到跨平台的内存访问效果。JLS(Java语言规范)定义了一个统一的内存管理模型JMM(Java Memory Model)  Java内存模型规定了所有的变量都存储在主内存中,此处的主内存仅仅是虚拟机内存的一部分,而虚拟机内存也仅仅是计算机物理内存的一部分...

java中类加载classLoader时机(啥时间开始的?)

java虚拟机规范虽然没有强制性约束在什么时候开始类加载过程,但是对于类的初始化,虚拟机规范则严格规定了几种情况必须立即对类进行初始化,如果类没有进行过初始化,则需要先触发其初始化。在触发初始化是会有加载和连接(验证,准备,解析)阶段(不懂的看这个文章:https://blog.csdn.net/xiao1_1bing/article/details/81120787)。生成这几种最常见的jav.

到底了