logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

相似度计算方法-皮尔逊相关系数 (Pearson Correlation Coefficient)

皮尔逊相关系数(Pearson correlation coefficient)是一种统计度量,用于量化两个变量之间的线性关系强度和方向。对于两个变量和,它们的观测值分别为和,皮尔逊相关系数可以用以下公式计算:这里:是变量的平均值;是变量的平均值;是变量和变量在第个观测值处的偏差乘积;和分别是变量和变量的偏差平方和。

文章图片
#算法
双数组字典树(DoubleArrayTrie)

双数组字典树(Double-Array Trie)是一种高效的字符串检索数据结构,它结合了Trie树的快速查找特性和数组的紧凑存储优势。这种数据结构主要用于实现高速字符串匹配,特别适合处理大规模字典和自然语言处理任务。

文章图片
#数据结构#java
AC自动机-2(AhoCorasickDoubleArrayTrie)

AhoCorasickDoubleArrayTrie的构建可能会消耗大量内存,在实际使用中,可以先在一个大内存的机器上构建好AC DAT,序列化成文件,然后在使用的节点上直接反序列进行试用,正如 hanlp实现中的save和load方法。可以看到,其构建过程首先构造了一个普通的Trie树,然后基于这个普通Trie树构建了DAT,在构建DAT的过程中,也给先前构建好的普通Trie树添加了DAT的索引

文章图片
#算法#数据结构
FST(Finite State Transducer)

有限状态转换器(Finite State Transducer,简称FST)是一种计算模型,它是有限状态自动机(Finite State Automaton,简称FSA)的扩展。FSA是一种理论计算模型,用于表示和处理正则语言,它包含一组状态和在这些状态之间的转换,通常用于模式匹配、文本搜索等任务。与FSA不同的是,FST不仅接受输入字符串,还能产生输出字符串,因此它可以用于建模输入和输出之间的关

文章图片
#数据结构
到底了