
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
表示/嵌入差异-1-欧几里得距离(Euclidean Distance)-L2 距离(L2 distance)-欧式距离的标准化
本文系统介绍了欧几里得距离的原理与应用。首先明确了L2范数与欧氏距离的区别,指出后者适用于向量比较。详细阐述了欧氏距离的数学定义及其在低维空间的几何解释,强调标准化处理的必要性,并介绍了三种标准化方法:特征级(Z-score、Min-Max)、距离级和协方差标准化。分析了欧氏距离的优缺点,指出其适合低维稠密数据但存在维度灾难等问题。最后比较了NumPy、SciPy、scikit-learn、FAI
词汇/表达差异-11-Rule-based(基于规则)
摘要: Rule-based方法是基于预定义逻辑规则进行实体匹配的确定性方法,主要类型包括字符规则、同义规则、本体约束等。其流程包含数据预处理、规则集定义和规则引擎构建。优势在于高精度、可解释性强、无需训练数据,但存在低召回率、维护成本高的缺点。适用于结构化数据清洗、特定领域实体解析等场景,常与机器学习方法结合使用。优化策略包括规则优先级设置、自动化更新和冲突检测。Rule-based作为AI经典
词汇/表达差异-10-LSH(局部敏感哈希)
LSH(局部敏感哈希)技术概述 LSH是一种高效的高维数据近邻检索方法,通过特殊设计的哈希函数使相似数据大概率映射到相同哈希桶。其核心原理是利用AND/OR构造实现概率放大,通过调整波段(b)和行数(r)平衡查全率与查准率。相比传统两两比较方法,LSH可将复杂度从O(N×D)降至近O(N)。该技术特别适合文本去重、推荐系统等场景,但存在参数调优复杂、不保证100%召回等局限。主流实现包括datas
到底了







