logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

图结构差异-1-邻域重叠率(Neighborhood Overlap)

摘要:邻域重叠率是衡量网络节点结构相似性的核心指标,通过计算节点共同邻居与全部邻居的比例(范围0-1)来量化相似程度。该指标计算简单、解释性强,适用于链接预测、社交网络分析等场景,但存在局部性限制和对稀疏图敏感等缺点。主流框架中,NetworkX原生支持该指标,igraph需手动实现,PyG则需结合其他库使用。实际应用中,邻域重叠率常作为特征用于图机器学习任务或社交网络分析。

#人工智能#机器学习#深度学习 +2
表示/嵌入差异-6-跨知识图谱嵌入偏移(Cross-KG Embedding Shift)

本文介绍了跨知识图谱(Cross-KG)学习的核心原理与方法。针对不同来源知识图谱的结构异构性问题,提出通过将多个KG映射到同一向量空间实现语义对齐。关键技术包括:基础嵌入生成、锚点对选取、偏移量计算和嵌入空间对齐。文章分析了该方法的优势(利用图结构、处理异构性)与局限(依赖种子对齐、动态适配差),并推荐了PyKEEN等实现框架。典型应用场景包括跨KG实体对齐、多源知识补全和跨语言KG融合。最后提

#知识图谱#机器学习#自然语言处理 +1
词汇/表达差异-3-海明距离(Hamming distance)

海明距离(Hamming Distance)是一种简单而高效的度量方法,用于衡量两个等长字符串(或二进制序列)在相同位置上不同字符的数量。

#人工智能#深度学习#自然语言处理 +3
RuntimeError: CUDA error: device-side assert triggered

摘要:在训练序列到序列模型时出现CUDA设备端断言错误。通过设置CUDA_LAUNCH_BLOCKING=1同步模式定位到问题发生在torch.nn.functional.embedding层。经检查发现错误原因是SentencePiece词表中的pad_id被错误设置为-1,这源于训练词表时使用了--user_defined_symbols参数但未正确设置ID。解决方案是重新训练词表,删除--u

#深度学习#pytorch
表示/嵌入差异-1-欧几里得距离(Euclidean Distance)-L2 距离(L2 distance)-欧式距离的标准化

本文系统介绍了欧几里得距离的原理与应用。首先明确了L2范数与欧氏距离的区别,指出后者适用于向量比较。详细阐述了欧氏距离的数学定义及其在低维空间的几何解释,强调标准化处理的必要性,并介绍了三种标准化方法:特征级(Z-score、Min-Max)、距离级和协方差标准化。分析了欧氏距离的优缺点,指出其适合低维稠密数据但存在维度灾难等问题。最后比较了NumPy、SciPy、scikit-learn、FAI

#算法#人工智能#深度学习 +3
词汇/表达差异-11-Rule-based(基于规则)

摘要: Rule-based方法是基于预定义逻辑规则进行实体匹配的确定性方法,主要类型包括字符规则、同义规则、本体约束等。其流程包含数据预处理、规则集定义和规则引擎构建。优势在于高精度、可解释性强、无需训练数据,但存在低召回率、维护成本高的缺点。适用于结构化数据清洗、特定领域实体解析等场景,常与机器学习方法结合使用。优化策略包括规则优先级设置、自动化更新和冲突检测。Rule-based作为AI经典

#人工智能#机器学习#深度学习 +2
词汇/表达差异-10-LSH(局部敏感哈希)

LSH(局部敏感哈希)技术概述 LSH是一种高效的高维数据近邻检索方法,通过特殊设计的哈希函数使相似数据大概率映射到相同哈希桶。其核心原理是利用AND/OR构造实现概率放大,通过调整波段(b)和行数(r)平衡查全率与查准率。相比传统两两比较方法,LSH可将复杂度从O(N×D)降至近O(N)。该技术特别适合文本去重、推荐系统等场景,但存在参数调优复杂、不保证100%召回等局限。主流实现包括datas

#哈希算法#算法#深度学习 +4
到底了