natide 个人主页

@natide

natide

2023-11-10 16:11:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

图结构差异-1-邻域重叠率（Neighborhood Overlap）

摘要：邻域重叠率是衡量网络节点结构相似性的核心指标，通过计算节点共同邻居与全部邻居的比例（范围0-1）来量化相似程度。该指标计算简单、解释性强，适用于链接预测、社交网络分析等场景，但存在局部性限制和对稀疏图敏感等缺点。主流框架中，NetworkX原生支持该指标，igraph需手动实现，PyG则需结合其他库使用。实际应用中，邻域重叠率常作为特征用于图机器学习任务或社交网络分析。

#人工智能 #机器学习 #深度学习 +2

表示/嵌入差异-6-跨知识图谱嵌入偏移（Cross-KG Embedding Shift）

本文介绍了跨知识图谱（Cross-KG）学习的核心原理与方法。针对不同来源知识图谱的结构异构性问题，提出通过将多个KG映射到同一向量空间实现语义对齐。关键技术包括：基础嵌入生成、锚点对选取、偏移量计算和嵌入空间对齐。文章分析了该方法的优势（利用图结构、处理异构性）与局限（依赖种子对齐、动态适配差），并推荐了PyKEEN等实现框架。典型应用场景包括跨KG实体对齐、多源知识补全和跨语言KG融合。最后提

#知识图谱 #机器学习 #自然语言处理 +1

词汇/表达差异-3-海明距离（Hamming distance）

海明距离（Hamming Distance）是一种简单而高效的度量方法，用于衡量两个等长字符串（或二进制序列）在相同位置上不同字符的数量。

#人工智能 #深度学习 #自然语言处理 +3

RuntimeError: CUDA error: device-side assert triggered

摘要：在训练序列到序列模型时出现CUDA设备端断言错误。通过设置CUDA_LAUNCH_BLOCKING=1同步模式定位到问题发生在torch.nn.functional.embedding层。经检查发现错误原因是SentencePiece词表中的pad_id被错误设置为-1，这源于训练词表时使用了--user_defined_symbols参数但未正确设置ID。解决方案是重新训练词表，删除--u

#深度学习 #pytorch

表示/嵌入差异-1-欧几里得距离（Euclidean Distance）-L2 距离（L2 distance）-欧式距离的标准化

本文系统介绍了欧几里得距离的原理与应用。首先明确了L2范数与欧氏距离的区别，指出后者适用于向量比较。详细阐述了欧氏距离的数学定义及其在低维空间的几何解释，强调标准化处理的必要性，并介绍了三种标准化方法：特征级（Z-score、Min-Max）、距离级和协方差标准化。分析了欧氏距离的优缺点，指出其适合低维稠密数据但存在维度灾难等问题。最后比较了NumPy、SciPy、scikit-learn、FAI

#算法 #人工智能 #深度学习 +3

词汇/表达差异-11-Rule-based（基于规则）

摘要： Rule-based方法是基于预定义逻辑规则进行实体匹配的确定性方法，主要类型包括字符规则、同义规则、本体约束等。其流程包含数据预处理、规则集定义和规则引擎构建。优势在于高精度、可解释性强、无需训练数据，但存在低召回率、维护成本高的缺点。适用于结构化数据清洗、特定领域实体解析等场景，常与机器学习方法结合使用。优化策略包括规则优先级设置、自动化更新和冲突检测。Rule-based作为AI经典

#人工智能 #机器学习 #深度学习 +2

词汇/表达差异-10-LSH（局部敏感哈希）

LSH（局部敏感哈希）技术概述 LSH是一种高效的高维数据近邻检索方法，通过特殊设计的哈希函数使相似数据大概率映射到相同哈希桶。其核心原理是利用AND/OR构造实现概率放大，通过调整波段(b)和行数(r)平衡查全率与查准率。相比传统两两比较方法，LSH可将复杂度从O(N×D)降至近O(N)。该技术特别适合文本去重、推荐系统等场景，但存在参数调优复杂、不保证100%召回等局限。主流实现包括datas

#哈希算法 #算法 #深度学习 +4

到底了