
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文系统介绍了NLP中的词嵌入技术发展历程。首先讲解了Word2Vec的Skip-Gram和CBOW模型原理及其在中文文本的应用;然后介绍了融合全局统计的GloVe模型,并给出代码实践;针对传统词嵌入的缺陷,分析了FastText子词嵌入和BPE字节对编码的优势;最后重点阐述了上下文敏感的预训练模型BERT,包括其双向编码特性、输入表示方法以及中文分词器的具体使用方法。通过从静态词嵌入到动态上下文
南京大学周志华院士《机器学习导论》第9章 聚类。从聚类的性能度量,距离计算开始,介绍了原型聚类迭代优化模型、密度聚类样本扩展,层次聚类每次把最近的簇合并,三大类思想。以及EM,k-means,学习向量量化,高斯混合聚类,DBSCAN,AGNES等经典算法。
本文介绍了两种文本分类方法在有毒评论检测任务中的应用。方法一采用TF-IDF特征提取结合朴素贝叶斯和逻辑回归,首先通过TF-IDF计算词权重,再计算每个词对标签的贡献对数先验比,最后用逻辑回归进行分类。方法二使用Tokenizer和GloVe词嵌入,构建神经网络模型(包含嵌入层、GRU层、卷积层和池化层),通过Sigmoid输出多标签概率。
本文摘要了牛客网AI算法工程师,深度学习和机器学习中的关键算法实现。深度学习部分包括LogSoftmax函数、KL散度计算、自注意力机制、RNN/LSTM网络实现;机器学习部分涵盖线性回归梯度下降、特征标准化、损失函数计算(MSE/MAE/Huber/余弦)、岭回归、数据洗牌以及鸢尾花分类任务。
关联规则挖掘是大数据时代发现商品间隐含关系的关键技术。本文系统介绍了关联规则的基本定义(支持度、置信度)及主流算法:Apriori通过“频繁项集子集必频繁”原理剪枝;DHP算法引入哈希表加速筛选;FP-growth构建FP树实现高效挖掘。进一步探讨了Closed/Maximal频繁项集的精简表示、跨层级/多维度的关联规则挖掘方法,并指出需警惕虚假关联(提升率分析)。经典的“啤酒与尿布”案例印证了该
本文介绍了木薯叶病害分类的Kaggle竞赛解决方案。项目使用ResNet50模型,通过数据增强、交叉验证和混合精度训练等技术处理类别不平衡问题。关键步骤包括:1)数据预处理与分层K折划分;2)Albumentations库进行图像增强;3)自定义ResNet模型架构;4)训练循环结合梯度裁剪和余弦退火学习率调度;5)五折交叉验证集成平均预测。最终模型能有效分类5种叶片状态(4种病害+健康状态),为
本文系统梳理了人工智能领域的三个关键技术方向:终身学习、网络压缩和可解释性AI。在终身学习部分,重点探讨了灾难性遗忘问题及其解决方案,包括选择性突触可塑性和GEM梯度记忆等方法。网络压缩章节详述了剪枝、知识蒸馏、参数量化等五种参数优化技术。可解释性AI部分则从局部解释(显著图、中间层分析)和全局解释(滤波器可视化)两个维度,阐述了提升模型可解释性的方法。全文通过理论分析与实践技术相结合,为构建高效
本研究比较了Apriori、FP-Growth和暴力枚举三种关联规则挖掘算法在商品交易数据集上的表现。通过网格搜索不同支持度(0.01-0.075)和置信度(0-0.55)参数组合,评估了各算法在频繁项集数量、规则数量、运行时间和内存使用方面的性能。
本文介绍了自监督学习及其在NLP、语音和图像处理中的应用。自监督学习通过将未标注数据分为输入和标签两部分进行预训练。重点介绍了BERT模型的双向编码器表示及其预训练任务(掩码预测和句序判断),以及其在情感分析、词性标注等下游任务中的微调应用。相比传统静态词向量,BERT能生成动态的语境化词嵌入。文章还探讨了多语言BERT的中英文互转能力,以及自监督学习在语音和图像中的应用(如对比学习)。此外,介绍
图数据作为表示实体间复杂关系的天然模型,其相似性度量是图聚类、分类与检索等任务的核心基础。本文系统综述了图距离计算的关键方法。主要路径分为两类:其一为基于结构的精确匹配,包括子图同构算法(如Ullmann)以及衍生的最大公共子图和图编辑距离,该方法精确但计算复杂度高;其二为基于特征的近似度量,通过提取图拓扑指数或利用图核函数,将图结构转化为数值特征进行高效比较。本文分析了各类方法的优劣与适用场景,







