logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

3 大语言模型预训练数据-3.2 数据处理-3.2.3 隐私消除——使用正则表示方法过滤个人隐私信息数据(包括邮件、电话、地址等)

摘要: 本文介绍使用正则表达式在大模型数据处理中过滤个人隐私信息的方法。通过模式匹配识别邮箱、电话、地址等敏感信息,并给出常见正则模式(如中国手机号1[3-9]\d{9})和Python实现示例。该方法高效灵活,但需注意误判漏判问题,建议结合关键词过滤和机器学习优化精度,同时遵守隐私法规。正则表达式结合其他技术可有效平衡数据可用性与隐私保护需求。

#语言模型#人工智能#自然语言处理
已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst

已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

#python#opencv
大模型训练与微调(5)——微调方法总结 与 选择建议

大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。

#语言模型#人工智能#自然语言处理 +1
已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst

已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘

#python#opencv
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——1.SimHash算法处理冗余信息的核心原理

SimHash是一种局部敏感哈希算法,主要用于文本去重和相似性检测。其核心原理是将文本分词并赋予权重后,通过加权哈希映射和向量聚合,生成固定长度的二进制指纹。相比传统哈希,SimHash能保留语义相似性——相似文本生成的哈希值汉明距离较小。算法流程包括:1)分词与权重计算;2)特征哈希与加权映射;3)向量聚合;4)二值化生成指纹;5)通过汉明距离判断相似性。优势在于时间复杂度低、抗噪声能力强,尤其

#算法
GPT2源码(1)——梯度累积和梯度裁剪

近期要用GPT2手搭一个项目,今天手撕了GPT2源码,解决了一些困惑的地方,总结一下!梯度累积和梯度裁剪是深度学习中常用的两种技术,用于优化训练过程。

#自然语言处理#深度学习#算法 +1
大模型训练与微调(5)——微调方法总结 与 选择建议

大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。

#语言模型#人工智能#自然语言处理 +1
到底了