
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 本文介绍使用正则表达式在大模型数据处理中过滤个人隐私信息的方法。通过模式匹配识别邮箱、电话、地址等敏感信息,并给出常见正则模式(如中国手机号1[3-9]\d{9})和Python实现示例。该方法高效灵活,但需注意误判漏判问题,建议结合关键词过滤和机器学习优化精度,同时遵守隐私法规。正则表达式结合其他技术可有效平衡数据可用性与隐私保护需求。
已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘
大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。
已解决Yolo-world报错:AttributeError: partially initialized module ‘cv2‘ has no attribute ‘gapi_wip_gst_GStreamerPipeline‘
SimHash是一种局部敏感哈希算法,主要用于文本去重和相似性检测。其核心原理是将文本分词并赋予权重后,通过加权哈希映射和向量聚合,生成固定长度的二进制指纹。相比传统哈希,SimHash能保留语义相似性——相似文本生成的哈希值汉明距离较小。算法流程包括:1)分词与权重计算;2)特征哈希与加权映射;3)向量聚合;4)二值化生成指纹;5)通过汉明距离判断相似性。优势在于时间复杂度低、抗噪声能力强,尤其
近期要用GPT2手搭一个项目,今天手撕了GPT2源码,解决了一些困惑的地方,总结一下!梯度累积和梯度裁剪是深度学习中常用的两种技术,用于优化训练过程。
大模型微调(Fine-tuning)根据调整参数的范围、效率和策略,微调方法可分为以下几类。根据不同的应用场景可选择特定的微调方法以实现最优的效果。







