logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Could not build wheels for tokenizers, which is required to install pyproject.toml-based projects分析

huggingface transformer 这个包,依赖 `tokenizers`包, `tokenizers` 使用了 Rust 多线程加速处理数据集。Rust的Bug。

文章图片
#transformer
MTEB 中的 Embedding 模型文本分类微调实践

本文探讨了基于MTEB框架对文本嵌入(embedding)模型进行微调的新思路,区别于传统端到端分类训练,该方法优化模型生成语义相似向量的能力。实验分为三部分:首先评估原始BGE-small模型在AGNews数据集上的kNN分类准确率为77.8%;然后使用FlagEmbedding工具进行微调,重点分析same_dataset_within_batch参数对训练效率的影响;最后对比微调前后的模型表

文章图片
#分类#自然语言处理
linux neo4j 切换知识图谱

介绍了在 Linux 系统上安装和配置 Neo4j,以及如何切换不同的数据库以管理多个知识图谱。首先介绍了如何在 Ubuntu 上通过命令行安装 Neo4j。针对 Neo4j 免费版不支持多数据库管理的限制,作者提供了一种通过本地文件夹切换数据库的解决方案。步骤包括停止 Neo4j 服务、备份现有数据库文件、创建新文件夹、设置新密码,并启动新的知识图谱数据库。

文章图片
#linux#neo4j#知识图谱
mysql drop table 卡死

mysql drop 卡死的原因及分析

#mysql#数据库#database
使用VSCode远程连接服务器并解决Neo4j无法登陆问题

介绍了如何通过VSCode连接内网部署的Neo4j服务器,并启动服务。在访问Neo4j登录界面时,遇到了端口映射问题导致无法登录。通过手动添加7687端口的映射,并刷新网页后成功登录Neo4j。

文章图片
#vscode#服务器#neo4j
python读取大型csv文件,降低内存占用,提高程序处理速度

遇到大型的csv文件时,pandas会把该文件全部加载进内存,从而导致程序运行速度变慢。本文提供了批量读取csv文件、读取属性列的方法,减轻内存占用情况。nrows: 读取多少行数据;usecols: 读取哪些属性列的数据;chunksize:分块读取,每一块的大小是多少条数据;

文章图片
#python#pandas
解决Transformer训练中的AttributeError: ‘AdamW‘ object has no attribute ‘train‘问题

本文分享了在使用transformers库进行BERT模型训练时遇到的AttributeError: 'AdamW' object has no attribute 'train'错误的解决过程。通过查找相关信息,发现问题源于accelerate库版本过低,并通过将库升级至0.34.2版本成功解决报错。本文详细介绍了问题排查、版本更新的步骤,以及如何忽略更新中的警告提示,以帮助读者快速解决类似问题

文章图片
#transformer#深度学习#人工智能
transformers 的 metric_for_best_model 设置 eval_f1 作为评估标准

基于HuggingFace Transformers库的模型训练实现,讨论了最佳模型的选择问题。作者展示了一个通用训练流程代码,使用Trainer类进行模型训练,并支持从检查点恢复训练。针对评估指标选择问题,作者发现默认使用eval_loss选择最佳模型可能不理想,应改用eval_f1等任务相关指标。通过修改trainer_state.json文件中的best_global_step,可以手动指定

文章图片
#python#深度学习#机器学习
transformer.HfArgumentParser案例以及Debug

HfArgumentParser可以将类对象中的实例属性转换成转换为解析参数。类对象是@dataclass()创建的类对象。本文提供了Pycharm的参数输入方式,可用作Debug

文章图片
#pycharm
把标注数据导入到知识图谱

使用 Doccano 标注了一些数据,包括命名实体识别、关系和文本分类的标注的数据;首先将标注数据导入到Doccano,查看一下标注结果;使用py2neopython工具包,将标注数据导入到neo4j图数据库;

文章图片
#知识图谱
    共 142 条
  • 1
  • 2
  • 3
  • 15
  • 请选择