jieshenai 个人主页

@sjxgghg

jieshenai

2022-11-30 22:17:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Could not build wheels for tokenizers, which is required to install pyproject.toml-based projects分析

huggingface transformer 这个包，依赖 `tokenizers`包， `tokenizers` 使用了 Rust 多线程加速处理数据集。Rust的Bug。

#transformer

MTEB 中的 Embedding 模型文本分类微调实践

本文探讨了基于MTEB框架对文本嵌入(embedding)模型进行微调的新思路，区别于传统端到端分类训练，该方法优化模型生成语义相似向量的能力。实验分为三部分：首先评估原始BGE-small模型在AGNews数据集上的kNN分类准确率为77.8%；然后使用FlagEmbedding工具进行微调，重点分析same_dataset_within_batch参数对训练效率的影响；最后对比微调前后的模型表

#分类 #自然语言处理

linux neo4j 切换知识图谱

介绍了在 Linux 系统上安装和配置 Neo4j，以及如何切换不同的数据库以管理多个知识图谱。首先介绍了如何在 Ubuntu 上通过命令行安装 Neo4j。针对 Neo4j 免费版不支持多数据库管理的限制，作者提供了一种通过本地文件夹切换数据库的解决方案。步骤包括停止 Neo4j 服务、备份现有数据库文件、创建新文件夹、设置新密码，并启动新的知识图谱数据库。

#linux #neo4j #知识图谱

mysql drop table 卡死

mysql drop 卡死的原因及分析

#mysql #数据库 #database

使用VSCode远程连接服务器并解决Neo4j无法登陆问题

介绍了如何通过VSCode连接内网部署的Neo4j服务器，并启动服务。在访问Neo4j登录界面时，遇到了端口映射问题导致无法登录。通过手动添加7687端口的映射，并刷新网页后成功登录Neo4j。

#vscode #服务器 #neo4j

python读取大型csv文件，降低内存占用，提高程序处理速度

遇到大型的csv文件时，pandas会把该文件全部加载进内存，从而导致程序运行速度变慢。本文提供了批量读取csv文件、读取属性列的方法，减轻内存占用情况。nrows: 读取多少行数据；usecols: 读取哪些属性列的数据；chunksize：分块读取，每一块的大小是多少条数据；

#python #pandas

解决Transformer训练中的AttributeError: ‘AdamW‘ object has no attribute ‘train‘问题

本文分享了在使用transformers库进行BERT模型训练时遇到的AttributeError: 'AdamW' object has no attribute 'train'错误的解决过程。通过查找相关信息，发现问题源于accelerate库版本过低，并通过将库升级至0.34.2版本成功解决报错。本文详细介绍了问题排查、版本更新的步骤，以及如何忽略更新中的警告提示，以帮助读者快速解决类似问题

#transformer #深度学习 #人工智能

transformers 的 metric_for_best_model 设置 eval_f1 作为评估标准

基于HuggingFace Transformers库的模型训练实现，讨论了最佳模型的选择问题。作者展示了一个通用训练流程代码，使用Trainer类进行模型训练，并支持从检查点恢复训练。针对评估指标选择问题，作者发现默认使用eval_loss选择最佳模型可能不理想，应改用eval_f1等任务相关指标。通过修改trainer_state.json文件中的best_global_step，可以手动指定

#python #深度学习 #机器学习

transformer.HfArgumentParser案例以及Debug

HfArgumentParser可以将类对象中的实例属性转换成转换为解析参数。类对象是@dataclass()创建的类对象。本文提供了Pycharm的参数输入方式，可用作Debug

#pycharm

把标注数据导入到知识图谱

使用 Doccano 标注了一些数据，包括命名实体识别、关系和文本分类的标注的数据；首先将标注数据导入到Doccano，查看一下标注结果；使用py2neopython工具包，将标注数据导入到neo4j图数据库；

#知识图谱

共 142 条

请选择