Reza. 个人主页

@weixin_43301333

Reza.

2022-09-10 07:29:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

保存模型训练数据缓存的一些忠告

很多时候我们搞NLP的需要处理文本，而文本feed给模型之前肯定要经过tokenization（分词）、serialize(序列化)、vectorization（向量化）。这个过程中我们多半会选择把预处理好的数据先cache起来，这样就不用下一次跑代码的时候重新处理了，尤其是像embedding之类的，比方说ELMO。但是这个cache的过程中也有很多问题，自己总结了两点经验：如果你想要cache

#python #自然语言处理

离线安装opencv-python

网址（thu镜像）：https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/opencv-python/找到对应自己系统的whl文件安装：pip install xxx.whl参考pip 离线安装 opencv for python环境

LLaMA模型文件 (搬运工)

如果要使用huggingface transformer训练LLaMA，需要使用额外的转换脚本（具体详见huggingface官网。建议提前确认自己的huggingface版本。或者使用上述已经被转换好的。但是申请的审批时间一般都很长。才能获得官方模型权重。

#深度学习 #人工智能

简明总结：python可迭代(iterable)、迭代器(iterator)、生成器(generator)

直接点吧：看了各种网上的博客，乱糟糟，一张图就行：总结：参考：网上的博客曾差不齐，大概看了7、8篇博客，只有下面2篇的结论经过笔者实际操作检验，所述基本正确，也符合笔者对iterable、iterator、generator的认知Iterables vs. Iterators vs. GeneratorsPython_生成器和迭代器的区别...

#python #开发语言 #后端

python排序容器(主要、次要关键词)

比方说我有一个list是这个样子：[('1',0.99,2,"a"),('2',0.78,17,"b"),('3',0.32,2,'c')]我现在想把这个list按照里面每个tuple的第三个位置为主要关键字，第二个位置为次要关键字排序。其实很简单，把sort里面的key写成返回两个compare元素的func就行了：t = [('1',0.99,2,"a"),('2',0.78,17,"b"),

#python #容器 #开发语言

SentencePiece使用指南

很方便，集成了包括BPE等各种常用的分词（subword）算法，主要针对于NMT系统。使用和安装详情，参见github：SentencePiece Python Wrapper

#python

HuggingFace 所有预训练模型下载地址

继承自上一篇博客：BERT、RoBERTa下载地址map除了像上一篇博客一样，自己去huggingface transformer的源代码里面把各个模型的下载url找出来之外，最快的方法可以直接上huggingface model 官网:如下，搜索自己需要的模型：然后在Files and Versions里面把模型需要的参数bin、config和vocab都一一down下来：当然也可以wget:.

#自然语言处理

Running cells with ‘Python 3.6.5 (‘XXX‘)‘ requires ipykernel package.

用vscode直接跑jupyter的时候，会出现这个错误。说明当前用的这个虚拟环境还不支持ipykernel。解决办法非常简单，下载。

python 保留浮点数为两位小数

主要有三种：Tips:round的计算不是简单地四舍五入，一般如果对精度有要求，不推荐用round（如果是numpy ndarray,还可以用np.around(x,2)）另外，python不支持浮点数float小数点填充"0":所以在某些场景下，需要保留确定位数显示小数的话，只能使用字符串格式化的方法：参考：https://www.cnblogs.com/zhzhlong/p/10732218.

chnsenticorp数据集及其处理

数据集下载：链接：https://pan.baidu.com/s/1PGCIz-yub3ugXYuNivlZzw提取码：nuwl提取出来四个数据集，其中chnsenticorp是主要数据处理：chnsenticorp分为四类：ChnSentiCorp_htl_ba_2000:2000条旅店住宿review，label均衡ChnSentiCorp_htl_ba_4000:4000条旅店住宿revie

共 90 条

请选择