logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

保存模型训练数据缓存的一些忠告

很多时候我们搞NLP的需要处理文本,而文本feed给模型之前肯定要经过tokenization(分词)、serialize(序列化)、vectorization(向量化)。这个过程中我们多半会选择把预处理好的数据先cache起来,这样就不用下一次跑代码的时候重新处理了,尤其是像embedding之类的,比方说ELMO。但是这个cache的过程中也有很多问题,自己总结了两点经验:如果你想要cache

#python#自然语言处理
离线安装opencv-python

网址(thu镜像):https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/opencv-python/找到对应自己系统的whl文件安装:pip install xxx.whl参考pip 离线安装 opencv for python环境

LLaMA模型文件 (搬运工)

如果要使用huggingface transformer训练LLaMA,需要使用额外的转换脚本(具体详见huggingface官网。建议提前确认自己的huggingface版本。或者使用上述已经被转换好的。但是申请的审批时间一般都很长。才能获得官方模型权重。

文章图片
#深度学习#人工智能
简明总结:python可迭代(iterable)、迭代器(iterator)、生成器(generator)

直接点吧:看了各种网上的博客,乱糟糟,一张图就行:总结:参考:网上的博客曾差不齐,大概看了7、8篇博客,只有下面2篇的结论经过笔者实际操作检验,所述基本正确,也符合笔者对iterable、iterator、generator的认知Iterables vs. Iterators vs. GeneratorsPython_生成器和迭代器的区别...

#python#开发语言#后端
python排序容器(主要、次要关键词)

比方说我有一个list是这个样子:[('1',0.99,2,"a"),('2',0.78,17,"b"),('3',0.32,2,'c')]我现在想把这个list按照里面每个tuple的第三个位置为主要关键字,第二个位置为次要关键字排序。其实很简单,把sort里面的key写成返回两个compare元素的func就行了:t = [('1',0.99,2,"a"),('2',0.78,17,"b"),

#python#容器#开发语言
SentencePiece使用指南

很方便,集成了包括BPE等各种常用的分词(subword)算法,主要针对于NMT系统。使用和安装详情,参见github:SentencePiece Python Wrapper

#python
HuggingFace 所有预训练模型下载地址

继承自上一篇博客:BERT、RoBERTa下载地址map除了像上一篇博客一样,自己去huggingface transformer的源代码里面把各个模型的下载url找出来之外,最快的方法可以直接上huggingface model 官网:如下,搜索自己需要的模型:然后在Files and Versions里面把模型需要的参数bin、config和vocab都一一down下来:当然也可以wget:.

#自然语言处理
Running cells with ‘Python 3.6.5 (‘XXX‘)‘ requires ipykernel package.

用vscode直接跑jupyter的时候,会出现这个错误。说明当前用的这个虚拟环境还不支持ipykernel。解决办法非常简单,下载。

python 保留浮点数为两位小数

主要有三种:Tips:round的计算不是简单地四舍五入,一般如果对精度有要求,不推荐用round(如果是numpy ndarray,还可以用np.around(x,2))另外,python不支持浮点数float小数点填充"0":所以在某些场景下,需要保留确定位数显示小数的话,只能使用字符串格式化的方法:参考:https://www.cnblogs.com/zhzhlong/p/10732218.

chnsenticorp数据集及其处理

数据集下载:链接:https://pan.baidu.com/s/1PGCIz-yub3ugXYuNivlZzw提取码:nuwl提取出来四个数据集,其中chnsenticorp是主要数据处理:chnsenticorp分为四类:ChnSentiCorp_htl_ba_2000:2000条旅店住宿review,label均衡ChnSentiCorp_htl_ba_4000:4000条旅店住宿revie

    共 90 条
  • 1
  • 2
  • 3
  • 9
  • 请选择