logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CCF-BDCI互联网新闻情感分析(bert-base,线上0.79)

今天来讲一讲怎么用bert做文本分类,比赛是今年的CCF-BDCIhttps://www.datafountain.cn/competitions/350第一次接触bert,比较菜,线上macro_f1得分0.79:附上代码和数据集,数据集是tsv格式,我做了一些预处理,保存在data文件夹下面,验证集是从原训练集中按0.1的比例划分出来的。测试集test是没有标签的,想跑线下可以用tra...

#数据挖掘#人工智能
transformer模型

transformer模型最近想学一下BERT,在这之前就先学了一下transformer。transformer原本是用来做机器翻译的,大概的体系结构长这样:Encoder-Decoder框架这个框架主要用在机器翻译和机器问答领域,就是有两个组件Encoder和Decoder。对于给定的输入source (x1,x2,x3,…,xn), 首先编码器将其编码成一个中间表示向量z=(z1,...

#机器翻译#机器学习
seq2seq:LSTM+attention的生成式文本概要

seq2seq:LSTM+attention的生成式文本概要最近做的利用seq2seq模型的生成式文本概要,参考了这位大佬的源码:https://spaces.ac.cn/archives/5861/comment-page-1数据集准备及预处理我直接拿的新闻数据集的内容(content)和标题(title),根据内容概括标题。一般想要达到比较能看的结果的话需要10w左右的数据集,跑50...

#nlp
数据挖掘小结:预处理

数据挖掘实战流程受这篇博文的启发:https://blog.csdn.net/leeafay/article/details/80273529和最近做的几个实战项目的启发做了一些总结数据预处理1.对于数据集的一些预处理(合并、拆分…)2.文件编码,这点在中文文本处理上非常常见,TXT文档的编码方式一般是ANSI,但是python一般会用utf-8来处理。这点我实测过了,在打开文件的时候注...

#数据挖掘#大数据#机器学习
python简单爬虫(pycharm)(一)

python简单爬虫(pycharm)(一)之前做过一段时间体系结构,来爬个gem5的教程吧先第一种方法代码:import requests#调包url = 'http://learning.gem5.org/book/part1/building.html'#这里的URL就是通过开发者工具找到的网页的请求信息里的Request URLres = requests.g...

文本分类的14种算法总结

文本分类的14种算法总结之前总结了14种文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。各篇链接如下:测试环境搭建与数据预处理:https://blog.csdn.net...

#大数据#数据挖掘#机器学习
文本分类的14种算法总结

文本分类的14种算法总结之前总结了14种文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。各篇链接如下:测试环境搭建与数据预处理:https://blog.csdn.net...

#大数据#数据挖掘#机器学习
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结

大概读了一下,第6节小波分析那里实在没有看懂。如果有理解不对的地方欢迎批评指正。建模方法这篇论文选用的是时间序列模型和小波理论,小波理论那里我实在没看懂,说说他基于时间序列模型的组合建模方法,这是选择时间序列模型的理由:作者是将整个交通流数据分解为四个分项(即从四个角度去看待的交通流数据):周期分项、趋势分项、线性分项和非线性分项:其中周期分项就是交通流呈现出的周期性(比如每天肯定...

#数据挖掘#大数据
数据挖掘小结:预处理

数据挖掘实战流程受这篇博文的启发:https://blog.csdn.net/leeafay/article/details/80273529和最近做的几个实战项目的启发做了一些总结数据预处理1.对于数据集的一些预处理(合并、拆分…)2.文件编码,这点在中文文本处理上非常常见,TXT文档的编码方式一般是ANSI,但是python一般会用utf-8来处理。这点我实测过了,在打开文件的时候注...

#数据挖掘#大数据#机器学习
kaggle泰坦尼克号生存预测(附代码、数据集和答案)

kaggle泰坦尼克号生存预测(附代码、数据集和答案)之前总结的数据预处理方法:https://blog.csdn.net/qq_43012160/article/details/98462307先看一下数据集:这次需要分类的标签被存储在了训练集的Survived列里,1表示生还,0表示遇难。显然这次的特征是有缺失值的,读入数据集,看一下训练集和测试集的长度及各特征的缺失情况:#看...

#数据挖掘#机器学习
到底了