qq_43012160 个人主页

@qq_43012160

qq_43012160

2022-07-09 17:07:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CCF-BDCI互联网新闻情感分析(bert-base,线上0.79)

今天来讲一讲怎么用bert做文本分类，比赛是今年的CCF-BDCIhttps://www.datafountain.cn/competitions/350第一次接触bert，比较菜，线上macro_f1得分0.79：附上代码和数据集，数据集是tsv格式，我做了一些预处理，保存在data文件夹下面，验证集是从原训练集中按0.1的比例划分出来的。测试集test是没有标签的，想跑线下可以用tra...

#数据挖掘 #人工智能

transformer模型

transformer模型最近想学一下BERT，在这之前就先学了一下transformer。transformer原本是用来做机器翻译的，大概的体系结构长这样：Encoder-Decoder框架这个框架主要用在机器翻译和机器问答领域，就是有两个组件Encoder和Decoder。对于给定的输入source (x1,x2,x3,…,xn), 首先编码器将其编码成一个中间表示向量z=(z1,...

#机器翻译 #机器学习

seq2seq:LSTM+attention的生成式文本概要

seq2seq:LSTM+attention的生成式文本概要最近做的利用seq2seq模型的生成式文本概要，参考了这位大佬的源码：https://spaces.ac.cn/archives/5861/comment-page-1数据集准备及预处理我直接拿的新闻数据集的内容(content)和标题(title)，根据内容概括标题。一般想要达到比较能看的结果的话需要10w左右的数据集，跑50...

#nlp

数据挖掘小结：预处理

数据挖掘实战流程受这篇博文的启发：https://blog.csdn.net/leeafay/article/details/80273529和最近做的几个实战项目的启发做了一些总结数据预处理1.对于数据集的一些预处理（合并、拆分…）2.文件编码，这点在中文文本处理上非常常见，TXT文档的编码方式一般是ANSI，但是python一般会用utf-8来处理。这点我实测过了，在打开文件的时候注...

#数据挖掘 #大数据 #机器学习

python简单爬虫（pycharm）(一)

python简单爬虫（pycharm）(一)之前做过一段时间体系结构，来爬个gem5的教程吧先第一种方法代码：import requests#调包url = 'http://learning.gem5.org/book/part1/building.html'#这里的URL就是通过开发者工具找到的网页的请求信息里的Request URLres = requests.g...

文本分类的14种算法总结

文本分类的14种算法总结之前总结了14种文本分类中的常用算法，包括8种传统算法：k临近、决策树、多层感知器、朴素贝叶斯（包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯）、逻辑回归和支持向量机；4种集成学习算法：随机森林、AdaBoost、lightGBM和xgBoost；2种深度学习算法：前馈神经网络和LSTM。各篇链接如下：测试环境搭建与数据预处理：https://blog.csdn.net...

#大数据 #数据挖掘 #机器学习

文本分类的14种算法总结

#大数据 #数据挖掘 #机器学习

交通流分析1：《基于大数据的城市公路交通流短时预测研究_张红》阅读总结

大概读了一下，第6节小波分析那里实在没有看懂。如果有理解不对的地方欢迎批评指正。建模方法这篇论文选用的是时间序列模型和小波理论，小波理论那里我实在没看懂，说说他基于时间序列模型的组合建模方法，这是选择时间序列模型的理由：作者是将整个交通流数据分解为四个分项（即从四个角度去看待的交通流数据）：周期分项、趋势分项、线性分项和非线性分项：其中周期分项就是交通流呈现出的周期性（比如每天肯定...

#数据挖掘 #大数据

数据挖掘小结：预处理

#数据挖掘 #大数据 #机器学习

到底了