logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

python晋江文学城数据分析——简单的可视化(pyecharts)

本节用pyecharts对一些非数值的数据进行初步的较为简单的可视化。

文章图片
#数据分析#数据挖掘#python
python晋江文学城数据分析(一)——爬虫(BeautifulSoup正则)

回忆性文章,其实过程中遇到过很多问题和困难,但暂时只想起这些了。待改善的地方:1)爬取太慢,爬取250页花费近10个小时,看网上有多进程、多线程可以加快爬虫时间,之后有时间当学习改进;2)正则表达式不够精确,部分详情页爬取出来不是目的数据,因为错误的数据量不多,后续数据处理采取了直接删除的办法,之后可以在爬虫阶段尝试改进;

文章图片
#python#爬虫#数据分析 +1
python晋江文学城数据分析(二)——数据预处理

承接上文,将爬好的数据用python和jupyter进行处理分析。

文章图片
#python#jupyter#数据分析
python晋江文学城数据分析——标签关联规则分析(Apriori算法+R语言)

在学R语言购物篮分析,突然联想到虽然标签算不得商品,但和商品很相似,可以看看作者设置标签时喜欢把什么标签放一块。由于前文一直用的是python,所以准备接着用python,但是整体弄下来后,发现在可视化方面python完全没有R语言多样,所以也用R语言做了关联规则分析。1python参考python数据分析 - 关联规则Apriori算法_python apriori算法_你干嘛,哎呦!的博客-C

文章图片
#r语言#数据分析#python +1
到底了