1 开发环境

1.1概述

成功搭建了Scrapy框架,并利用Jupyter Notebook和PyCharm进行数据的采集与处理。在PyCharm中配置Scrapy项目,在Jupyter Notebook中处理数据过程中涉及到环境的搭建、爬虫的编写和运行、以及数据的简单处理和分析。整体流程顺利,达到了预期的实验目的。

1.2实验环境

操作系统:Windows 11

编程语言:Python 3.9

工具:Jupyter Notebook, PyCharm, Scrapy

依赖包:Scrapy, Pandas, matplotlib,numpy,seaborn,wordcloud

2 程序功能介绍

2.1选题背景

因为现如今的科技越来越发达,人们对于信息的获取道路变得更加宽广了,在以前的话,人们会受到空间,时间,科技等问题的阻碍,对于大部分知识只有在书籍当中才能够找到。不过随着现如今科技的进步,信息的载体也会变得越来越多,信息的传播方式也变得多种多样,电子书就可以通过图像、声音、文字来传播你想要的知识。还有就是电子书的传播形式更加便于人们去理解文字的意思,电子书可以通过图像、声音、文字来传播所想要的东西,这对于单纯的书本上的文字来说,效果是要更好的。并且电子书上可以找到许多书籍,不用去书店买就能够看到你想看的书,这也让人们的生活变得更加方便。此设计通过当当网搜索找到python图书,对python图书进行相关数据分析,让我们更加直观的了解python图书,有利于图书的选择

2.2设计方案

目的:爬取当当网关于python的图书,并将爬取到的数据保存到csv文档和mysql数据库中,再通过可视化的柱状图扇形图散点图来对图书各方面价格出版社等属性进行分析。

2.3功能

2.3.1数据的采集

程序将使用Scrapy框架编写一个爬虫,用于从当当网上抓取Python相关图书的信息,包括书名、作者、价格、出版日期等。通过爬虫,我们可以获取大量图书数据并保存到本地文件中,以备后续分析使用。

2.3.2数据清洗

经过数据采集后,我们需要对获取的原始数据进行清洗,包括去除重复项、处理缺失值、格式转换等操作,以确保数据的质量和准确性

2.3.3数据的分析

在清洗完数据后,我们可以利用Python的数据分析库(如Pandas、Matplotlib等)进行数据的进一步分析和可视化。可能的分析包括:

统计不同作者或出版社的图书数量分布

分析图书价格的分布情况

按照出版日期对图书进行时间趋势分析

2.3.4 结果的展示

最终,程序可以生成数据分析报告,并输出可视化图表,如柱状图、折线图等,以直观展示Python图书在当当网上的相关数据分布和趋势。

3 数据采集

3.1爬虫设计与实现

使用scrapy框架爬取当当网上Python图书信息

爬虫设计与实现

爬虫名称:dang

允许的域名:search.dangdang.com

起始的URL:python-当当网

3.2数据采集过程

数据字段:从每本图书的页面中提取了书名、价格、作者、出版日期、出版社和简介等信息。

循环处理:对每一页的图书列表进行循环处理,提取每本书的信息

翻页处理:在每一次处理完一页的图书列表后,检查是否有下一页,如果有则继续请求下一页的URL进行处理,直到达到最大页数为止。

3.3数据采集结果

数据存储:将爬取到的数据保存到csv文档和mysql数据库,包括书名、价格、作者、出版日期、出版社和简介等字段

MySQL数据库存储大量数据,csv文件便于对数据进行分析

以下是MySQL数据库数据部分截图

books.csv文件截图如下所示

4 数据处理与分析

4.1数据的处理

读取csv文件进行数据分析

查看文件前几行数据

查看数据类型和缺失值情况

对数据进行处理清洗

还可以进行对数据的排序

4.2数据分析与可视化

对数据进行分析,并采用合适的方式展示,用到了Matplotlib、Seaborn、wordcloud等,以下是相应的分析结果。

4.2.1出版社统计

综上所述,通过对Python图书数量与出版社的关联分析,我们可以初步了解不同出版社在Python领域的影响力和专业特色,为读者和行业从业者提供有益的参考信息。

4.2.2书籍价格分布

通过对Python类书籍价格分布的分析,我们可以深入了解消费者的购买行为和市场需求,为图书出版和销售提供有益的信息和建议。

4.2.3出版社和时间的关系

为我们描绘了一幅Python书籍出版领域的发展图景。从最早的人民邮电出版社,到各大出版社的纷纷加入,再到清华大学出版社的领先地位,这一过程展示了Python语言在中国的普及和影响力的不断扩大。同时,这些数据也为读者选择合适的Python书籍提供了有价值的参考依据,帮助他们更好地获取高质量的学习资源。

4.2.4 作者出版量排名

洪锦魁的著作数量之多可能反映了他在教学、科研和知识传播方面的不懈努力和贡献,为Python编程语言的推广和普及做出了重要贡献。

4.2.5出版日期分布图

自2014年以来Python书籍出版量的增长,直观地体现了Python编程语言在各个领域的广泛应用和不断扩大的影响力。它显示了Python作为一种现代编程语言,在教育、企业和技术社区中的重要性日益增强,为未来的科技发展和人才培养奠定了坚实的基础。

4.2.6图书简介词云

通过这个词云图片,我们不仅可以直观地了解Python相关书籍的内容和特点,还能洞察到Python语言在现代科技中的应用方向。无论是数据科学、机器学习、人工智能,还是其他领域,Python都展现出了其不可替代的重要性和广泛的应用前景。

5 更多

1.如果我的博客对你有帮助,如果你喜欢我的博客内容,欢迎点赞,评论收藏哦

2.关注私聊我获得更多源码

3.内容技术相关问题欢迎一起交流学习

更多推荐