
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2019年,一次偶然的机会让我接触到Python,听说可以从零开始学,就打算结合自己的工作内容尝试一下。可是70后的我,那时已经是40多岁了,快奔五的人眼睛既近视,又开始老花,学起来确实是困难重重,最主要的是没有参加培训班,完全靠自学,碰到难题的时候经常花费大量的时间去研究。一步一个脚印,一年后,终于可以结合数据分析编写一些简单的代码,大大提升了工作效率。下面是我去年写的一个小助手。每月只需要补充
爬取某官网的行政处罚信息公示表,先从官网的某省市分站进行数据抓取,每个网页包括10条数据,共31页310份文书,批量下载到行政处罚文书文档,为后期使用python代码合并和数据筛选提供基础的数据信息。目标网页,每页10条信息:详情网页,每页只有一条信息(信息公示表),点击该点信息可以下载保存。首先分析首页链接地址和第二页,第三页及下一页的链接地址,发现首页链接地址差异较大,从第二页开始,地址ind
最近需要批量提取PDF文件内容,虽然网上搜索到有现成的转换软件,但安装后却是试作版本,而且功能较为单一。干脆就自己边学习边使用Python写一个代码,利用pdfplumber模块来对PDF文件的文本和表格进行提取,最后将每一份PDF文件生成一行数据,保存在csv表格中。先记录一下,离线安装pdfplumber模块遇到的问题。公司的电脑都是局域上网,我只能先把pdfplumber模块下载保存到U盘,
网页爬取到的数据,或经过批量转换、清洗后的数据,需要写入并保存为csv格式的文件。如果生成大量的、全部的数据后才一次性写入和保存,程序运行过程一遇到中断或中间报错,已处理过的数据尚未保存到csv文件中,只能从新开始,浪费时间。采用一开始生成一个空的csv文件,再逐条数据,逐行写入的方式,即使中间报错中断,已处理的数据也已保存下来了,避免重头再次处理数据。思路:一开始先创建一个空的csv文件,表头信