
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Selenium自动化与爬虫一. selenium自动化介绍与安装1.1 Selenium自动化介绍Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏安装pip insatll selenium1.
Xpath详解XPath原理:先将HTML文档转为XML文档,再用XPath查找HTML节点或元素一. 什么是XML?1,XML指可扩展标记语言2,XML是一种标记语言,类似于HTML3,XML的设计宗旨是传输数据,而非显示数据4,XML标签需要我们自己自定义5,XML被设计为具有自我描述性二. XML和HTML的区别数据格式描述设计目标XMLExtensible Markup Language
字体反扒认识字体在爬虫爬取页面的时候,页面中的代码是乱码,但是在人眼看到的是原文,这样的映射关系让爬虫无法顺利爬取到网站内容。例:大众点评字体映射关系获取到的网页源代码中的字是其映射关系的字形名称,以数字 1 为例,该文字在实际获取的网页源代码中表现形式是 unie66字体-百度百科一款字库的诞生,要经过字体设计师的创意设计、字体制作人员一笔一划的制作、修改,技术开发人员对字符进行编码、添加程序指
PyQuery详解pyquery允许你对xml文档进行jquery查询,API尽可能类似jquery,pyquery使用lxml进行快速xml和html操作PyQuery是python中一个强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,又觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法那么,PyQuery就是你绝佳的选择。安装:pip install pyquery一
爬取猫眼电影榜单信息(翻页)一. 获取url及headers首先进入猫眼电影首页: 猫眼电影之后点击菜单栏的 榜单并在下面选择 TOP100榜接着右击检查并刷新界面,在Network中找到4的加载文件,并双击打开获取右侧的url以及其他的headers信息# 获取网页响应内容def get_html(url):# 不能证明你是一个完整的浏览器用户headers = {'User-Agent': '
Pandas详解 (中)一. 处理缺失值1.1drop函数:删除行,删除列1、删除某列或某行数据可以用到pandas提供的方法drop2、drop方法的用法:drop(labels, axis=0, level=None, inplace=False, errors='raise')– axis为0时表示删除行,axis为1时表示删除列3、常用参数如下:先看一下数据表删除行:import pand
一. R语言的数据类型原文链接 : r语言与数据分析实战11.1 知识描述搞清楚我们面对的数据类型是什么,并能实现数据类型之间的转换1.2 相关知识需要认真学习以下函数:mode(): 用来查看数值类型的函数;as.numeric(): 将数据类型转换为数值型类型的函数;as.logical(): 将数据类型转换为逻辑型类型的函数;as.cha\fracter(): 将数据类型转换为字符型类型的函
python程序封装1报错请执行pip install --upgrade setuptools 和 pip install --upgrade wheel步骤如下:(1)安装pyinstaller,可以直接在cmd命令行中,输入命令“pip install pyinstaller”,安装pyinstaller(2)进入py代码的保存目录,这里py代码放在“E:\python学习\python_w
一. R语言的数据类型原文链接 : r语言与数据分析实战11.1 知识描述搞清楚我们面对的数据类型是什么,并能实现数据类型之间的转换1.2 相关知识需要认真学习以下函数:mode(): 用来查看数值类型的函数;as.numeric(): 将数据类型转换为数值型类型的函数;as.logical(): 将数据类型转换为逻辑型类型的函数;as.cha\fracter(): 将数据类型转换为字符型类型的函
原文链接 : 数据输入与输出一. 使用变量赋值输入数据1.1 知识描述使用变量赋值来完成数据的输入,是几乎所有数据分析平台通用的基础内容,一般适用于人脑可以适应的小型数据样本,比如你现在是一名老师,十几名学生经历了期中考试,现在成绩已出,你需要知道学生成绩的相关统计数据,那么最直接的办法就是使用R的赋值输入,直接使用键盘敲入数据,本节将详细介绍如何使用R的赋值命令输入你所需要分析的数据。1.2 相







