logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ubuntu 安装32位库

12.04下面:sudo apt-get install ia32-libs14.04下面:sudo apt-get install libglib2.0-0:i386

数据清洗中异常值(离群值)的判别和处理方法

前天参加面试的时候被问了一个题:选择什么样的指标来代表总体情况?我回答的不是很好,具体怎么回答的记不太清了,感觉回答的不是很好。那这里就引申出一个问题,异常值的识别。异常值(outlier)是数据清洗的重要环节,异常值可能直接会导致后面的数据分析、建模工作出现偏差,因为像AdaBoost、GBDT等都对异常值很敏感。

文章图片
#python#数据分析
最实用的数据分析模型——帕累托,手把手教你制作!

很多人都知道二八定理,即20%的人掌握着80%的财富。源出处是80/20帕累托法则,很有名的ABC分类法可以说是该法则的衍生。比如一共有100件商品,10件商品占销售总额的70%,20件商品占销售总额的20%,还有70件商品仅占销售总额的10%。于是你可以按照70%,20%,10%的销售额比重把产品分为ABC三类,然后把重点的管理资源放在A,把较少的资源分配给C或者砍掉部分C商品,以达到资源管理的

文章图片
#python#开发语言
Web Scraper 高级用法——抓取二级网面 | 简易数据分析 13

这是简易数据分析系列的第 13 篇文章。在前面的课程里,我们抓取的数据都是在同一个层级下的内容,探讨的问题主要是如何应对市面上的各种分页类型,但对于详情页内容数据如何抓取,却一直没有介绍。比如说我们想抓取 b 站的动画区 TOP 排行榜的数据:https://www.bilibili.com/ranking/all/1/0/3按之前的抓取逻辑,我们是把这个榜单上和作品有关的数据抓取一遍,比如说下图

Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07

这是简易数据分析系列的第 7 篇文章。在第 4 篇文章里,我讲解了如何抓取单个网页里的单类信息;在第 5 篇文章里,我讲解了如何抓取多个网页里的单类信息;今天我们要讲的是,如何抓取多个网页里的多类信息。这次的抓取是在简易数据分析 05的基础上进行的,所以我们一开始就解决了抓取多个网页的问题,下面全力解决如何抓取多类信息就可以了。我们在实操前先把逻辑理清:上几篇只抓取了一类元素:电影名字。这期我们要

Markdown系列mermaid美人鱼之Gant甘特图

Gant图甘特图是一种条形图,最初由Karol Adamiecki于1896年开发,并由Henry Gantt于1910年独立开发,用于说明项目进度表。甘特图说明了项目的终端元素和摘要元素的开始和结束日期。Mermaid可以渲染甘特图。gantttitle A Gantt DiagramdateFormatYYYY-MM-DDsection Sectio...

Web Scraper 的下载与安装 | 简易数据分析 02

这是简易数据分析系列的第 2 篇文章。上篇说了数据分析在生活中的重要性,从这篇开始,我们就要进入分析的实战内容了。数据分析数据分析,没有数据怎么分析?所以我们首先要学会采集数据。我调研了很多采集数据的软件,综合评定下来发现最好用的还是Web Scraper,这是一款Chrome 浏览器插件。![](https://image-1255652541.cos.ap-shanghai.myqcloud.

Web Scraper 翻页——抓取分页器翻页的网页(Web Scraper 高级用法)| 简易数据分析 12

这是简易数据分析系列的第 12 篇文章。前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方法,比如说修改网页链接加载数据、点击“更多按钮“加载数据和下拉自动加载数据。今天我们说说一种更常见的翻页类型——分页器。本来想解释一下啥叫分页器,翻了一堆定义觉得很繁琐,大家也不是第一年上网了,看张图就知道了。我找了个功能最全的例子,支持数字页码调整,上一页下一页和指定页数跳转。今天我们就学

Web Scraper 翻页——抓取「滚动加载」类型网页(Web Scraper 高级用法)| 简易数据分析 10

这是简易数据分析系列的第 10 篇文章。友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍。我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到屏幕末尾的时候,APP 就会自动加载下一页的数据,从体验上来看,数据会源源不断的加载出来,永远没有尽头。我们今天就是要讲讲,如何利用 Web Scraper 抓取滚动到底翻页的网页。今天我们的练手网站是知乎

Web Scraper 的下载与安装 | 简易数据分析 02

这是简易数据分析系列的第 2 篇文章。上篇说了数据分析在生活中的重要性,从这篇开始,我们就要进入分析的实战内容了。数据分析数据分析,没有数据怎么分析?所以我们首先要学会采集数据。我调研了很多采集数据的软件,综合评定下来发现最好用的还是Web Scraper,这是一款Chrome 浏览器插件。![](https://image-1255652541.cos.ap-shanghai.myqcloud.

    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择