logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据分析面试、笔试题汇总+解析(四)

今天解决最后一道题????:把数据集随机划分为训练集和测试集,按8:2的比例。一般会想到用随机划分的方法,即使用sklearn库里面的model_selection模块的train_test_split方法。这里掌柜就直接拿官方的鸢尾花数据集示例来演示一下:这????就是此题的解法(当然,在此环境下该方法是没什么问题的,而且大多数情况下我们也是这么划分数据集的;),但是此方法存在一定的缺点,即在测

#机器学习#数据分析#python
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb1 in position 0: invalid start byte的解决办法

今天在读取一个从国家统计局下载的csv表格的时候遇到如上报错:一看就知道是字符编码问题,但是到底要编码成哪种格式才是正确的呢? 掌柜搜了一下相关问题的解决方案,发现高赞给的答案是下面这个:于是掌柜尝试过后发现并不能完全解决问题。。。????在Provinces这一列还是出现的乱码。。。然后掌柜突然反应过来,Province这一列都是中文,一般中文编码都是用的gbk,所以应该是encoding =

#数据分析#pandas
如何使用MySQL对数据进行清洗--详解其中遇到的各种问题

最近在学陈旸老师的专栏SQL必知必会里面学到如何用SQL对数据进行清洗这一节时,在实操的时候遇到了一些问题,这里记录一下其中对各种问题的解决办法,希望对后面学习的朋友也有帮助!首先第一步就是导入数据集,陈老师是直接用的Navicat 工具将 泰坦尼克号数据集的csv 文件导入到 MySQL 数据库中,但是作为小白的我觉得还是用MySQL直接导入更能锻炼自己,于是放弃Navicat,转用了MySQ.

#数据库#数据分析
520,送你四种Python画玫瑰的方法

今天又是520????掌柜在网上收集了四种画玫瑰花的方法,希望有你喜欢的一种!第一种:顶上慢画玫瑰花????#第一种:画玫瑰的方法from turtle import *import time#初始化玫瑰#画布大小setup(600,800,0,0)speed(0)penup() # 提起画笔seth(90) #朝向90度fd(340)#向前移动指定的距离seth(0)pendown()#放下画笔

关于《滴滴数据仓库指标体系建设实践》中“如何搭建指标体系”部分的思维导图总结

刚刚读了一篇关于《滴滴数据仓库指标体系建设实践》????的文章,不得不说一下这是目前掌柜看到最全面的一篇讲指标体系搭建的文章????。这里分享过来,大家有空都可以读读全文看????。文章中主要谈论了5点:1. 指标体系是什么?2. 为什么要搭建指标体系?3. 如何搭建指标体系?4. 怎么管理指标体系?5. 指标体系产品化。这里掌柜主要对第三点 如何搭建指标体系? 进行了一个思维导图的总结, 希望对

#数据分析
如何解决报错ValueError: Input contains NaN, infinity or a value too large for dtype('float64')的问题

这两天在做信用卡的数据分析项目,中途出现了除标题错误以外 + (ValueError: Found input variables with inconsistent numbers of samples: [56411, 27785])这两个报错,因为标题字数有限,所以只写了一个。现在我们先解决第一个问题:正如上面报错所写,错误原因就是:输入的数据里面包含NaN值或者无穷大的数据所以解决...

#数据分析#pandas#机器学习 +1
到底了