芝加哥公共出租车数据分析(超过 2 亿行!)
自 2013 年以来,芝加哥市发布了一个公共数据集,其中包含超过 2 亿次出租车行程。该数据集太大而无法下载 ~ 大约 75 Gigs 并在我不太肌肉的笔记本电脑上运行探索性数据分析。但我认识一个肌肉发达、数据库速度快、运行 SQL 命令速度惊人的人!看谷歌! 芝加哥出租车行程数据集托管在可在 Google Cloud Console 上使用的 Google 公共数据集上。该数据集不包括来自 Ub
自 2013 年以来,芝加哥市发布了一个公共数据集,其中包含超过 2 亿次出租车行程。该数据集太大而无法下载 ~ 大约 75 Gigs 并在我不太肌肉的笔记本电脑上运行探索性数据分析。但我认识一个肌肉发达、数据库速度快、运行 SQL 命令速度惊人的人!看谷歌!
芝加哥出租车行程数据集托管在可在 Google Cloud Console 上使用的 Google 公共数据集上。该数据集不包括来自 Uber 和 Lyft 等拼车公司的数据,仅包括公共出租车。这是一个巨大的数据集,可以在上面做很多 EDA。所以我说——
每年的出租车接送服务
数据确实清楚地表明,出租车乘车人数急剧下降。自 2014 年高峰以来,到 2019 年,出租车使用量以年均 20% 的速度下降。到 2019 年(大流行前),自高峰以来累计下降 56%。
如果我们考虑到 2020 年,载客量比 2019 年下降了 76.4%,几乎扼杀了公共出租车系统。但无法进行比较,因为所有企业都因大流行而受到打击。 2020年之后逐渐回升,但不能与卷土重来相提并论。
每日出租车接送
高峰是在 2014 年末每天 12.5 万次出行,这是一个相当大的数字。与 2019 年相比,高峰期为每天 5 万人次左右,下降了 60%。
多年来在道路上活跃的出租车
芝加哥公共出租车数据集为每次旅行提供了匿名的出租车奖章号码。这使得做很多事情成为可能。
1.统计每月独特的出租车数量
2.通过出租车ID查看区域偏好
乘车次数减少的一个可能原因可以简单地归因于路上的出租车数量减少。尽管道路上的出租车数量减少有多种因素在起作用——奖章的止赎、有竞争力的定价、拼车服务、技术的便利性等等。
区域明智的皮卡
芝加哥地区划分为77 个社区区域用于城市规划。数据集没有精确定位(地理编码);它提供了接送社区区域。这样做是为了保护骑手和驾驶室的隐私。这使得对区域之间的出租车路线进行深入分析变得具有挑战性,或者不可能在该区域内进行。
可是等等!
有趣的是,一个社区区域只覆盖一个地点,即芝加哥国际机场。因此,可以为机场游乐设施进行 EDA。
与游乐设施的总体下降趋势相比,机场接送的预期是相同的。但实际情况不同!
机场接送的高峰是在 2016 年 10 月。在 google 上简单搜索 2016 年 10 月芝加哥,我发现了2016 世界系列。棒球迷人数众多,伙计,他们确实使机场接机人数激增。
历年支付方式
芝加哥数据库在付款栏中也有未定义或未结算的付款,即未知和争议。排除这些,我们可以清楚地看到现金支付一直在减少,而信用卡的兴起弥补了这一减少。美国在采用无卡、无现金移动支付方面迟到了。移动支付始于 2018 年,并在缓慢增长;截至2022年,占比17%。
这里的 Pcard 是另一种缓慢上升的卡支付类型。它是一种预付卡,主要供商务人士用作公司卡。它从 2020 年开始突然上升,可以解释为雇主给员工提供交通卡——让人们回到办公室(就像一种激励措施)
多年来的出租车速度
在一个城市中,多年来,交通可能会改善或恶化,以防万一。在数据集上进行 EDA 并按月分组,我惊讶地发现整体平均速度有所提高。
看完剧情后,我觉得这并没有展示完整的画面。我将分析的粒度增加到一天中的一个小时。
! zoz100037](https://devpress-image.s3.cn-north-1.jdcloud-oss.com/a/c470ce78fe_1*Pugu_8KATOvC4YkAfPdrSA.jpg)
现在在这里,它有点显示了完整的画面。清晨,平均速度最高,最高时达到 32 英里/小时。图表中有两个深谷,一个在上午 8 点左右——办公开始时间,另一个在下午 6 点左右——办公结束时间。
最常用的路线
在芝加哥,大多数游乐设施都从市区开始——靠近北区和环路。在最常用的 20 条路线中,6-7 条从近北侧开始,3-4 条从环路开始。 2014 年(高峰期),从这两个地区出发的游乐设施占 2014 年游乐设施的 45%。
这是所有前 20 年使用的路线图,用于并排比较。
更多推荐
所有评论(0)