logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【DCIC】数据分析学习:1.数据读取

学习目标下载好数据集,并理解赛题具体的背景;理解并梳理清楚赛题的任务;完成赛题数据读取;赛题任务需要注意本次学习使用的数据为DCIC赛题2数据,需要报名后才能下载。报名规则及报名手册具体详见[赛程赛规]-[参赛团队]。赛题介绍赛题名称:A城市巡游车与网约车运营特征对比分析赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点

#数据分析
【DCIC】数据分析学习:2.数据可视化

学习目标数据可视化基础;出租车轨迹可视化;出租车热度可视化;数据可视化数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。下图,未来美国的人口统计数据(不同年龄阶段)下图,电影对白(按性别划分

#数据分析
【DCIC】数据分析学习:2.数据可视化

学习目标数据可视化基础;出租车轨迹可视化;出租车热度可视化;数据可视化数据可视化(Data Visualization)是聚焦数据表现形式的领域,如何将信息进行抽象、对比和展示的方法。数据可视化在不断发展,可供使用的工具和展示形式在不断演变。与数据科学的其他方向相比(机器学习和数据挖掘),可视化涵盖的技术方法更多,形式更加多样。下图,未来美国的人口统计数据(不同年龄阶段)下图,电影对白(按性别划分

【金融风控-贷款违约预测】数据挖掘学习:1.赛题理解

学习目标理解赛题数据和目标,清楚评分体系。完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程。了解赛题赛题概况比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平

#数据挖掘
【金融风控-贷款违约预测】数据挖掘学习:2.数据分析

学习目标学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)学习了解变量间的相互关系、变量与预测值之间的存在关系内容介绍数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;粗略查看数据集中各特征基本统计量;缺失值和唯一值:查看数据缺失值情况查看唯一值特征情况深入数据-查看数据类型类别型数据数值型数据离散数值型数据连续数值型数据数据间相关关系特征和特

#数据挖掘
【金融风控-贷款违约预测】数据挖掘学习:3.特征工程

学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法;学习特征交互、编码、选择的相应方法;内容介绍数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试特征编码one-hot编码lab

#数据挖掘
【金融风控-贷款违约预测】数据挖掘学习:4.建模与调参

学习目标学习在金融风控领域常用的机器学习模型;学习机器学习模型的建模过程与调参流程;内容介绍逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型;随机森林模型;基于boosting思想的集成模型;XGBoost模型;LightGBM模型;CatBoost模型;模型对比与性能评估:回归模

#数据挖掘
【DCIC】数据分析学习:4.订单数据统计

学习目标网约车vs出租车订单价格对比网约车vs出租车订单距离对比网约车vs出租车时间对比具体来说,希望回答什么以下问题:什么情况下网约车订单比出租车订单多?在同等条件下网约车与出租车价格对比;订单数据统计在订单数据中,我们希望完成以下统计:巡游车订单距离与时间的对比(2019年与2020年);import numpy as npimport matplotlib.pyplot as pltimpo

#数据分析
到底了