
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
sakila数据集中最受欢迎的电影题材和明星
在构建DVD数据仓库的基础上,再分析sakila数据集,找出最受欢迎的电影题材、销售数据,最受欢迎的电影明星

歌曲分类和流行度预测
本项目为了充分了解歌曲数据集,主要从歌曲分类和歌曲流行度预测入手。其中歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类,从结果来看,决策树分类器的分类效果最不好,然后xgboost分类器的分类效果最好,准确率可以达到92%。歌曲流行度预测选用随机森林回归器和梯度提升回归器对歌曲流行度进行预测,使用sklearn中的Grid Search方法进行最佳超参数组合的搜索,预测效

对泰坦尼克号沉没事件幸存者数据分析和预测
Titanic.csv数据中包含了891个样本,记录了泰坦尼克号遇难时的891个乘客的基本信息,其中包括以下信息:PassengerId: 乘客编号Survived: 生还情况,生还为1,死亡为0Pclass: 舱位,分为1,2,3等,1为最高的,3为最低等Name: 姓名Sex: 性别Age: 年龄SibSp: 同船的兄弟姐妹或配偶Parch: 同船的父母或子女Ticket: 船票信息Fare:

数据分析、数据挖掘项目合集
基于ETL工具,对数据库Sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据仓库Sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标仓库中。通过爬虫技术爬取网易云音乐歌单信息,将爬取到的信息进行数据预处理、数据清洗,然后爬取到的信息保存到MySQL数据库中,最后采用统计汇总和统计的方法对数据进行总结,将数据可视化出来。首先对数据集进行预

到底了