
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了使用Spark MLlib进行机器学习建模的三个案例。第一个案例展示了文本分类的基本流程,包括数据准备、Tokenizer分词、HashingTF特征提取、LogisticRegression建模及预测。第二个案例实现了垃圾邮件检测,通过StringIndexer转换标签,Word2Vec进行文本向量化,并使用RandomForestClassifier构建分类模型。第三个案例演示了红酒
本文介绍了使用Spark MLlib进行机器学习建模的三个案例。第一个案例展示了文本分类的基本流程,包括数据准备、Tokenizer分词、HashingTF特征提取、LogisticRegression建模及预测。第二个案例实现了垃圾邮件检测,通过StringIndexer转换标签,Word2Vec进行文本向量化,并使用RandomForestClassifier构建分类模型。第三个案例演示了红酒
本文介绍了两个数据清洗任务,分别针对网约车撤销订单和成功订单的数据处理。第一关的任务包括读取.dat文件、清理列名空格、过滤必填字段、处理“null”值、时间格式转换、行政区划代码转换、去重、选择并排序字段,最终输出为单个文件。第二关的任务涉及读取原始数据、删除不需要的列、空字符串转换、处理经纬度字段、时间字段处理、过滤空值和日期范围、格式化时间字段、读取MySQL中的t_address表、添加d
本文介绍了两个数据清洗任务,分别针对网约车撤销订单和成功订单的数据处理。第一关的任务包括读取.dat文件、清理列名空格、过滤必填字段、处理“null”值、时间格式转换、行政区划代码转换、去重、选择并排序字段,最终输出为单个文件。第二关的任务涉及读取原始数据、删除不需要的列、空字符串转换、处理经纬度字段、时间字段处理、过滤空值和日期范围、格式化时间字段、读取MySQL中的t_address表、添加d
本文介绍了两个数据清洗任务,分别针对网约车撤销订单和成功订单的数据处理。第一关的任务包括读取.dat文件、清理列名空格、过滤必填字段、处理“null”值、时间格式转换、行政区划代码转换、去重、选择并排序字段,最终输出为单个文件。第二关的任务涉及读取原始数据、删除不需要的列、空字符串转换、处理经纬度字段、时间字段处理、过滤空值和日期范围、格式化时间字段、读取MySQL中的t_address表、添加d