
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目:1.HousePrices2.Titanic以及比较不错的几个kernels:1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora
RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点:1. 是一个分区的只读记录的集合;2. 一个具有容错机制的特殊集;3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建;4. 可以分布在集群的节点上,以函数式操
问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程,数据挖掘的流程怎么做特征工程的数据预处理的方法有哪些归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的,提取特征的方法提取了多少特征,特征的维度,哪些特征比较好对特征的评估方法是什么,怎么判断其好坏用了什么模型 ...
从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。
转自菜鸟教你如何通俗理解——>集群、负载均衡、分布式 在“高并发,海量数据,分布式,NoSql,云计算......”概念满天飞的年代,相信不少朋友都听说过甚至常与人提起“集群,负载均衡”等,但不是所有人都有机会真正接触到这些技术,也不是所有人都真正理解了这些“听起来很牛的”技术名词。下面简单解释一下吧。(从一个网站上面看到的,例子很有趣,分享给大家) 集群(
用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目:1.HousePrices2.Titanic以及比较不错的几个kernels:1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora







