
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本次分享主要从笔者过去一年和今年上半年的参赛经验来做讲解后续将会针对目前天池开放的几个新人挑战赛推出手把手教你进首页系列文章包括赛题详细思路讲解,demo代码讲解。开始今天的分享是将之前的比赛做一个压缩,每个比赛两页搞定。首先介绍下这一年半的战绩,主要参加了9个比赛,有7次进入top10。成绩不好的就没放上来了哈,主要广东交通那两个没时间去搞,当时在弄穿衣搭配。
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征
之前做了一个视频,从基础的决策树到xgboost,再到代码实现,以及python接口,有兴趣的可以去看看https://class.pkbigdata.com/#/classDetail/forum/5本文不做深入探讨,仅供自己备忘原文:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboo
赛题地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1登录即可下载数据从4月到7月,学习了很多也收获了很多题目就不多说了,一句话表达就是根据过去一个月的行为预测14年12月19号的购买情况。看题目貌似推荐算法,自然就有队伍想到用协同过滤什么的,当然效果不好。首先是特征的问题,然后是这是基于行
参考:台大机器学习技法 http://blog.csdn.net/lho2010/article/details/42927287 stacking&blending http://heamy.readthedocs.io/en/latest/usage.html1.stacking&blendingblending:比如数据分成train和t
scikit-learn已经包含在Anaconda中。也可以在官方下载源码包进行安装。本文代码里封装了如下机器学习算法,我们修改数据加载函数,即可一键测试:[python] viewplain copyclassifiers = {'NB':naive_bayes_classifier, 'KNN
目前就职于腾讯,想内推朋友可以发我简历(校招/社招都要),邮箱384375530@qq.com,注明岗位和工作城市。这个岗位叫法很多,算法岗,数据挖掘岗,机器学习岗,基础研究等等,总结一下从16年9月校招的面试情况。百度:师姐给我内推的,一面聊了2个半小时,基本在写代码。用MapReduce写好友推荐,在一堆单词里面找出现次数最多的k个;设计一个栈,O(1)时间返回最值;求多叉树深...
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征
实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单,就是先用已有特征训练GBDT模型,然后利用GBDT
微额借款用户人品预测的数据不仅有带标签数据,而且还有大量无标签数据,数据存在缺失值,类别不平衡,特征高维度等特点。本次大赛主要是为了能从用户行为数据分析‘小额微贷’申请借款用户的信用状况,来判断其是否逾期。针对需要解决的问题和数据特征,我们主要从四个方面进行处理:数据预处理,特征工程,数据不平衡,以及半监督模型训练。首先,由于数据中存在大量的缺失值,因此需要对缺失值数据进行预处理。比赛中,我们视缺







