
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
案例来源:@鲍忠铁案例地址:https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653382844&idx=1&sn=62488a43265862a24540d5ef2ac78dc3&chksm=bd1cd0af8a6b59b9369a14e2fb4ff89172735150d
1. 不用任何公开参考资料,估算今年新生儿出生数量 1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率 2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测 3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如...
案例来源:@美团技术团队案例地址:https://zhuanlan.zhihu.com/p/257316781. 外卖O2O特征1)新事物:许多用户对外卖平台的新品类、自己的需求都了解较少,需要平台发现用户消费意愿2)高频3)场景驱动:外卖有极强的场景性,对于同一个用户,工作餐ta关心的是健康、价格合适,周末的夜宵关心的是好吃、价格不敏感4)用户消费的地理位置固定:结合地理位置可以帮助判断用户的消
1. spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理 1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理 2)造成数据倾斜的原因: a. group by维度小,某值数量多 b. dis...
1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...
1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...
八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...
案例来源:@机器之心作者:Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng案例地址:https://mp.weixin.qq.com/s/oGSk9Hsu6lbthJjLHF59Hg 0. 背景:随着汽车保有量增加,停车位供不应求,违章停车现象增加。传统的检测违停的方式是交警巡逻和摄像头检测...
三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy:对于一棵..
七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...







