logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【数据应用案例】金融行业大数据用户画像实践

案例来源:@鲍忠铁案例地址:https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653382844&idx=1&sn=62488a43265862a24540d5ef2ac78dc3&chksm=bd1cd0af8a6b59b9369a14e2fb4ff89172735150d

#金融
【秋招】快手_数据分析岗_面试题整理

1. 不用任何公开参考资料,估算今年新生儿出生数量    1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率    2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测    3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如...

#面试#数据分析
【数据产品案例】美团外卖O2O的用户画像实践

案例来源:@美团技术团队案例地址:https://zhuanlan.zhihu.com/p/257316781. 外卖O2O特征1)新事物:许多用户对外卖平台的新品类、自己的需求都了解较少,需要平台发现用户消费意愿2)高频3)场景驱动:外卖有极强的场景性,对于同一个用户,工作餐ta关心的是健康、价格合适,周末的夜宵关心的是好吃、价格不敏感4)用户消费的地理位置固定:结合地理位置可以帮助判断用户的消

【秋招】携程_数据分析岗_面试题整理

1. spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理    1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理    2)造成数据倾斜的原因:        a. group by维度小,某值数量多        b. dis...

#数据分析#面试
【秋招】招行_数据分析岗_面试题整理

1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...

#面试#数据分析
【秋招】招行_数据分析岗_面试题整理

1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...

#面试#数据分析
【校招面经】机器学习与数据挖掘常见面试题整理 part9

八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...

#机器学习
【数据应用案例】摩拜骑行数据挖掘违章停车

案例来源:@机器之心作者:Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng案例地址:https://mp.weixin.qq.com/s/oGSk9Hsu6lbthJjLHF59Hg 0. 背景:随着汽车保有量增加,停车位供不应求,违章停车现象增加。传统的检测违停的方式是交警巡逻和摄像头检测...

【校招面经】机器学习与数据挖掘常见面试题整理 part2

三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy:对于一棵..

#数据挖掘#机器学习
【校招面经】机器学习与数据挖掘常见面试题整理 part8

七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...

#机器学习
    共 15 条
  • 1
  • 2
  • 请选择