logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

spark dataframe出现某个字段不在一个空的数组里

ERROR yarn.ApplicationMaster: User class threw exception: org.apache.spark.sql.AnalysisException: cannot resolve '`uid`' given input columns: [];;说明 加载的dataframe是一个空的,没有数据,查看分区是否正常...

tomcat 热部署出现的问题

3.403错误报错信息如下:[ERROR] Failed to execute goal org.apache.tomcat.maven:tomcat7-maven-plugin: 2.0-SNAPSHOT:deploy (default-cli) on project helloworld: Cannot invoke Tomcat manager: Server returne

模型训练的auc和loss比较问题

AUC 反应的是正样本在负样本前面的概率问题,AUC越大,说明正样本更靠前。LOSS 反应的是真实值与预测值之前的差值,就是损失,LOSS越小,说明预测值越接近于真实值。在二分类问题中,LOSS越小,说明预测的样本预测值两极占比高(负样本更接近0,正样本更接近1)例如:两个模型A B,一个auc高一些,但log也大一些。另一个auc低,但log也低。A模型AUC高,说明它在判断哪个更好的方面,有着

#c语言#机器学习#深度学习
keras使用class weight和sample weight处理不平衡问题

在机器学习或者深度学习中,经常会遇到正负样本不平衡问题,尤其是广告、push等场景,正负样本严重不平衡。常规的就是上采样和下采样。这里介绍Keras中的两个参数class_weight和sample_weight1、class_weight 对训练集中的每个类别加一个权重,如果是大类别样本多那么可以设置低的权重,反之可以设置大的权重值2、sample_weight 对每个样本加权中,思路与上面类似

Hellinger Distance(赫林格距离)

给定两个离散概率分布 P={p1,p2,…,pn}和 Q={q1,q2,…,qn},它们的Hellinger距离定义为:对于连续分布,定义类似:在该公式中,平方根操作使得Hellinger距离在概率空间内具有特殊性质,尤其是它使得结果保持在区间0,1之内。Hellinger距离通过对概率分布的平方根处理来衡量相似性,其范围被限制在0,10,10,1,且是对称的。这使得Hellinger距离适合用于

文章图片
#机器学习#算法#人工智能
大数据资料整理

整理了一些电子资料,放在了公众号上-大数据实践指南,刚开始搞这个,希望增加点人气。1.Mahout实践指南2.机器学习实战3.hadoop技术内幕(3本)4.hadoop权威指南(第三版和第四版)5.hive编程指南6.kafka权威指南7.python金融大数据分析8.python自然语言处理9.redis开发与运维(付磊)10.spark机器学习 第二版...

hadoop cdh安装

1.下载组件首先去CDH网站上下载hadoop组件地址:http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop,从root用户获取/opt文件夹的权限,所有节点都要执行...

到底了