logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型训练的auc和loss比较问题

AUC 反应的是正样本在负样本前面的概率问题,AUC越大,说明正样本更靠前。LOSS 反应的是真实值与预测值之前的差值,就是损失,LOSS越小,说明预测值越接近于真实值。在二分类问题中,LOSS越小,说明预测的样本预测值两极占比高(负样本更接近0,正样本更接近1)例如:两个模型A B,一个auc高一些,但log也大一些。另一个auc低,但log也低。A模型AUC高,说明它在判断哪个更好的方面,有着

#c语言#机器学习#深度学习
keras使用class weight和sample weight处理不平衡问题

在机器学习或者深度学习中,经常会遇到正负样本不平衡问题,尤其是广告、push等场景,正负样本严重不平衡。常规的就是上采样和下采样。这里介绍Keras中的两个参数class_weight和sample_weight1、class_weight 对训练集中的每个类别加一个权重,如果是大类别样本多那么可以设置低的权重,反之可以设置大的权重值2、sample_weight 对每个样本加权中,思路与上面类似

Hellinger Distance(赫林格距离)

给定两个离散概率分布 P={p1,p2,…,pn}和 Q={q1,q2,…,qn},它们的Hellinger距离定义为:对于连续分布,定义类似:在该公式中,平方根操作使得Hellinger距离在概率空间内具有特殊性质,尤其是它使得结果保持在区间0,1之内。Hellinger距离通过对概率分布的平方根处理来衡量相似性,其范围被限制在0,10,10,1,且是对称的。这使得Hellinger距离适合用于

文章图片
#机器学习#算法#人工智能
Linux 从后向前看文件内容

当日志文件log.log很长,但又要按内容从后往前查看时,可以使用如下命令:tac log.log | moretac log.log | less可以采用如下方式来记忆该命令:cat log.log | more是从前往后查看文件内容,而tac命令是cat命令的字符串反转形式,所以其执行结果也和cat执行结果相反。...

对于kafka spark Streaming出现的问题1

当生产者发送消息 出现ERROR Error when sending message to topic test with key: null, value: 36 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback) 而对于消费者不断循环 对于sparkStreaming

spark streaming 同时处理两个不同kafka集群的数据

如题,总是不那么完美,要处理的数据在两个不同的kafka集群里面,日子得过,问题也得解决,我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理,代码如下:  package com.kingnet import java.util import org.apache.spar...

Kafka2MongoDB

实现了将Kafka中的数据推送给Mongodb,然后再将Mongodb中的数据推送给Es的过程。数据来源是来自txt文档中的180万条数据。准备工作:1)在Mongdb集群上创建一个数据库mydb,并创建一个空的Collection,命名为netflows[java] viewplain copy@SuppressWarni

大数据资料整理

整理了一些电子资料,放在了公众号上-大数据实践指南,刚开始搞这个,希望增加点人气。1.Mahout实践指南2.机器学习实战3.hadoop技术内幕(3本)4.hadoop权威指南(第三版和第四版)5.hive编程指南6.kafka权威指南7.python金融大数据分析8.python自然语言处理9.redis开发与运维(付磊)10.spark机器学习 第二版...

hadoop cdh安装

1.下载组件首先去CDH网站上下载hadoop组件地址:http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop,从root用户获取/opt文件夹的权限,所有节点都要执行...

HIVE 内存溢出常见问题

MapReduce作业运行过程中内存溢出错误分类1、Mapper/Reducer阶段JVM内存溢出(一般都是堆)1)JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常:第一种:“java.lang.OutOfMemoryError:” GC overhead limit exceeded;第二种:“Error: Java heapspace”异常信息;第三种:“ru...

到底了