yisun123456 个人主页

@yisun123456

yisun123456

2023-06-05 18:23:22 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

模型训练的auc和loss比较问题

AUC 反应的是正样本在负样本前面的概率问题，AUC越大，说明正样本更靠前。LOSS 反应的是真实值与预测值之前的差值，就是损失，LOSS越小，说明预测值越接近于真实值。在二分类问题中，LOSS越小，说明预测的样本预测值两极占比高（负样本更接近0，正样本更接近1）例如：两个模型A B，一个auc高一些，但log也大一些。另一个auc低，但log也低。A模型AUC高，说明它在判断哪个更好的方面，有着

#c语言 #机器学习 #深度学习

keras使用class weight和sample weight处理不平衡问题

在机器学习或者深度学习中，经常会遇到正负样本不平衡问题，尤其是广告、push等场景，正负样本严重不平衡。常规的就是上采样和下采样。这里介绍Keras中的两个参数class_weight和sample_weight1、class_weight 对训练集中的每个类别加一个权重，如果是大类别样本多那么可以设置低的权重，反之可以设置大的权重值2、sample_weight 对每个样本加权中，思路与上面类似

Hellinger Distance（赫林格距离）

给定两个离散概率分布 P={p1,p2,…,pn}和 Q={q1,q2,…,qn}，它们的Hellinger距离定义为：对于连续分布，定义类似：在该公式中，平方根操作使得Hellinger距离在概率空间内具有特殊性质，尤其是它使得结果保持在区间0,1之内。Hellinger距离通过对概率分布的平方根处理来衡量相似性，其范围被限制在0,10,10,1，且是对称的。这使得Hellinger距离适合用于

#机器学习 #算法 #人工智能

Linux 从后向前看文件内容

当日志文件log.log很长，但又要按内容从后往前查看时，可以使用如下命令：tac log.log | moretac log.log | less可以采用如下方式来记忆该命令：cat log.log | more是从前往后查看文件内容，而tac命令是cat命令的字符串反转形式，所以其执行结果也和cat执行结果相反。...

对于kafka spark Streaming出现的问题1

当生产者发送消息出现ERROR Error when sending message to topic test with key: null, value: 36 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback) 而对于消费者不断循环对于sparkStreaming

spark streaming 同时处理两个不同kafka集群的数据

如题，总是不那么完美，要处理的数据在两个不同的kafka集群里面，日子得过，问题也得解决，我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理，代码如下： package com.kingnet import java.util import org.apache.spar...

Kafka2MongoDB

实现了将Kafka中的数据推送给Mongodb，然后再将Mongodb中的数据推送给Es的过程。数据来源是来自txt文档中的180万条数据。准备工作：1）在Mongdb集群上创建一个数据库mydb，并创建一个空的Collection，命名为netflows[java] viewplain copy@SuppressWarni

大数据资料整理

整理了一些电子资料，放在了公众号上-大数据实践指南，刚开始搞这个，希望增加点人气。1.Mahout实践指南2.机器学习实战3.hadoop技术内幕（3本）4.hadoop权威指南（第三版和第四版）5.hive编程指南6.kafka权威指南7.python金融大数据分析8.python自然语言处理9.redis开发与运维（付磊）10.spark机器学习第二版...

hadoop cdh安装

1.下载组件首先去CDH网站上下载hadoop组件地址：http://archive.cloudera.com/cdh5/cdh/5/注意版本号要与其他的组件CDH版本一致 2.环境配置设置主机名和用户名配置静态IP配置SSH免密登录配置JDK3.配置HADOOP1.新建用户hadoop，从root用户获取/opt文件夹的权限，所有节点都要执行...

HIVE 内存溢出常见问题

MapReduce作业运行过程中内存溢出错误分类1、Mapper/Reducer阶段JVM内存溢出（一般都是堆）1)JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二种：“Error: Java heapspace”异常信息；第三种：“ru...

到底了