logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder

前言数据预处理的过程中经常需要对数据进行数值化等处理,比如将性别男女转换为计算机可以理解的1和0,还有将数值化的1,2,3,4,5按照阈值3转换为0,0,0,1,1等,下面介绍一下sklearn提供的类。Binarizer这个就是根据阈值将数值型转变为二进制型,阈值可以进行设定,另外只能对数值型数据进行处理,且传入的参数必须为2D数组,也就是不能是Series这种类型,shape为...

#sklearn#数据挖掘
单值AUC的计算优化

单值AUCAUC主要用于评估当前模型的排序能力,假设一共有m条正样本和n条负样本,模型为model,那么通过model可以对其中每一条记录进行预测并获得概率值。对于m条正样本和n条负样本,一共可以有mn中二元组合方式,每个二元组包括一条正样本和一条负样本,对所有的二元组使用model进行预测,倘若正样本的概率值大于负样本则加1,统计所有的和,将该和除以mn就是AUC值。这种说法并不那么的...

ctr预估中的评估指标及校准

ctr预估中的评估指标及校准背景最近在实际的工作中发现离线指标与线上指标并非线性吻合关系,因此对离线指标的评估产生了一些思索,因此这里复盘一下ctr预估中的常用评估指标,并附上自己的思考。为什么要做ctr预估?对于常见的推荐问题而言,并不是太关注模型输出概率的绝对值大小而更关注的相对大小,即排序。广告等ctr预估模型中,由于最终的排序还要乘以bid,因此对于ctr的准确度要求非常高,举...

AUC到底是什么?

前言上一篇单值AUC计算优化里,提到了AUC,AUC的全名是Area Under Curve,就是ROC曲线下的面积,上一篇文中提到了AUC是评估模型整体排序能力的,但是具体是什么没有进行展开介绍,考虑到可能很多人对这么个玩意都不是那么理解,因为网上大部分都是从ROC怎么画,AUC怎么算,AUC代表什么,但是为什么代表这些含义却都没有提到,所以这次就专门写了一篇来介绍什么是AUC。ROC首先...

#AI
到底了