简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
利用python进行常见的数据预处理,主要是通过sklearn的preprocessing模块以及自写的方法来介绍加载包及导入数据# -*- coding:utf-8 -*-import mathimport numpy as npfrom sklearn import datasetsfrom sklearn import preprocessingiris = datasets.load_ir
LightGBM与XGBoost 算法类似,其基本思想都是对所有特征都按照特征的数值进行排序,找到一个特征上的最好分割点,将数据分裂成左右子节点。两种算法都有很多的优点,比如更快的训练效率、更高的准确率、支持并行化学习、大规模数据的处理等,但XGBOOST也有一些明显的缺点,如在选择树的分隔节点时,需要遍历所有的特征值,计算量大,内存占用量也大,还有易产生过拟合等。类似随机森林,它将在不进行重采样
无论评分卡建模和是机器学习建模,最终的输出结果都是概率值,并不是一个特定范围的分数,现给大家介绍一个方法。1.基本定义坏用户的概率为P好用户的概率为1-P好坏比(好坏用户的比值叫比率,这里用坏用户与好用户的比值)odds=p/(1-p)模型的评分设定的分值刻度可以通过将分值表示为比率对数的线性表达式,即Score = A - B * ln(odds),其中A,B是常数2.评分转换设...
1.求group by之后和的占比先做group by分组汇总,再单独inner join连接到和,最后分组结果除以连接到的和selectifnull(hour_diff,'--合计--') hour_diff,count(1) cnt,count(1)/tot pctfrom(select timestampdiff(hour,createtime,activate_time) hour_dif
在进行数据分析建模的过程中,数据不均衡是非常常见的问题,一般可以用过采样,欠采样,过采样+欠采样等发放处理。如SMOTE算法,通过插值生成合成样本,非直接对少数类进行重采样,从而使得少数类样本的特征空间得到扩展,有助于模型更好地探索和学习少数类的特征,提高模型的性能。如随机欠采样,随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机
通过贝叶斯定理的理解,运用贝叶斯分类器处理分类问题
通过贝叶斯定理的理解,运用贝叶斯分类器处理分类问题