logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

信用评分卡模型稳定度指标PSI

由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有

set()函数的用法

创建集合setpython set类是在python的sets模块中,大家现在使用的python2.3中,不需要导入sets模块可以直接创建集合。>>>set('boy')set(['y', 'b', 'o'])集合添加、删除集合的添加有两种常用方法,分别是add和update。集合add方法:是把要传入的元素做为一个整个添加到集合中,例如:&gt

随机森林对特征重要性排序

two methods: 1.Mean decrease impurity 大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征排序,然后整个森林取平均2.Mean decrease accuracy 大概就是measure一下对每个特征加躁,看对结果的准确率的影响。影响小说明这个特征不重要,反之重要 具体步骤如下: 在随机森林中某个特征X

#随机森林
信用评分卡模型稳定度指标PSI

由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有

多重共线性的解决方法

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确[百度百科]。通俗的说,就是变量之间有较强的相关性,影响模型的预测能力。解决多重共线问题可以考虑一下几种方法:(一)删除不重要的自变量自变量之间存在共线性,说明自变量所提供的信息是重叠的,可以删除不重要的自变量减少重复信息。但从模型中删去自变量时应该注..

孪生神经网络Contrastive Loss (对比损失)

Contrastive Loss (对比损失)在caffe的孪生神经网络(siamese network)中,其采用的损失函数是contrastive loss,这种损失函数可以有效的处理孪生神经网络中的paired data的关系。contrastive loss的表达式如下: 其中d=||an−bn||2,代表两个样本特征的欧氏距离,y为两个样本是否匹配的标签,y=1代表两个样本相...

机器学习中分类模型的评估方法之--Kappa系数

Kappa系数首先,我们介绍一下kappa系数:kappa系数是用在统计学中评估一致性的一种方法,我们可以用他来进行多分类模型准确度的评估,这个系数的取值范围是[-1,1],实际应用中,一般是[0,1],与ROC曲线中一般不会出现下凸形曲线的原理类似。这个系数的值越高,则代表模型实现的分类准确度越高。kappa系数的计算方法可以这样来表示:k=(po−pe)/(1−pe)...

相似度算法之余弦相似度

余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余

DeepFM原理及源码解析

1、DeepFM原理回顾先来回顾一下DeepFM的模型结构:DeepFM包含两部分:因子分解机部分与神经网络部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的嵌入层输入。DeepFM的预测结果可以写为:嵌入层嵌入层(embedding layer)的结构如上图所示。通过嵌入层,尽管不同field的长度不同(不同离散变量的取值个数可能不同),但是embedd...

随机森林对特征重要性排序

two methods: 1.Mean decrease impurity 大概是对于每颗树,按照impurity(gini /entropy /information gain)给特征排序,然后整个森林取平均2.Mean decrease accuracy 大概就是measure一下对每个特征加躁,看对结果的准确率的影响。影响小说明这个特征不重要,反之重要 具体步骤如下: 在随机森林中某个特征X

#随机森林
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择