
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变
1. 相似度模型的应用场景简单的说,相似度模型的应用场景就是,需要找到和某个实体相似的其他实体。比如:(1)商铺选址:某公司要在新城市开新的店铺,需要选址,可以使用相似度模型,找到和现有市场中表现好的商铺地址相似的地点;(2)广告宣传:其实和商铺选址类似,要选择一个好的宣传地点,可以使用相似度模型,找到和现有最好的宣传地点最相似的地点;(3)个性化推荐:这是现在互联网领域,尤其
1. 原理最近邻方法的基本原理是:距离最近的个体之间是最相似的,会表现出相同的行为。比如,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。基于记忆的推理算法和协同过滤算法都是基于这个基本思想的。基于记忆的推理算法,是在过去的个体中,找到和当前样本最相似的一个或者多个个体,用这些个体的结果作为当前样本的预测结果。
1. 表查询模型的基本思想:表查询模型基本上基于这样一个基本思想:在多个已知属性上上相似的个体,在其他属性上也会相似。比如个体A和个体B的三个属性x1,x2,x3相似,那么另外一个属性y很可能也相似。注:(1)这种相似性的关联是有限制的,主要的限制就是x1,x2,x3和y应该具有比较高的相关性。如果x1,x2,x3和y没有相关性,那么,即使两个个体在x1,x2,x3属性上都非常相
1. 适用的场景(1)分析对某种响应可能性影响最大的因素,比如判断具有什么特征的客户流失概率更高;(2)为其他模型筛选变量。决策树找到的变量是对目标变量影响很大的变量。所以可以作为筛选变量的手段。注:1)决策树筛选的变量之间的独立性可能不够,因为决策树每次选择变量时不会考虑变量和其他变量的相关性。所以,如果其他模型自变量的相关性很敏感,用决策树筛选变量时需要检查变量的相关性。2
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变







