logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据分箱:如何确定分箱的最优数量?

需要注意的是,确定最优分箱数量通常是一个迭代的过程,需要结合多种方法进行尝试和评估,同时也要考虑计算成本和模型的可解释性。

文章图片
#机器学习#人工智能#算法 +1
数据处理:数据归一化/标准化常用的算法包括极差法和z-score法

数据归一化和数据标准化都是数据预处理方法,用于使数据在不同尺度下具有可比性和可解释性。两者的主要区别在于归一化将数据缩放到0和1之间,而标准化则将数据缩放到均值为0,标准差为1的范围内。归一化和标准化的选择取决于问题的具体情况,但是这两种方法都有助于提高机器学习模型的性能和准确性。其中,xi表示数据集中的每个数据,平均数表示所有数据的平均值,n表示数据集中的数据个数。标准化后的数据呈现标准正态分布

#数据分析
Python案例分析:使用LightGBM算法、随机森林、五折交叉验证进行分类预测

说明:因为评分方式是以有资金需求的中小企业公司户的F-Measure来评估预测结果的好坏,而样本极其不均衡,所以需要通过上采样来调整数据分布,我这里使用了smote方法(考试中时间来不及直接是1的样本×40)如果使用RandomForest,则建议把缺失值填充为-1。2)、黄色部分的字段是有相关性的,比如ck-saveall = ck-savetime ×ck-saveavg,所以可以通过计算填充

文章图片
#算法#随机森林#分类 +2
通过python简单预测彩票下次是否中奖:LSTM、LogisticRegression

根据往期历史中奖记录,预测下次中奖的概率!总共有日期和中奖结果两个字段,中奖为1,不中奖为0,休息日的记录删除不要!

文章图片
#python#lstm#开发语言 +1
时间序列分析算法的概念、模型检验及应用

ARIMA(Autoregressive Integrated Moving Average)模型是一种常用于处理平稳和非平稳时间序列的模型。ARIMA模型的三个组成部分分别是自回归项(AR)、差分项(I)和移动平均项(MA)。时间序列分析是一种用于研究随时间变化的数据模式和趋势的统计方法。时间序列分析的目标是从过去的观测中提取信息,以便预测未来的趋势。在实际应用中,选择合适的模型和检验方法取决于

#算法#机器学习#数据分析
LDA主题分析的原理、步骤和实现

当然可以!LDA 主题模型是一种强大的工具,用于从大量文本数据中发现隐藏的主题。让我们更详细地介绍它的原理、步骤和实现。

#python#机器学习#数据分析
特征变量基于目标变量分箱后的结果应该怎么通过lift、iv、ks值进行评估分析比较是否合适?

在实际应用中,可以综合考虑 Lift、IV 和 KS 值来评估特征变量基于目标变量分箱后的结果。如果一个特征变量在多个评估指标上都表现良好,那么它可能是一个对目标变量有较强预测能力的重要特征。同时,也可以根据具体的业务需求和数据特点,选择合适的评估指标进行分析。

#机器学习#算法#数据分析 +1
特征处理:WOE分箱

WOE分箱是一种通过将连续变量或分类变量转化为具有区分能力的分箱,并计算每个分箱的证据权重的方法。通过这种方法,可以提高模型的预测能力,特别是在信用评分和风险建模中被广泛应用。

#人工智能#机器学习#数据分析
假设检验方法: t 检验、z 检验、卡方检验、ANOVA(方差分析)

这些假设检验方法在不同情境下有不同的应用,选择合适的方法通常取决于研究问题和数据的特性。在进行假设检验时,研究人员需要设置显著性水平(通常为0.05)来决定是否拒绝原假设,同时考虑统计检验的统计量和临界值。: 假设你想研究一种新药对患者血压的影响。现在,你可以使用配对样本 t 检验来比较两组血压数据,看看在服药前后是否存在显著的差异。: 假设你在不同教学方法下测试了三组学生的考试成绩,你想知道这三

#数据分析#学习
多元逻辑回归模型的概念、模型检验以及应用

多元逻辑回归是逻辑回归的一种扩展,用于处理多类别分类问题。在二元逻辑回归中,我们通过一个逻辑函数(也称为S形函数)将输入特征映射到一个概率值,用于预测两个类别中一个的概率。而在多元逻辑回归中,我们面对的是有多个类别的情况,通常使用 softmax 函数来处理多个类别。在这些应用中,我们通常需要将输入数据分为多个类别,并预测新的样本属于这些类别中的哪一个。在实际应用中,为了提高模型性能,可以采用特征

#逻辑回归#算法#机器学习
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择