logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习-最近邻算法KNN原理及实现-附python代码

KNN是通过测量不同特征值之间的距离进行分类。它的思路是:K个最近的邻居,每个样本都可以用它最接近的K个邻居来代表,如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特征, KNN算法的结果很大程度取决于K的选择,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只

文章图片
#机器学习#python#近邻算法
模型概率值与分数的转换-附python代码

无论评分卡建模和是机器学习建模,最终的输出结果都是概率值,并不是一个特定范围的分数,现给大家介绍一个方法。1.基本定义坏用户的概率为P好用户的概率为1-P好坏比(好坏用户的比值叫比率,这里用坏用户与好用户的比值)odds=p/(1-p)模型的评分设定的分值刻度可以通过将分值表示为比率对数的线性表达式,即Score = A - B * ln(odds),其中A,B是常数2.评分转换设...

机器学习-随机森林的网格调参实例-附python代码

1. 随机森林RandomForestClassifier官方网址:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html1.1 原理解释从给定的训练集通过多次随机的可重复的采样得到多个 bootstrap 数据集。接着,对每个 bootstrap 数据集构造一棵决

#python#机器学习#深度学习 +1
机器学习分类问题效果评价的三大类指标

在使用机器学习算法解决一些分类问题的过程中,往往需要不同的模型评估指标,主要有一下三类指标:1.混淆矩阵相关1.1混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。1.2准确率(Accuracy)准确率是最常用的分类性能指标。Accuracy = (TP+TN)/(TP+FN+FP+TN)即正确预测的正反

文章图片
#python#机器学习#深度学习 +1
数据分析常用加密方式MD5、SHA256、RSA

数据测试与分析需要经常将用户的敏感信息加密,将原有的明文信息经过加密算法转换成不可读的字符串,从而达到加密的目的,常用的加密算法有MD5、SHA256、RSA等。1.MD5、SHA256都是哈希算法,python中都来自hashlib包,主要是将一段字符串通过一定的加密算法转换成另一种字符串,因具有不可逆的特点,从而保证了数据的安全。2.RSA是一种非对称加密算法,对极大整数做因数分解的难度决..

机器学习分类问题效果评价的三大类指标

在使用机器学习算法解决一些分类问题的过程中,往往需要不同的模型评估指标,主要有一下三类指标:1.混淆矩阵相关1.1混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。1.2准确率(Accuracy)准确率是最常用的分类性能指标。Accuracy = (TP+TN)/(TP+FN+FP+TN)即正确预测的正反

文章图片
#python#机器学习#深度学习 +1
机器学习模型保存和导出pmml文件(python代码)

导出当前conda环境的所有包到一个environment.yml文件中,这个文件包含了conda环境中的所有依赖(包名和版本),包括Python包和非Python库,也可以用来完全恢复整个conda环境。训练好的模型通常需要在生产环境中部署和使用,一般导出为PMML(Predictive Model Markup Language)格式,以便在其他平台上使用,能够更加灵活地应用于各种场景。将当前

文章图片
#python#sklearn#算法 +1
模型优化调参方法介绍(Python代码)

模型算法在机器学习和深度学习中都发挥着自己的作用,但有的时候我们训练出来的模型并不能满足上线需求,那我们就需要对模型进行调优。一般来说,会从以下几个角度来优化模型。

文章图片
#python#开发语言#算法 +1
机器学习模型保存和导出pmml文件(python代码)

导出当前conda环境的所有包到一个environment.yml文件中,这个文件包含了conda环境中的所有依赖(包名和版本),包括Python包和非Python库,也可以用来完全恢复整个conda环境。训练好的模型通常需要在生产环境中部署和使用,一般导出为PMML(Predictive Model Markup Language)格式,以便在其他平台上使用,能够更加灵活地应用于各种场景。将当前

文章图片
#python#sklearn#算法 +1
机器学习-LightGBM算法分类器-附python代码

LightGBM与XGBoost 算法类似,其基本思想都是对所有特征都按照特征的数值进行排序,找到一个特征上的最好分割点,将数据分裂成左右子节点。两种算法都有很多的优点,比如更快的训练效率、更高的准确率、支持并行化学习、大规模数据的处理等,但XGBOOST也有一些明显的缺点,如在选择树的分隔节点时,需要遍历所有的特征值,计算量大,内存占用量也大,还有易产生过拟合等。类似随机森林,它将在不进行重采样

#机器学习#算法#python +1
    共 19 条
  • 1
  • 2
  • 请选择