logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PySpark特征工程(I)--数据预处理

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

#机器学习#spark
特征工程(I)--探索性数据分析

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。

文章图片
#数据分析#数据挖掘
机器学习(V)--无监督学习(一)聚类

根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,目的是想将那些相似的样本尽可能聚在一起,不相似的样本尽可能分开。

文章图片
#机器学习#学习#聚类
PySpark特征工程(III)--特征选择

本章介绍了很多特征选择方法单变量特征选择可以用于理解数据、数据的结构、特点,也可以用于排除不相关特征,但是它不能发现冗余特征。正则化的线性模型可用于特征理解和特征选择。但是它需要先把特征转换成正态分布。嵌入法的特征重要性选择是一种非常流行的特征选择方法,它易于使用。但它有两个主要问题:重要的特征有可能得分很低(关联特征问题)这种方法对类别多的特征越有利(偏向问题)至此,经典的特征工程至此已经完结了

#机器学习#spark
大数据手册(Spark)--Spark流数据处理

文章目录Spark StreamingSpark安装配置Spark基本架构及运行流程Spark基础知识(PySpark版)Spark机器学习(PySpark版)Spark流数据处理(PySpark版)Spark StreamingHadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以...

文章图片
#spark#big data#大数据
机器学习(V)--无监督学习(六)流形学习

title: 机器学习(V)–无监督学习(二)流形学习date:katex: truecategories:Artificial IntelligenceMachine Learningtags:机器学习cover: /img/ML-unsupervised-learning.pngtop_img: /img/artificial-intelligence.jpgabbrlink: 26cd5aa

#机器学习#学习#人工智能
Python手册(Machine Learning)--XGBoost

xgboost 在 xgb.train中通过参数obj和custom_metric来自定损失函数和评估函数。自定义损失函数接受predt和dtrain作为输入,返回损失函数的一阶(grad)和二阶(hess)导数。'''自定义损失函数后,模型的输出不在是 [0,1] 概率输出,而是 sigmoid 函数之前的输入值。因此,需要写出对应的评估函数。评估函数也接受predt和dtrain作为输入,返回

#机器学习
分布式机器学习

LightGBM的参数比SynapseML公开的要多得多,若要添加额外的参数,请使用passThroughArgs字符串参数配置。您可以混合passThroughArgs和显式args,SynapseML合并它们以创建一个要发送到LightGBM的参数字符串。如果您在两个地方都设置参数,则以passThroughArgs为优先。

文章图片
#分布式#机器学习#人工智能
偏微分方程(Partial Differential Equation II)

数学物理方法球函数勒让德方程的解勒让德函数连带勒让德函数球谐函数柱函数贝塞尔方程的解贝塞尔函数球贝塞尔方程偏微分方程(Partial Differential EquationI)偏微分方程(Partial Differential EquationII)偏微分方程(Partial Differential EquationIII)球函数勒让德方程的解求解勒让德方程(Legendre equati

机器学习基本流程

PSI(Population Stability Index)指标反映了实际分布(actual)与预期分布(expected)的差异。在建模中,我们常用来筛选特征变量、评估模型稳定性。其中,在建模时通常以训练样本(In the Sample, INS)作为预期分布,而验证样本在各分数段的分布通常作为实际分布。超参数调优算法主要有网格搜索(Grid Search),随机搜索(Randomized S

文章图片
#机器学习#人工智能
    共 24 条
  • 1
  • 2
  • 3
  • 请选择