logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

老码农和你一起学AI系列:系统化特征工程-特征编码

摘要: 特征选择是机器学习中解决"维度灾难"的关键技术,通过筛选高价值特征实现降维、减噪、提升可解释性和训练效率。本文系统解析四大方法: 过滤法(IV值/相关系数/卡方检验):快速评估特征与目标的统计关联,IV值在风控领域广泛应用,通过WOE分箱量化特征区分能力; 包裹法(如RFE):依赖模型迭代淘汰低重要性特征,计算成本高但效果优; 嵌入法(Lasso/树模型):将特征选择融

文章图片
#机器学习#python#人工智能
老码农和你一起学AI系列:系统化特征工程-类别特征编码

本文系统讲解了机器学习中类别特征编码的核心方法与实战技巧。首先区分了名义变量和有序变量的编码逻辑,重点介绍了独热编码(适合低类别数名义变量)、目标编码(解决高基数问题)和自定义映射编码(保留有序变量等级关系)。通过Python代码演示了不同编码方法的实现,对比了它们在模型性能上的差异,并提供了编码选择指南。文章强调:编码的本质是将业务逻辑转化为数学信号,需避免数据泄露、处理新类别、合理使用平滑技术

文章图片
#python#开发语言
老码农和你一起学AI系列:系统化特征工程-类别特征编码

本文系统讲解了机器学习中类别特征编码的核心方法与实战技巧。首先区分了名义变量和有序变量的编码逻辑,重点介绍了独热编码(适合低类别数名义变量)、目标编码(解决高基数问题)和自定义映射编码(保留有序变量等级关系)。通过Python代码演示了不同编码方法的实现,对比了它们在模型性能上的差异,并提供了编码选择指南。文章强调:编码的本质是将业务逻辑转化为数学信号,需避免数据泄露、处理新类别、合理使用平滑技术

文章图片
#python#开发语言
老码农和你一起学AI系列:系统化特征工程-特征编码

特征编码是机器学习中处理类别数据的关键技术,主要分为名义变量和有序变量两类。名义变量(如性别、职业)适合独热编码或目标编码,避免引入虚假顺序;有序变量(如学历、评分)适合标签编码或自定义映射,需保留固有顺序关系。高级技巧包括频次编码和WOE编码,适用于特定场景。注意事项:警惕维度诅咒、防止过拟合、区分真假有序特征,并据模型类型选择编码方式。合理编码能有效提升模型性能,需结合实验验证选择最优方案。

文章图片
#人工智能#机器学习#python
老码农和你一起学AI系列:系统化特征工程-特征编码

特征编码是机器学习中处理类别数据的关键技术,主要分为名义变量和有序变量两类。名义变量(如性别、职业)适合独热编码或目标编码,避免引入虚假顺序;有序变量(如学历、评分)适合标签编码或自定义映射,需保留固有顺序关系。高级技巧包括频次编码和WOE编码,适用于特定场景。注意事项:警惕维度诅咒、防止过拟合、区分真假有序特征,并据模型类型选择编码方式。合理编码能有效提升模型性能,需结合实验验证选择最优方案。

文章图片
#人工智能#机器学习#python
老码农和你一起学AI系列:系统化特征工程-Python缺失值处理

本文介绍了数据分析中缺失值处理的四种核心方法:删除法、统计量填充、KNN填充和统计量填充+缺失标志。通过Python实战演示,使用Pandas和Scikit-learn构建包含三种缺失模式的数据集,并对比不同方法的效果。结果表明,统计量填充+缺失标志方法表现最佳,准确率达0.78,因其既填补缺失又保留了缺失信息。文章强调应根据数据特征(缺失率、关联性等)选择合适方法,并避免数据泄露。最终提供决策流

文章图片
#python#开发语言#人工智能
老码农和你一起学AI系列:系统化特征工程-缺失值处理

缺失值是数据分析中的常见问题,需根据不同缺失机制选择处理方法。缺失机制分为完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)三类。处理方法主要包括删除法(列表删除和成对删除)和填充法(统计量填充、模型预测填充等)。选择方法需考虑缺失机制、数据量和特征重要性等因素,没有通用的最优方案,需结合实际场景灵活应用。正确处理缺失值对保证数据质量和分析结果准确性至关重要。

文章图片
#人工智能#机器学习
老码农和你一起学AI系列:系统化特征工程-理论基础

特征工程是决定机器学习系统性能的关键因素,它如同烹饪中的备菜过程,直接影响最终"菜品"质量。特征质量决定了模型认知能力的上限,优质特征比复杂算法更能提升模型表现。完整的特征工程包括数据理解、清洗、转换、构造和选择等环节,需要结合领域知识进行创造性处理。尽管AutoML等工具正在发展,但特征工程仍离不开人类对业务的理解和判断。掌握特征工程这一核心技能,才能从数据中真正挖掘出有价值

文章图片
#人工智能
老码农和你一起学AI系列:机器学习实战-工业级机器学习工作流构建

"""将用户 tenure(在网时长)分箱为离散特征"""# 拟合阶段无需操作,返回自身# X为DataFrame格式,添加分箱特征labels=['0-1年', '1-2年', '2-5年', '5年以上']# 在预处理前添加分箱步骤('preprocessor', preprocessor) # 之前定义的ColumnTransformer])模型性能:梯度提升模型在测试集上达到 0.82 的

文章图片
#机器学习#人工智能
老码农和你一起学AI系列:机器学习实战- SVM 与核方法

本文介绍了支持向量机(SVM)的基本原理及其应用。SVM通过最大化间隔来寻找最优分类超平面,具有优秀的泛化能力。文章详细讲解了硬间隔SVM、Hinge Loss优化方法,以及Scikit-learn中SVC类的核心参数设置。通过月亮数据集的分类实验,对比了不同核函数(线性核、多项式核和RBF核)的效果,展示了SVM处理非线性问题的能力。最后指出,在实际应用中需要根据数据特点选择合适的核函数,并利用

文章图片
#支持向量机#机器学习#人工智能
    共 77 条
  • 1
  • 2
  • 3
  • 8
  • 请选择