logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《sklearn机器学习——模型的持久性》joblib 和 pickle 进行模型保存和加载

本文详细介绍了Scikit-learn中模型持久化的应用方法,重点讲解了joblib和pickle两种工具的使用。主要内容包括:模型持久化的基本概念及其重要性;通过具体代码示例展示了如何使用joblib和pickle保存和加载模型;分析了模型持久化在工业环境和Web服务中的实际应用场景;探讨了跨平台兼容性及持久化带来的挑战;最后介绍了模型版本控制、CI/CD集成等高级优化技巧。文章为机器学习开发者

文章图片
#机器学习#sklearn#人工智能
《sklearn机器学习——绘制分数以评估模型》验证曲线、学习曲线

估计器的泛化误差可分解为偏差、方差和噪声。偏差反映模型平均误差,方差表示模型对训练数据的敏感度。通过不同复杂度多项式回归的对比实验发现:简单模型(1次多项式)欠拟合(高偏差),中等复杂度模型(4次多项式)拟合良好,复杂模型(15次多项式)过拟合(高方差)。验证曲线通过评估不同超参数下的模型表现,帮助选择最佳参数并分析过/欠拟合情况。学习曲线则展示训练集规模对模型性能的影响,如朴素贝叶斯在小数据量下

文章图片
#机器学习#sklearn#人工智能
《sklearn机器学习——聚类性能指标》Calinski-Harabaz 指数

Calinski-Harabaz指数是一种评估聚类质量的指标,通过计算簇间离散度与簇内离散度之比来衡量聚类效果,得分越高表示聚类效果越好。该指数具有简单易用、解释性强等优点,但对簇形状敏感,适用于球形簇的数据集。在sklearn中,可通过calinski_harabasz_score函数计算该指数,输入数据和聚类标签即可得到评分。使用时需注意其局限性,建议结合其他指标综合评估。示例代码展示了如何生

文章图片
#机器学习#sklearn#聚类
《Sklearn 机器学习模型--分类模型》--支持向量机(Support Vector Machine, SVM)

两个类别的支持向量(即离超平面最近的样本点)到超平面的*垂直距离之和。最大化间隔可以提高模型的泛化能力。

文章图片
#支持向量机#机器学习#sklearn
《sklearn机器学习——聚类性能指标》Silhouette 系数

轮廓系数是一种用于评估聚类质量的内部指标,它通过计算样本到同簇和最近其他簇的平均距离来量化聚类效果,取值范围为[-1,1],值越大表明聚类效果越好。其优点包括无需真实标签、直观可解释性强、可进行样本级分析等,但对非凸簇效果不佳且计算复杂度较高。典型应用包括确定最优聚类数k和评估聚类质量,Python中可通过scikit-learn的silhouette_score实现。

文章图片
#机器学习#sklearn#聚类
《sklearn机器学习——聚类性能指标》Davies-Bouldin Index (戴维斯-博尔丁指数)

摘要: Davies-Bouldin Index(DBI)是一种评估聚类质量的内部指标,值越低表示聚类效果越好。其计算基于簇内平均距离与簇间中心距离的比值,适用于数据探索和确定最佳聚类数。优点在于直观易用,但对非球形簇敏感。sklearn.metrics.davies_bouldin_score函数实现了DBI,通过输入特征矩阵和聚类标签返回评分,示例代码展示了如何结合KMeans聚类计算DBI。

文章图片
#机器学习#支持向量机#人工智能
《人工智能学习路径总规划》—做好规划,学起来更轻松

计算机视觉致力于让机器“看懂”图像和视频,广泛应用于安防、自动驾驶、医疗影像、工业质检等领域。NLP 让机器理解、生成人类语言,是大模型时代的核心领域,应用于智能客服、搜索引擎、写作助手、翻译系统等。强化学习通过“试错+奖励”机制训练智能体(Agent)在环境中做出最优决策,广泛应用于游戏AI、机器人控制、自动驾驶决策等。大厂面试通常分为简历筛选、笔试/在线编程测试、技术面试(算法与系统设计)、H

#人工智能#学习#深度学习 +1
《sklearn机器学习——数据预处理》类别特征编码

本文介绍了 sklearn 中常用的类别特征编码方法: LabelEncoder:将类别映射为整数,适用于目标变量 OrdinalEncoder:支持多列有序特征编码 OneHotEncoder:通过二进制向量表示无序类别 pandas.get_dummies:替代方案 文中提供了各方法的代码示例、参数说明和适用场景建议,并推荐使用ColumnTransformer组合不同编码器。最后强调需注意训

文章图片
#机器学习#sklearn#人工智能
《sklearn机器学习——管道和复合估算器》异构数据的列转换器

ColumnTransformer 实用指南 本指南介绍了 scikit-learn 中 ColumnTransformer 的核心功能,用于高效处理异构数据集。ColumnTransformer 允许对不同类型的数据列(数值型、类别型、文本型等)应用特定转换器,并自动拼接结果。 核心优势: 统一管理各类数据的预处理流程 避免训练/测试集数据泄露 可无缝嵌入机器学习管道 支持按列名、索引或数据类型

文章图片
#机器学习#sklearn#人工智能
《sklearn机器学习——回归指标1》

sklearn.metrics模块提供多种回归评估指标,包括可解释方差分数(explained_variance_score)。该分数通过1减去残差方差与目标方差的比值计算,最优值为1.0。参数multioutput支持三种计算方式:均匀平均('uniform_average')、原始值('raw_values')和方差加权('variance_weighted')。示例展示了不同预测质量下的得分

文章图片
#机器学习#sklearn#回归
    共 27 条
  • 1
  • 2
  • 3
  • 请选择