
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 数据标准化(Z-Score)是机器学习预处理的核心技术,通过将特征转换为均值为0、标准差为1的分布,解决量纲不一致和数值差异大的问题。其核心公式为z=(x-μ)/σ,能消除特征间尺度差异,加速模型收敛并提升精度(如KNN、SVM等)。与归一化相比,标准化对异常值更鲁棒,适用于大多数模型(除树模型外)。文中通过数学推导、可视化对比和完整代码示例,阐明标准化的原理、实现及适用场景,强调其在距离

谱聚类是一种强大的聚类算法,特别擅长处理复杂形状和非线性边界的数据。与K-Means不同,谱聚类通过分析数据点之间的连接关系而非直接距离,能够有效解决月牙形、环形等复杂分布数据的聚类问题。其核心流程包括构建相似度矩阵、度矩阵和拉普拉斯矩阵,进行特征分解后在新特征空间执行简单聚类。谱聚类在图像分割、社交网络分析等领域表现优异,但计算复杂度较高,适用于小规模高维数据。本文通过生活案例、数学推导和实战代

摘要: Mean Shift是一种无需预设簇数的密度聚类算法,通过让数据点向高密度区域漂移实现自动分组。其核心思想是设置带宽参数(h),计算每个点邻域内的加权均值并迭代移动,直到收敛形成聚类。算法优点包括适应任意形状簇、抗噪声,但计算复杂度高且对带宽敏感。适用于图像分割、目标跟踪等场景,尤其适合不规则分布的小规模数据。文中通过糖果分组案例、公式推导和Python代码(含自动带宽估算与可视化)详细讲

前馈神经网络是深度学习的“基石”,核心是“多层非线性转换+反向传播训练”,能拟合复杂数据规律,是后续卷积网络、Transformer等模型的基础。
数据归一化是机器学习中关键的数据预处理步骤,通过Min-Max方法将不同量级的特征统一缩放到[0,1]区间。文章详细解析了归一化的必要性、数学原理和实现方法,对比了归一化与标准化的区别,并提供了完整的Python可视化代码。主要内容包括:归一化公式推导、数据映射过程、4种可视化分析(折线图、柱状图、散点图和直方图),以及不同机器学习模型对归一化的需求程度。特别强调距离类算法(如KNN、SVM)必须

卷积神经网络(CNN/ConvNet)是专门为处理网格结构数据(比如图像、语音序列)设计的深层前馈网络。它的核心优势是局部连接、权重共享、汇聚降维——既解决了全连接网络参数爆炸的问题,又能高效捕捉数据的局部特征(比如图像的边缘、纹理),还能保证一定的平移、缩放不变性(比如猫的图像不管放在画面左边还是右边,都能识别)。本章会从“卷积”这个核心运算入手,逐步拆解CNN的结构、工作原理、参数学习方法,再
摘要: 特征构造是机器学习中通过加工原始数据创造新特征的关键技术,能显著提升模型性能。核心方法包括特征组合、多项式变换、函数转换、时间特征提取、分箱离散化和统计聚合。流程涵盖数据理解、特征设计、实现与验证。实战案例展示了波士顿房价预测中特征构造的应用,通过多项式扩展和函数变换提升模型R²值。特征构造特别适合小样本、线性模型和需解释性场景,但需避免维度爆炸。与特征选择、数据转换协同使用,是数据建模的

把不规整、难处理的数据,变成规整、好计算、符合模型要求的数据。数值差距太大(收入 1000~1000 万)是文字而不是数字(男/女、好/中/差)分布歪歪扭扭(严重右偏)连续值不想用具体数字,只想分等级都要靠数据转换来解决。数据转换 = 把原始数据改成模型友好格式7 大核心方法:标准化、归一化、对数、Box-Cox、分箱、One-Hot、PCA距离/线性模型必做缩放,树模型可不做偏态数据用对数,分类

机器学习特征选择核心要点 特征选择是从原始特征中筛选关键子集,提升模型效率与性能。主要分为三类方法: Filter法(互信息/相关系数):基于统计指标快速初筛,适合高维数据 Wrapper法(如RFE):通过模型迭代评估特征组合,精度高但计算量大 Embedded法(Lasso/树模型):训练时自动选择特征,兼顾速度与效果 关键原则: 先划分数据集再做特征选择 线性模型必须配合特征缩放 树模型可跳

特征缩放是数据预处理的核心步骤,用于解决特征量纲不一致的问题。主要包括标准化(Z-Score)和归一化(Min-Max)两种方法:标准化将数据转换为均值为0、标准差1的分布,适合正态分布数据;归一化将数据线性压缩到[0,1]区间,但对异常值敏感。标准化更适合神经网络、SVM等模型,而归一化适用于KNN等需要固定范围的场景。树模型(如随机森林)无需特征缩放。实际应用中,标准化通常是更安全的选择。文中








