
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
鸢尾花(Iris)数据集是机器学习领域的经典基准数据集,由统计学家Fisher于1936年提出,是多分类任务的入门级数据集。该数据集包含150个样本,对应3类鸢尾花(山鸢尾/Iris-setosa、变色鸢尾/Iris-versicolor、维吉尼亚鸢尾/Iris-virginica),每类各50个样本;每个样本包含4个数值型特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。等优点,但核心痛点是:当决策
注意力可视化通过热图直观展示权重分布,核心工具是,颜色深浅对应权重大小;注意力池化的核心是加权平均,Nadaraya-Watson核回归通过高斯核函数计算权重,相比平均池化能更好拟合非线性规律;Softmax归一化是注意力权重计算的关键步骤,确保权重和为1,是注意力机制的基础特性。
( \theta = [\theta_0, \theta_1, …, \theta_n]^T ):模型参数(如线性回归的权重和偏置)。( X = [x_0, x_1, …, x_n] ):输入特征(( x_0=1 ) 对应偏置项 ( \theta_0 ))。( y ):真实标签,( \hat{y} = h_\theta(X) ):模型预测值(如线性回归 ( h_\theta(X) = X \cdo
SVM是监督学习的经典模型,核心是“最大化间隔”,通过核函数突破线性限制,扩展到回归和多分类。实战中需重点关注特征归一化参数调优和核函数选择,小样本高维场景优先使用,大样本可考虑LinearSVC或其他模型(如XGBoost)。
优先尝试简单算法:KMeans(大规模/凸簇)、DBSCAN(非凸/噪声);调参核心:KMeans用肘部法则/轮廓系数选K,DBSCAN调ɛ和MinPts;数据预处理:数值特征标准化,分类特征用K-Modes;评估:无标签用轮廓系数,有标签用ARI/AMI。聚类算法的选择需结合数据特性(类型、规模、分布)和业务需求,实战中建议多算法对比,通过评估指标确定最优方案。
20个新闻组(20newsgroups)是自然语言处理(NLP)和机器学习领域的经典文本分类数据集,包含20类新闻文本,本项目选取其中4类(无神论、宗教讨论、计算机图形学、太空科学)作为研究对象。
XGBoost的核心是梯度提升+正则化优化区分任务类型(分类/回归/排序),选择对应objective;优先使用Scikit-learn接口快速上手,原生API用于自定义训练;结合交叉验证和早停避免过拟合,通过特征重要性分析优化特征。通过以上系统梳理和案例实践,可覆盖XGBoost的核心用法,后续可结合具体业务场景(如风控、推荐、预测)进一步调优。
Kaggle页面:https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/
线性回归假设特征与标签之间存在线性关系单变量线性回归yw0w1xyw0w1xw0w_0w0(截距,intercept)、w1w_1w1(特征系数,coefficient)是待学习的参数,xxx是特征,yyy是预测标签。多变量线性回归nnnyw0w1x1w2x2wnxnyw0w1x1w2x2...wnxnyX⋅WyX⋅WXXXm×n。
决策树是机器学习中经典的非参数模型,可同时支持分类和回归任务(决策树回归)。在回归场景中,决策树通过递归划分特征空间,将每个划分后的子区域映射为该区域内样本的均值(以MSE为划分准则),从而实现对连续值的预测。该结果验证了决策树深度对拟合效果的核心影响:深度需根据数据复杂度合理选择,过浅欠拟合、过深过拟合。







