
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
plain复制│ 线性回归 ──→ 逻辑回归 ││ (直接预测数值) (预测概率,加了个Sigmoid壳) ││ ↓ ││ 决策树 ───────────────────────────────────────────┐ ││ (用是非题切分空间,非线性) │ ││ ↓ ↓ ││ 随机森林(Bagging) XGBoost(Boosting)││ (多棵树并行投票,降低方差) (多棵树串行纠错)
这是 Kaggle 最经典的入门比赛,也是所有机器学习工程师的必经之路。问题:根据泰坦尼克号乘客的个人信息,预测哪些乘客能在沉船事故中幸存下来数据:包含乘客的年龄、性别、舱位、票价、登船港口等 12 个特征目标:尽可能提高预测准确率,获得更高的 Kaggle 排名核心流程:所有机器学习项目都遵循 "问题定义→数据探索→特征工程→模型训练→调优→部署" 的标准流程核心思想:特征工程是机器学习项目中最
残差 = 真实值 - 预测值,也就是模型预测错了多少。真实房价:100 万第一棵树预测:80 万 → 残差 = 100-80=20 万第二棵树预测残差:15 万 → 总预测 = 80+15=95 万 → 残差 = 5 万第三棵树预测残差:4 万 → 总预测 = 95+4=99 万 → 残差 = 1 万第四棵树预测残差:0.8 万 → 总预测 = 99.8 万你看,每加一棵树,预测就更准确一点,无限
三个臭皮匠,顶个诸葛亮。分类问题:少数服从多数回归问题:取所有模型预测值的平均值核心概念:随机森林是 Bagging 集成学习的代表,由很多棵随机生成的决策树组成,通过投票得到最终结果核心思想:集体智慧优于个体智慧,多样性是集成学习的生命核心优势效果好,几乎碾压所有传统机器学习算法调参简单,鲁棒性强,不容易过拟合不需要特征缩放,能处理高维数据能自动计算特征重要性,可解释性好核心应用:表格数据的分类
核心概念:决策树通过一系列 "是 / 否" 问题做决策,结构和人类思考完全一致核心思想:用信息熵衡量数据的混乱程度,选择信息增益最大的特征进行分裂核心优势:可解释性极强,能明确知道 AI 的决策依据核心缺点:容易过拟合,需要通过限制树的深度等方法进行剪枝你已经做到了:实现了一个可解释的贷款审批 AI,并且能看懂它的每一步决策。
核心概念:逻辑回归是二分类算法,不是回归算法,输出是样本属于正类的概率核心思想:用 Sigmoid 函数把线性回归的输出映射到 (0,1) 区间,通过决策阈值进行分类核心评估:分类问题不能只用准确率,要结合精确率和召回率,根据业务需求调整决策阈值你已经做到了:写出了第一个实用的 AI 分类器,能根据业务需求优化模型性能。
模型在从未见过的新数据上的表现能力,就叫泛化能力。我们训练模型的最终目标,不是让它在训练集上表现好,而是让它在新数据上表现好过拟合的模型,泛化能力极差,完全没有实用价值核心概念:多特征线性回归,每个特征有对应的权重,表示其对结果的影响大小核心思想:过拟合是机器学习的头号敌人,我们的目标是获得泛化能力好的模型核心方法划分训练集和测试集,评估模型的真实泛化能力用正则化(岭回归)惩罚大参数,让模型变简单
核心概念:损失函数是衡量 AI 预测错误程度的指标,AI 的目标就是让损失最小核心思想:梯度下降是让损失最小的方法,就像从山上往下走,每一步都朝着最陡的下坡方向核心代码:所有 AI 的训练都是 "预测→算损失→算梯度→更新参数" 这个循环你已经做到了:没有用任何机器学习库,纯手写了一个 AI 的训练过程!最重要的一句话:从今天起,世界上再也没有 "黑魔法" 一样的 AI 了。不管是 ChatGPT
核心概念:损失函数是衡量 AI 预测错误程度的指标,AI 的目标就是让损失最小核心思想:梯度下降是让损失最小的方法,就像从山上往下走,每一步都朝着最陡的下坡方向核心代码:所有 AI 的训练都是 "预测→算损失→算梯度→更新参数" 这个循环你已经做到了:没有用任何机器学习库,纯手写了一个 AI 的训练过程!最重要的一句话:从今天起,世界上再也没有 "黑魔法" 一样的 AI 了。不管是 ChatGPT
核心概念:机器学习是让计算机从数据中自己学习规则,而不是人写规则核心思想:所有机器学习都是 "从数据中找规律,用规律做预测"核心代码结构:导入工具 → 准备数据 → 创建模型 → 训练模型 → 预测你已经做到了:写出了一个真正的机器学习程序,它能根据历史数据预测未来!







