logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据管理与应用系列丛书《数据挖掘》(吕欣等著)读书笔记-Logistic回归

优势局限✅ 模型简单,可解释性强(系数即特征重要性)❌ 只能处理线性可分问题✅ 训练速度快,适合大规模数据❌ 对特征工程依赖较强✅ 输出概率值,便于阈值调整和业务决策❌ 容易欠拟合复杂非线性关系✅ 不易过拟合(尤其加正则化后)❌ 对多重共线性敏感✅ 易于扩展到多分类(Softmax)❌ 对异常值较敏感我的思考Logistic回归是理解深度学习的基石:神经网络的输出层(二分类)本质上就是一个Logi

文章图片
#学习
大数据管理与应用系列丛书《大数据平台架构》(吕欣等著)读书笔记-Hive

Apache Hive是一个基于Hadoop的数据仓库工具,它通过类SQL语言HiveQL简化了大数据处理。Hive的核心功能包括数据抽取、转换和加载(ETL),支持处理PB级数据,提供灵活的数据模型和扩展能力。其架构包含用户接口、跨语言服务、驱动程序和元数据存储四大组件,支持CLI、Web界面和JDBC/ODBC等多种访问方式。Hive将SQL查询转换为MapReduce、Tez或Spark任务

文章图片
#大数据#hive#hadoop
大数据管理与应用系列丛书《数据挖掘》(吕欣等著)读书笔记-数据预处理

数据预处理是数据挖掘的关键环节,主要包括四大任务:数据清洗(处理缺失值和噪声)、数据集成(合并多源数据并解决实体识别问题)、数据规约(降维和压缩)以及数据变换。预处理质量直接影响后续分析效果,需从完整性、一致性等六个维度评估数据质量。常用技术包括分箱平滑、回归分析、PCA降维等,如同装修房屋需先清理毛坯、打通空间再精简装饰。良好的预处理能显著提升模型性能,避免"垃圾进垃圾出"的

文章图片
#学习
到底了