Honker_yhw 个人主页

@Honker_yhw

Honker_yhw

2025-08-25 16:41:51 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-Logistic回归

优势局限✅ 模型简单，可解释性强（系数即特征重要性）❌ 只能处理线性可分问题✅ 训练速度快，适合大规模数据❌ 对特征工程依赖较强✅ 输出概率值，便于阈值调整和业务决策❌ 容易欠拟合复杂非线性关系✅ 不易过拟合（尤其加正则化后）❌ 对多重共线性敏感✅ 易于扩展到多分类（Softmax）❌ 对异常值较敏感我的思考Logistic回归是理解深度学习的基石：神经网络的输出层（二分类）本质上就是一个Logi

#学习

大数据管理与应用系列丛书《大数据平台架构》（吕欣等著）读书笔记-Hive

Apache Hive是一个基于Hadoop的数据仓库工具，它通过类SQL语言HiveQL简化了大数据处理。Hive的核心功能包括数据抽取、转换和加载(ETL)，支持处理PB级数据，提供灵活的数据模型和扩展能力。其架构包含用户接口、跨语言服务、驱动程序和元数据存储四大组件，支持CLI、Web界面和JDBC/ODBC等多种访问方式。Hive将SQL查询转换为MapReduce、Tez或Spark任务

#大数据 #hive #hadoop

大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-数据预处理

数据预处理是数据挖掘的关键环节，主要包括四大任务：数据清洗（处理缺失值和噪声）、数据集成（合并多源数据并解决实体识别问题）、数据规约（降维和压缩）以及数据变换。预处理质量直接影响后续分析效果，需从完整性、一致性等六个维度评估数据质量。常用技术包括分箱平滑、回归分析、PCA降维等，如同装修房屋需先清理毛坯、打通空间再精简装饰。良好的预处理能显著提升模型性能，避免"垃圾进垃圾出"的

#学习

到底了