logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习学习笔记2:房屋价格预测

本研究基于Kaggle房屋价格数据集,采用XGBoost回归模型构建房价预测系统。通过数据预处理(缺失值填充、特征工程、偏态处理)、分类特征编码和目标变量对数转换,结合网格搜索进行超参数调优。实验结果表明,优化后模型交叉验证RMSE显著提升,关键特征包括房屋质量(OverallQual)、总面积(TotalSF)和车库属性(GarageCars)。特征重要性可视化显示,房屋整体质量是预测房价的最关

#学习#机器学习
机器学习学习笔记8:银行客户流失预测

本研究基于银行客户数据集构建了多种机器学习模型预测客户流失。通过数据预处理(异常值处理、SMOTE过采样)和特征工程后,对比了决策树、逻辑回归、XGBoost和神经网络的性能。结果显示XGBoost表现最佳(AUC=0.92,F1=0.67),SHAP分析发现年龄、产品数量、活跃度和性别是重要特征。研究为银行客户关系管理提供了有效预测工具,并建议未来扩展数据维度、尝试深度学习方法以进一步提升模型性

#学习#机器学习
基于BeautifulSoup库的简易爬虫实现:以大学排名为例

本实验成功实现了对软科中国网站大学排名数据的自动化采集,掌握了网络爬虫的基本原理和实现方法。通过本次实验,加深了对HTML解析、数据提取和存储的理解,提高了Python编程能力和实际问题解决能力。特别是针对特定院校(广东财经大学)的排名变化分析,体现了数据采集的针对性和实用性。可改进之处:可增加数据去重和清洗功能;可添加进度显示功能,方便监控爬取过程;可考虑使用数据库存储替代CSV文件;可增加异常

#beautifulsoup#爬虫
基于selenium库的爬虫实战:京东手机数据爬取

本文介绍了一个京东手机商品数据爬虫的实现方案,主要采用Selenium模拟登录和爬取数据。实验通过Edge浏览器驱动实现京东账号登录,处理滑块验证码时采用人工干预方式。登录成功后爬取手机商品信息(名称、价格、评论数等)和详情数据,支持多页爬取并保存为CSV格式。代码实现了浏览器初始化、登录验证、页面跳转、数据提取和存储功能。实验成功获取了结构化数据,未来可改进方向包括增加验证模块应对反爬机制,以及

#selenium#爬虫#python
机器学习学习笔记7:心脏病预测

本研究基于心脏病数据集(303个样本,12个特征),采用随机森林、XGBoost、逻辑回归和SVM四种机器学习模型进行心脏病预测。通过数据清洗(异常值处理后保留228个样本)、模型训练和网格搜索调优,最终选择SVM作为最优模型。特征重要性分析显示"thal"、"ca"和"cp"为关键预测因子。实验结果表明机器学习能有效辅助心脏病诊断,未来

#机器学习#学习
到底了