
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本研究基于心脏病数据集(303个样本,12个特征),采用随机森林、XGBoost、逻辑回归和SVM四种机器学习模型进行心脏病预测。通过数据清洗(异常值处理后保留228个样本)、模型训练和网格搜索调优,最终选择SVM作为最优模型。特征重要性分析显示"thal"、"ca"和"cp"为关键预测因子。实验结果表明机器学习能有效辅助心脏病诊断,未来
本实验旨在利用机器学习技术,基于加州房价数据集(California Housing Dataset)构建一个房价预测模型。实验涵盖了从数据加载、探索性数据分析(EDA)、数据预处理到模型构建与评估的完整流程。核心任务是利用房屋的各项特征(如收入中位数、房龄、平均房间数等)来预测房价中位数(
一、实验背景与目的有超市部分顾客购买液奶和使用优惠券的历史数据(文件名:优惠券核销数据.csv ) ,包括: ( Sex, 女 1 、男 2 ) ,年龄段(Age :中青年 1 、中老年 2 ) ,液奶品类class :低端 1 、中档2,高端3),平均消费额AvgSpending ) ,是否核销优惠券(AccePted :核销l 、未核销0 )。现进行新一轮的优惠券推送促销为实现精准营销,需确定
本实验基于协同过滤算法成功构建了一个电影评分预测模型与推荐模型。未来改进方向:1.预测分数均为5.0,与现实情况相比比较失真,算法仍需改进;2.后续可进行前端系统的构建,提高系统的可使用性。
摘要: 本实验采用朴素贝叶斯算法对垃圾邮件进行分类,基于Kaggle的5826条邮件数据集(含文本和标签)。通过数据预处理(过滤停用词、保留≥3字母的英文词)、文本向量化(CountVectorizer)和网格搜索优化参数(如ngram_range、平滑强度等),构建分类模型。初始模型准确率达98.3%,优化后进一步提升至98.5%。ROC曲线和混淆矩阵显示模型性能优异,邮件内容区分度高。未来可尝
本实验基于协同过滤算法成功构建了一个电影评分预测模型与推荐模型。未来改进方向:1.预测分数均为5.0,与现实情况相比比较失真,算法仍需改进;2.后续可进行前端系统的构建,提高系统的可使用性。
本研究基于Kaggle房屋价格数据集,采用XGBoost回归模型构建房价预测系统。通过数据预处理(缺失值填充、特征工程、偏态处理)、分类特征编码和目标变量对数转换,结合网格搜索进行超参数调优。实验结果表明,优化后模型交叉验证RMSE显著提升,关键特征包括房屋质量(OverallQual)、总面积(TotalSF)和车库属性(GarageCars)。特征重要性可视化显示,房屋整体质量是预测房价的最关
本研究基于银行客户数据集构建了多种机器学习模型预测客户流失。通过数据预处理(异常值处理、SMOTE过采样)和特征工程后,对比了决策树、逻辑回归、XGBoost和神经网络的性能。结果显示XGBoost表现最佳(AUC=0.92,F1=0.67),SHAP分析发现年龄、产品数量、活跃度和性别是重要特征。研究为银行客户关系管理提供了有效预测工具,并建议未来扩展数据维度、尝试深度学习方法以进一步提升模型性
本实验成功实现了对软科中国网站大学排名数据的自动化采集,掌握了网络爬虫的基本原理和实现方法。通过本次实验,加深了对HTML解析、数据提取和存储的理解,提高了Python编程能力和实际问题解决能力。特别是针对特定院校(广东财经大学)的排名变化分析,体现了数据采集的针对性和实用性。可改进之处:可增加数据去重和清洗功能;可添加进度显示功能,方便监控爬取过程;可考虑使用数据库存储替代CSV文件;可增加异常
本文介绍了一个京东手机商品数据爬虫的实现方案,主要采用Selenium模拟登录和爬取数据。实验通过Edge浏览器驱动实现京东账号登录,处理滑块验证码时采用人工干预方式。登录成功后爬取手机商品信息(名称、价格、评论数等)和详情数据,支持多页爬取并保存为CSV格式。代码实现了浏览器初始化、登录验证、页面跳转、数据提取和存储功能。实验成功获取了结构化数据,未来可改进方向包括增加验证模块应对反爬机制,以及







