基于spark的图书推荐系统基于大数据的图书推荐基于模型的协同过滤图书推荐系统矩阵分解 ALS推荐

（2）模型训练：从mysql数据库中读取评分数据，通过spark构建模型后填充数据进行模型训练，模型训练后可以保存模型到本地，当有新数据时再重新训练，这个过程可以用采用本地启动spark进行运算也可以将任务提交到spark集群上运算（前提时已搭建好spark集群）基于spark的图书推荐系统基于大数据的图书推荐基于模型的协同过滤图书推荐系统矩阵分解 ALS推荐（最小二乘法）（1）数据清洗：过

2301_77272393

948人浏览 · 2023-03-27 09:44:11

2301_77272393 · 2023-03-27 09:44:11 发布

基于spark的图书推荐系统基于大数据的图书推荐基于模型的协同过滤图书推荐系统矩阵分解 ALS推荐（最小二乘法）
数据源：BookCrossing (BX) 数据集由 Cai-Nicolas Ziegler 在 Humankind Systems 首席技术官 Ron Hornbaker 的善意许可下从 Book-Crossing 社区进行为期 4 周的爬行（2004 年 8 月 9 月）收集。
它包含 278,858 名用户（匿名但具有人口统计信息），对 271,379 本书提供 1,149,780 个评分（显式隐式）。
推荐流程：
（1）数据清洗：过滤重复的数据，比如同个书编的书籍信息，评分为0分的不合理信息，将清洗后的数据保存到mysql数据库中
（2）模型训练：从mysql数据库中读取评分数据，通过spark构建模型后填充数据进行模型训练，模型训练后可以保存模型到本地，当有新数据时再重新训练，这个过程可以用采用本地启动spark进行运算也可以将任务提交到spark集群上运算（前提时已搭建好spark集群）
（3）数据推荐：为每个用户推荐20本书，并将推荐结果保存到数据库中
（4）通过springboot搭建一个图书借阅系统展示数据，当新用户在平台借书后归还图书则会增加数据集，触发计算则会有新的推荐结果。

ID:81480692261157726