
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着电子邮件在政务、商务及个人通信中日益普及,垃圾邮件(Spam)泛滥问题持续加剧。据2023年Symantec《互联网安全威胁报告》统计,全球日均垃圾邮件量超1400亿封,占总邮件流量的54.3%,不仅严重挤占网络带宽与存储资源,更成为钓鱼诈骗、勒索软件传播的主要载体。传统基于规则与黑名单的过滤方法已难以应对语义伪装、多语言混杂、动态变种等新型垃圾邮件攻击。本研究聚焦于构建一个高精度、低延迟、可
随着学术出版规模持续扩大,全球每年新增学术论文超400万篇(据Web of Science 2023年报),科研人员面临严重的“信息过载”困境。传统人工阅读、关键词检索与简单摘要提取已难以支撑高效科研决策。本文设计并实现了一套基于自然语言处理(NLP)的论文智能分析系统,旨在为研究者提供从文献获取、内容理解到知识挖掘的一站式智能辅助服务。系统融合BERT微调模型、TextRank改进算法、SciB
随着电子商务与数字营销的快速发展,精准刻画用户消费偏好、预测其未来购买行为已成为企业提升转化率、优化个性化推荐与制定精细化运营策略的核心能力。传统基于规则或统计的方法在面对高维、非线性、异构的用户行为数据时泛化能力弱、可解释性差。本研究聚焦于构建一个可落地、可解释、高精度的用户消费行为预测系统,以决策树(Decision Tree)为核心算法,融合特征工程、数据清洗、模型调优与Web可视化服务,实
随着在线教育规模持续扩大与个性化学习需求日益增长,传统“千人一面”的课程推送模式已难以满足学习者差异化、动态化、情境化的知识获取诉求。本研究聚焦教育智能化转型关键环节,设计并实现了一套融合多源异构数据建模、深度行为序列建模与可解释性增强机制的AI驱动智能学习推荐系统。系统以协同过滤(CF)、图神经网络(GNN)与Transformer时序建模为核心算法底座,构建用户-课程-知识点三维知识图谱,并引
在数字经济高速发展的背景下,金融机构面临日益增长的信贷风险管控压力。传统基于专家规则与线性打分卡的信用评估方法存在主观性强、泛化能力弱、难以捕捉非线性特征等固有缺陷。本研究聚焦于构建一个端到端、可解释、高精度的客户信用评分预测系统,融合数据预处理、特征工程、多模型对比、模型集成与可视化服务于一体。系统采用Python语言开发,以Scikit-learn、XGBoost、LightGBM及SHAP可
本文设计并实现了一个基于Hadoop的电商用户行为数据分析系统。系统采用Flume收集用户行为日志数据,通过Kafka缓冲后存储到HDFS,利用Hive进行分层处理和数据仓库搭建,最终通过Superset实现可视化展示。研究解决了传统单机系统处理海量电商数据时的性能瓶颈问题,实现了从数据采集、处理到分析的全流程功能。系统测试验证了其可行性和可靠性,能够有效支持企业商业决策。未来可扩展元数据管理、实

随着高等教育信息化建设的深入推进,高校图书馆积累了海量、高维度、时序性强的图书借阅行为数据。然而,当前多数高校图书馆仍停留在基础借还管理阶段,缺乏对借阅数据的深度挖掘与智能分析能力,导致资源采购盲目、读者服务粗放、阅读推广低效等问题日益凸显。本研究以某省属重点高校2019–2023年真实借阅日志(含1,247,863条借阅记录、28,541种馆藏图书、42,319名注册读者)为数据基础,构建一套面
随着互联网应用规模持续扩张与微服务架构普及,服务器、中间件、应用层产生的日志数据呈爆炸式增长。传统单机ELK(Elasticsearch+Logstash+Kibana)栈在PB级日志场景下面临吞吐瓶颈、存储成本高、实时性不足及横向扩展受限等挑战。本文针对大规模分布式日志分析需求,设计并实现了一套基于Hadoop生态的离线+近实时混合日志数据分析系统。系统以HDFS为统一存储底座,采用Flume+
大数据对贫困人口采取了有效的帮助措施,由于灾害而重新陷入贫困的风险得到了有效的应对。在这样的环境背景下本文利用大数据技术,运用爬虫技术,通过echarts工具来实现大数据可视化,将数据直观简单明了的呈现出来,能够让更多的人读懂数据,了解2020年前脱贫后的数据变化、贫困地区分布、经济发展,城镇居民与农村居民恩格尔系数的变化等

本文设计并实现了一个基于大数据分析的用户行为推荐系统。系统采用C/S架构,使用Spring MVC框架开发,MySQL作为数据库,Hadoop集群处理离线数据。主要功能包括用户登录注册、商品推荐和购物车管理。通过协同过滤算法分析用户历史行为数据,生成共现矩阵和评分矩阵,实现个性化商品推荐。系统测试表明功能基本完善,但仍存在数据安全性和推荐准确性等问题,后续将优化加密算法和增加数据量以提高性能。该系








