logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于Python的计算机职位数据分析与薪资预测【随机森林、XGBoost、catboost】

爬虫技术在当前的数据驱动社会中,已经成为获取和分析海量网络信息的重要工具。爬虫,亦称网络爬虫或网络蜘蛛,是一种按照既定规则自动访问网页并获取网页内容的程序。其原理和应用范围广泛,在学术研究、商业分析、信息检索等多个领域都具有重要意义。爬虫技术的核心在于其能够高效地遍历和抓取互联网中的公开数据,从而为后续的数据处理和分析奠定基础。1.多维度数据采集与处理.......2.详尽的特征工程......3

文章图片
#python#数据分析
基于Web框架的豆瓣电影实时数据分析可视化系统【自动爬虫、数据库、Pyecharts】

本项目基于Python的web框架,对豆瓣电影进行全流程的数据分析,从结构化的数据进行处理,在通过多维度的信息进行可视化,其中包含数据、文本等分析。这个项目包含一个Flask后端应用和一个网络爬虫程序,主要用于电影数据的采集、存储和展示。项目的核心功能和特点如下:Flask后端应用:该应用提供了一个完整的Web服务,包括用户认证、数据展示和数据分析等功能。主要路由包括登录、注册、主页、搜索、数据统

文章图片
#flask#数据分析#爬虫
基于Spark的白酒行业数据分析与可视化系统的设计与实现

本项目基于Python+Selenium技术实现京东白酒商品数据采集,结合Spark进行数据清洗与分析,并通过Pyecharts构建多维度可视化系统。系统包含自动化爬虫、大数据处理和交互式可视化三大模块,支持消费者决策、企业市场分析和学术研究等应用场景。创新点包括全流程自动化、人性化爬虫设计、Spark分布式计算及丰富的可视化展示。未来可扩展至多品类电商数据,并引入机器学习预测模型,提升系统智能化

文章图片
#spark#数据分析#大数据
基于Python的哔哩哔哩国产动画排行数据分析系统

另一方面也反映出,对于好看的动漫,观众是很愿意分享的。

文章图片
#python#哔哩哔哩
【全网最详】针对数据分析中异常值检测的方法大全【代码+实战演练】

本文介绍了四种常用的异常值检测方法及其应用场景。IQR(四分位距法)基于统计分位数,适用于单变量分析,简单高效但对多变量无效。Isolation Forest通过随机分割特征空间来检测异常,适合高维数据且计算复杂度低。DBSCAN基于密度聚类,能识别任意形状的簇并将噪声点标记为异常。LOF(局部离群因子)通过比较局部密度差异检测异常,适合发现局部异常但不适用于高维数据。每种方法都有其优缺点和适用场

文章图片
基于YOLOv8的火灾消防报警系统【基于YOLOV8的烟火识别系统】【可换多种权重训练】

本研究通过多种渠道收集了丰富的火灾相关数据集。主要来源包括:1. 杜伦大学公开数据库:该数据库提供了多样化的火灾场景图像,涵盖建筑物火灾、工业火灾、交通事故等紧急情况。数据集还包含无明显火势的紧急情况图像,以及具有类火特征(如日落)或红黄色物体的图像,增加了数据的多样性和难度。2. 训练集与测试集:- 训练集包含240张50×50像素的图像,其中80张为火灾图像,160张为非火灾图像。- 测试集由

文章图片
基于B站的热门视频数据分析与情感分析【关联性、主题、情感分析】

本文采用Python中的网络爬虫技术,从视频平台(例如YouTube、Bilibili、TikTok等,以B站为例)中提取视频数据。在分析了不同类型网站的特点后,选择B站作为适合的数据源。借助网络爬虫来获取网页的内容,并从这些内容中抽取必要的视频信息,以便进行数据的收集工作。为了得到更高质量的视频,需要在采集到的视频序列中检测出大量的相似点。对收集到的数据进行清理,移除重复的部分、遗漏的数据和异常

文章图片
基于Hadoop与层次聚类技术的电子游戏销售分析系统的设计与实现

本文介绍了一个基于大数据技术的电子游戏销售分析系统的设计与实现。该系统采用分布式架构,整合数据采集、存储、处理与可视化功能,为游戏企业提供市场趋势分析、用户行为洞察和销售预测支持。通过Hadoop、Spark等技术实现海量数据处理,结合ECharts实现交互式数据可视化。系统具有可扩展性和安全性,能有效辅助企业决策优化。研究成果不仅推动游戏产业数字化转型,也为大数据在文化产业中的应用提供了实践案例

文章图片
#hadoop#聚类#大数据
基于多种主题分析、关键词提取算法的设计与实现【TF-IDF算法、LDA、NMF分解、BERT主题模型】

本文研究了基于自然语言处理技术的旅游评论分析方法,针对三亚四大景区(亚特兰蒂斯水世界、蜈支洲岛等)的在线评论数据,构建了一套完整的"获取-清洗-建模-分析"流程。研究比较了TF-IDF、LDA、NMF和BERT等多种文本分析方法,发现NMF在主题聚焦性上优于LDA,而结合BERT预训练模型与K-Means聚类的方法表现最佳,能有效识别"亲子娱乐"、&quot

文章图片
#bert
基于Hadoop的微博社交媒体用户大数据分析【海量数据】

本项目基于hadoop的社交媒体用户进行大数据分析,数据来源于微博用户信息,共计二十余万条,通过数据预处理之后,再将结构化数据上传到hadoop进行大数据分析,通过MapReduce执行系列分析语句,完成数据分析并通过sqoop将结果指标导出到MySQL,在利用Pyecharts进行连接数据源进行编程可视化,最终将可视化渲染为web界面,完成分析。过程细节涉及过多,有大量的细致语法实现,需要仔细的

文章图片
#hadoop
    共 168 条
  • 1
  • 2
  • 3
  • 17
  • 请选择