logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于spark的医疗大数据可视化大屏项目

本文将介绍如何利用Apache Spark进行大规模心力衰竭临床数据的分析,并结合机器学习模型,构建一个交互式的可视化大屏,以直观展示数据分析结果。使用PySpark库,我们首先读取CSV文件中的心力衰竭临床记录数据,并进行必要的数据清洗工作,包括处理缺失值和异常值。血小板计数与死亡事件:通过堆叠条形图展示不同血小板计数范围的死亡事件数量。糖尿病与死亡事件图表:散点图展示糖尿病患者的死亡事件数量,

文章图片
#spark#数据分析#机器学习 +2
大数据实战项目之电商数仓(一)

大数据实战项目之电商数仓(一)项目介绍数据仓库概念​数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质量等。数据仓库,并不是数据的最终目的地,而是为数据最终目的地做好准备。这些准备包括对数据的清洗,转义,分类,重组,合并,拆分,统计等。项目需求分析一、项目需求1、数据采集平台搭建2、实现用户行为数据仓库的分层

#hdfs#hadoop#大数据 +2
大数据之spark on k8s

大数据之spark on k8sspark on k8s架构解析1.k8s的优点k8s是一个开源的容器集群管理系统,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。1、故障迁移2、资源调度3、资源隔离4、负载均衡5、跨平台部署2.k8s集群架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-itzEKPaJ-1639903124654)(F:\桌面\image.

#big data#spark#kubernetes
Spark常见错误剖析与应对策略

工作中spark 的常见问题以及发生的原因和应对策略

#spark#大数据#big data +2
到底了