社区云

spark

no_hot 来自魔乐社区

devpress.csdn.net/modelers · 2020-07-11 18:59:05

大数据集群搭建（十一）——Spark-2.3.4安装

Spark-2.3.4安装节点MasterWorkerWorkerdn1★dn2★dn3★下载spark-2.3.4-bin-hadoop2.7.tgz压缩包将文件上传到dn1节点的~/pkg目录下执行以下命令，分别在dn1、dn2、dn3三台节点安装#解压到/opt目录cd ~/pkgtar -xzvf spark-2.3.4-bin-hadoop2.7.tgz -C /opt#创建spark的

#spark #大数据 #hadoop +2

579 
何以愁来自魔乐社区

devpress.csdn.net/modelers · 2022-10-23 20:09:06

Docker容器搭建大数据集群

Docker容器搭建大数据集群，包含Hadoop,Mysql,Hive,Flume,Zookeeper,HBASE,SQOOP,Kafaka,Spark,Redis

#docker #大数据 #容器 +2

4317 

17 
每天八杯水'D 来自魔乐社区

devpress.csdn.net/modelers · 2021-12-19 10:27:03

Spark—RDD算子使用IDEA-Scala操作练习：请根据磁盘文件“数据集”data01.txt，该数据集包含了某大学计算机系的成绩，计算下列问题。

Spark—RDD算子使用IDEA-Scala操作练习：请根据磁盘文件“数据集”data01.txt，该数据集包含了某大学计算机系的成绩，计算下列问题。(1)该系总共有多少学生；(2)该系共开设来多少门课程；(3)Tom同学的总成绩平均分是多少；(4)求每名同学的选修的课程门数；(5)该系DataBase课程共有多少人选修；(6)各门课程的平均分是多少；(7)使用累加器计算共有多少人选了DataB

#scala #spark #intellij-idea

4508 

9 
cusi77914 来自魔乐社区

devpress.csdn.net/modelers · 2020-07-01 01:53:58

twitter 数据集处理_使用Twitter Storm处理实时大数据

Hadoop是大数据分析的明显王者，它专注于批处理。该模型足以应付许多情况（例如对Web编制索引），但是存在其他使用模型，其中需要来自高度动态来源的实时信息。解决了这个问题后，Nathan Marz引入了Storm（现在通过BackType通过Twitter引入）。 Storm不是在静态数据上运行，而是在预计会连续的流数据上运行。 Twitter用户每天产生1.4亿条推文，不难看出这项技术..

#大数据 #python #人工智能 +2

1623 
TranSad 来自魔乐社区

devpress.csdn.net/modelers · 2022-07-10 14:05:39

Spark Hive实现基于协同过滤的电影推荐(MovieLens数据集)

这篇文章记录一下我之前做过的通过Spark与Hive实现的基于协调过滤的电影推荐。这篇文章只能提供算法、思路和过程记录，并没有完整的代码，仅尽量全面地记录过程细节方便参考。数据集是从下面这个地址下载的，数据集主要内容是关于用户对电影的评分、评价等。免费数据集下载（很全面）_浅笑古今的博客-CSDN博客_数据集下载网站图1.1 数据获取我选取的几个数据集表格如下：图1.2 数据表格图1.3 rati

#spark #hive #hadoop +2

4430 

7 
珞清殇来自魔乐社区

devpress.csdn.net/modelers · 2021-02-18 14:35:30

Spark SQL实验：鸢尾花、影评数据集分析存储

一、实验描述鸢尾花数据集分析数据集信息如下：iris.csv 的各特征列为花萼长度(sepal_length)、花萼宽度(sepal_width)、花瓣长度(petal_length)、花瓣宽度(petal_width)、鸢尾花种类(iris_type)，每种鸢尾花都对应50个数据记录, 共含150个数据记录。导入鸢尾花数据集到Mysql之后，进行如下查询：(1)所有鸢尾花的花萼与花瓣的长度、宽

#spark

1349 
SmallScorpion 来自魔乐社区

devpress.csdn.net/modelers · 2020-04-17 20:01:34

Spark中RDD特性|RDD编程模型|集合创建RDD的两种方式|数据集创建RDD

RDD特性A list of partitions : 多个分区，分区可以看成是数据集的基本组成单位对于 RDD 来说，每个分区都会被一个计算任务处理，并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目.每个分配的存储是由BlockManager 实现的，每个分区都会被逻辑...

#spark #大数据

310 
圆内~搁浅来自魔乐社区

devpress.csdn.net/modelers · 2024-06-18 16:25:53

大数据集群离线解析经纬度逆编码地址

大数据量经纬度解析地址

#大数据 #spark

511 

3 
DolphinScheduler社区来自 2048 AI社区

2048.csdn.net · 2020-07-07 10:49:16

如何成为一名合格的Apache项目Committer，参与Apache开源贡献的正确姿势

近日，孙金城老师在 “Open Source Promotion Plan-Summer 2020”开源软件供应链点亮计划做了《如何成为一名合格的Apache项目Committer...

#hadoop #spark #java +2

799 
Betty_蹄蹄boo 来自松山湖开发者村综合服务平台

community.sslcode.com.cn · 2025-04-22 09:05:13

Spark与Hadoop之间有什么样的对比和联系

Spark 是一个快速、通用且可扩展的大数据处理框架，最初由加州大学伯克利分校的AMPLab于2009年开发，并于2010年开源。它在2013年成为Apache软件基金会的顶级项目，是大数据领域的重要工具之一。Spark 的优势在于其速度和灵活性。相比传统的Hadoop MapReduce模型，Spark通过内存计算减少了I/O开销，使得迭代式算法（如机器学习和图计算）的性能提升显著。此外，Spa

#spark #大数据 #分布式

1272 

33 
WZMeiei 来自松山湖开发者村综合服务平台

community.sslcode.com.cn · 2025-04-21 17:09:15

Spark SQL概述（专业解释+生活化比喻）

特性SQLDataFrameDataSet类型检查运行时运行时编译时（强类型）语言支持所有语言Java/Scala适用场景简单查询复杂数据处理类型安全需求高性能相同（底层都经过Catalyst优化）Spark SQL是什么：处理结构化数据的工具，支持SQL和编程API。运行原理：SQL→解析→逻辑计划→优化→物理计划→生成代码→分布式执行。如何选择简单查询用SQL；复杂逻辑用DataFrame/D

#spark #sql #大数据

729 

9 
vx_biyesheji0002 来自 2048 AI社区

2048.csdn.net · 2025-02-20 23:46:51

基于Spark商品销售数据可视化分析系统 Hadoop和Hive 机器学习预测算法讲解视频论文大数据毕业设计销量预测✅

基于Spark商品销售数据可视化分析系统 Hadoop和Hive 机器学习预测算法讲解视频论文大数据毕业设计销量预测✅

#hadoop #大数据 #spark +2

1320 

30 
haochengxu2022 来自 2048 AI社区

2048.csdn.net · 2025-03-08 00:00:00

计算机毕业设计hadoop+spark+hive民宿推荐系统酒店推荐系统民宿价格预测酒店价预测机器学习深度学习 Python爬虫 HDFS集群(源码+文档+PPT+讲解)

计算机毕业设计hadoop+spark+hive民宿推荐系统酒店推荐系统民宿价格预测酒店价预测机器学习深度学习 Python爬虫 HDFS集群(源码+文档+PPT+讲解)

#python #hadoop #spark +3

1619 

38 
haochengxu2022 来自 2048 AI社区

2048.csdn.net · 2025-03-13 00:00:00

计算机毕业设计PyFlink+PySpark+Hadoop+Hive广告推荐系统广告预测广告数据分析可视化大数据毕业设计 Spark Hive 深度学习机器学习(源码+文档+PPT)

计算机毕业设计PyFlink+PySpark+Hadoop+Hive广告推荐系统广告预测广告数据分析可视化大数据毕业设计 Spark Hive 深度学习机器学习(源码+文档+PPT)

#python #hadoop #spark +3

1721 

45 
StarRocks_labs 来自 DeepSeek技术社区

deepseek.csdn.net · 2025-04-18 23:43:01

RAG 实战｜用 StarRocks + DeepSeek 构建智能问答与企业知识库

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合外部知识检索与 AI 生成的技术，弥补了传统大模型知识静态、易编造信息的缺陷，使回答更加准确且基于实时信息。

#数据分析 #数据库 #spark

1268 

17 
dabokele 来自 MCP技术社区

mcp.csdn.net · 2015-07-17 15:13:22

Spark编程模型

Spark编程模型

#spark

1167 

1 
VX_bysjlw985 来自 MCP技术社区

mcp.csdn.net · 2024-05-30 07:30:00

java&springboot+mysql牙科诊所预约系统75174-计算机毕业设计项目选题推荐（附源码）

本智慧综合管理是针对目前牙科诊所预约系统的实际需求，从实际工作出发，对过去的牙科诊所预约系统存在的问题进行分析，结合计算机系统的结构、概念、模型、原理、方法，在计算机各种优势的情况下，采用目前最流行的B/S结构、java技术MySQL数据库设计并实现的。本牙科诊所预约系统主要包括登录模块的实现、系统模块、管理员模块、医生模块、用户模块等多个模块。它帮助牙科诊所预约系统实现了信息化、网络化，通过测试

#java #spring boot #mysql +4

1167 

29 
最实在的154 来自 MCP技术社区

mcp.csdn.net · 2024-12-26 15:01:50

【计算机毕设必选题】基于Spark猫眼电影票房数据分析预测推荐系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）

随着电影行业的蓬勃发展，海量的电影数据不断涌现，这些数据蕴含着巨大的价值。票房预测目的:个体电影预测：针对每一部即将上映的电影，基于其已有的信息（如预告片反响、前期宣传热度、主创阵容等）和历史数据中相似电影的表现，构建预测模型，估算其票房成绩，为电影投资方、制作方和发行方提供票房预期参考，辅助他们进行投资、宣传资源分配等决策。

#大数据 #spark #数据分析

1225 

17 
yemingjie850197969 来自 MCP技术社区

mcp.csdn.net · 2015-12-14 21:30:31

Spark GraphX进行图计算时的OOM问题

目前Spark的社区十分活跃，在Hadoop2.0上部署更能体现出其计算价值。但是作为Spark的五大成员组件之一的GraphX在计算图时的效果究竟怎样呢？我们都知道Spark立足于内存计算，所以计算速度快。但是这却不可避免的导致OOM的问题。GraphX中的七大算法大都是基于pregel模型实现的，它集成了原生的pregel模型和GAS模型的公共优势，减少了算法的复杂度。利用该模型

#spark

1175 

1 
QQ_1795806396 来自 MCP技术社区

mcp.csdn.net · 2024-10-14 19:34:22

基于Spark的电商用户行为分析系统

本系统基于 Java 与 Spring Boot 技术，并结合强大的 Spark 框架，致力于对电商用户行为进行深入分析。它能够高效收集电商平台上丰富多样的用户行为数据，包括用户的浏览记录、搜索关键词、购买行为、添加购物车操作、评论与评分等。通过 Spark 的分布式计算能力，对海量数据进行快速处理和分析。运用数据分析算法和模型，挖掘用户的行为模式和偏好。例如，分析用户的购买频率和购买周期，以便精

#spark #大数据 #分布式

1216 

26 
jin_tmac 来自 MCP技术社区

mcp.csdn.net · 2022-07-27 14:49:46

Spark addFile()和hdfs上传文件对比

在用spark进行集群分布式模型打分等操作时。可以有两种方式上传文件sc.addFile和hdfs上。

#hdfs #spark #hadoop

1203 

2 
深度学习冲冲冲来自 MCP技术社区

mcp.csdn.net · 2021-02-04 12:04:28

知识图谱环境搭建

借由学习模型预测和深度学习第一次接触知识图谱，发现有点意思，写个博客纪念一下。知识图谱简介百度百科定义：知识图谱（Knowledge Graph），在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。看定义懵懵懂懂，实际上它是这样的：通俗点来讲，就是将有关联的不

#人工智能 #知识图谱 #spark +1

1209 

2 
Cumu_ 来自 MCP技术社区

mcp.csdn.net · 2015-10-15 16:26:36

spark学习7-mllib als推荐引擎学习

继续上一篇学习spark本次将介绍下如何利用mllib进行商品或者用户的推荐，具体用到的算法是ALS（交替二乘法）推荐算法介绍推荐算法可以分为：UserCF(基于用户的协同过滤)、ItemCF(基于商品的协同过滤)、ModelCF(基于模型的协同过滤)，具体介绍见：http://blog.csdn.net/ygrx/article/details/15501679spark中的协同

#spark #mllib #hbase

9904 

2 
时海来自 MCP技术社区

mcp.csdn.net · 2017-12-13 11:09:33

Spark dataframe 多列合并成 vector

Spark dataframe 中某几列合并成vector，用于机器学习模型的输入：参考：http://www.k6k4.com/bbs/show/bbszy3b2l1513133569073

#spark

1w 

2 
Quincy1994 来自 MCP技术社区

mcp.csdn.net · 2017-04-23 23:20:54

关于spark的mllib学习总结（Java版）

本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据，具体的流程如下图所示：加载数据对于数据的加载或保存，mllib提供了MLUtils包，其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt，其有一百个数据

#spark #机器学习 #java

1.1w 

4 
千寻千梦来自 MCP技术社区

mcp.csdn.net · 2016-09-25 18:46:55

Spark2.0机器学习系列之10：聚类(高斯混合模型 GMM）

Spark GMM 高斯混合模型概念参数设置模型评估代码

#spark #机器学习

1.1w 

2 
lipviolet 来自 MCP技术社区

mcp.csdn.net · 2019-03-17 20:41:51

大数据---spark和mr的区别

首先最核心的两点：内存和磁盘的区别；job中途失败重新计算的区别。---spark最核心的概念是RDD（弹性分布式数据集），它的所有rdd在并行运算过程程中，可以做到数据共享，也就是可以重复使用mr在计算过程中---mapr：一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中，在计算过程中，不同计算节点之间保持高度并行，这样的数据流模型使得那些需要反复使用...

#spark #mr #big data

1.3w 

7 
LXYTSOS 来自 MCP技术社区

mcp.csdn.net · 2016-05-12 20:36:43

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别，准确率在0.83左右，今天使用了RandomForest来训练模型，并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数：numTrees：随机森林中树的数目。增大这个数值可以减小预测的方差，提高预测试验的准确性，训练时间会线性地随之增长。maxDepth：随机森林中每棵树的深度。增加这个值可以是模型更具

#spark #机器学习

1.4w 

3 
yhao浩来自 MCP技术社区

mcp.csdn.net · 2016-04-15 10:35:46

【问题跟踪】KryoException: java.io.IOException: No space left on device

今天在对LDA进行不同参数训练模型，记录其avglogLikelihood和logPerplexity，以便判断模型训练是否收敛时，产生了一个令人极度崩溃的事儿：程序在辛辛苦苦跑了7.3h后...挂了！证据如下：早上一来看这张图，好像跑完了，然后点进去看...然后就没有然后了每次迭代都需要9min左右，迭代了近50次跟我说挂了，确实挺让人奔溃的。先说说我的配置以

#spark

1.9w 
想你依然心痛来自松山湖开发者村综合服务平台

community.sslcode.com.cn · 2025-04-16 07:49:11

Spark大数据分析与实战笔记（第四章 Spark SQL结构化数据文件处理-05）

Spark的开发工程师们考虑到了这个问题，利用SQL语言的语法简洁、学习门槛低以及在编程语言普及程度和流行程度高等诸多优势，从而开发了Spark SQL模块，通过Spark SQL，开发人员能够通过使用SQL语句，实现对结构化数据的处理。Apache Hive是Hadoop上的SQL引擎，也是大数据系统中重要的数据仓库工具，Spark SQL支持访问Hive数据仓库，然后在Spark引擎中进行统计

#spark #数据分析

7447 

40 
中琦2513 来自 MCP技术社区

mcp.csdn.net · 2016-01-25 14:17:26

Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战

1、Spark编程模型1.1 术语定义l应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；l驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用SparkContext代表Driver Program；l执行

#spark #大数据

4.5w 
光脚虾来自永洪数据分析社区

yonghongtech.csdn.net · 2020-02-11 22:11:47

SQL优化：使用distribute by 防止数据倾斜

distribute by ：用来控制map输出结果的分发，即map端如何拆分数据给reduce端。会根据distribute by后边定义的列，根据reduce的个数进行数据分发，默认是采用hash算法。当 distribute by 后边跟的列是：rand()时，即保证每个分区的数据量基本一致...

#spark #hive #sql +1

1.9w 

7 
Suuuuuuu. 来自永洪数据分析社区

yonghongtech.csdn.net · 2024-07-14 15:47:44

SQL优化：多个count(distinct)跑得慢如何优化？

考虑去重字段数量1>2>3>42>3>4（此时方法1不适用）

#sql #spark #大数据

1058 

10 
Aimier 来自永洪数据分析社区

yonghongtech.csdn.net · 2023-06-08 01:11:27

SparkSQL优化

主要介绍了sparksql执行计划查看，参数优化，SQL优化（HIVE适用）等内容

#spark

1w 

28 
程志国-麦聪软件来自永洪数据分析社区

yonghongtech.csdn.net · 2025-04-07 17:12:33

数据仓库的核心架构与关键技术（数据仓库系列二）

上一篇文章《数据仓库是什么？数据仓库的前世今生》带我们回顾了它的演进历程，从早期的决策支持系统到云数据仓库的崛起，其角色已从支持BI报表扩展到更广泛的数据共享与消费。本文将深入探讨数据仓库数据仓库的关键技术——数据集成、查询优化、数据共享服务（包括BI如 Tableau和SQL2API如麦聪QuickAPI）以及实时处理——共同定义了其现代化形态。它们让数据仓库从静态存储转变为动态消费平台。展望

#数据仓库 #架构 #spark +1

772 

24 
蚂蚁数据 AntData 来自永洪数据分析社区

yonghongtech.csdn.net · 2024-12-25 14:35:54

流批一体向量化计算引擎 Flex 在蚂蚁的探索和实践

Flex是蚂蚁数据部自研的一款流批一体的向量化引擎，Flex是Fink和Velox的全称，也是Flexible的前缀，被赋予了灵活可插拔的寓意。本文将重点从向量化技术背景、Flex架构方案和未来规划三个方面展开论述。

#大数据 #spark #数据仓库 +1

1574 

13 
装一袋星辰大海来自永洪数据分析社区

yonghongtech.csdn.net · 2025-04-05 19:27:35

基于Spark的招聘数据预测分析推荐系统

该系统能够高效处理海量招聘数据，利用Spark的强大计算能力实现快速分析和预测。该系统还能为求职者提供多维度的分析，包括薪资分析、经验学历分析、行业分析和城市分析，帮助用户提高求职效率和质量。同时，求职者也能获得更加个性化的职位推荐和薪资预测，增加求职成功率。此外，该系统还能为企业人力资源规划提供数据支持，助力企业优化人才结构，提升整体竞争力。因此，该系统在招聘领域具有重要的应用价值。

#spark #大数据 #分布式 +2

434 

6 
Leo.yuan 来自永洪数据分析社区

yonghongtech.csdn.net · 2025-04-07 17:26:55

终于有人把数据仓库说明白了！

数据仓库的概念最早由"数据仓库之父"Bill Inmon在1990年提出，他将数据仓库定义为"一个面向主题的、集成的、非易失的、随时间变化的数据集合，用于支持管理决策过程"。面向主题的特性体现在数据组织方式上。不同于传统业务数据库按照业务流程（如采购、销售、库存）来组织数据，数据仓库是按照企业关心的核心主题（如客户、产品、渠道）来构建的。1.集成性集成性是数据仓库最显著的特征。

#数据仓库 #spark #大数据

914 

23 
奶羊46 来自永洪数据分析社区

yonghongtech.csdn.net · 2024-09-05 02:49:20

Spark大数据技术运行原理

这些应用程序来自Spark的不同组件，如Sparkshell.Spark Submit 交互式批处理、Spark Streaming实时流处理、Spark SQL快速查询、MLlib 机器学习、GraphX图处理等。(2)Spark Streaming是Spark API核心的一个存在可达到超高通量的扩展，可以处理实时数据流的数据并进行容错。Hadoop是一个分布式数据基础设施，它将巨大的数据集分

#大数据 #spark #分布式

1121 

14 
浊酒南街来自永洪数据分析社区

yonghongtech.csdn.net · 2023-08-18 15:42:45

大数据hudi之集成spark:IDEA编码方式

除了用shell交互式的操作，还可以自己编写Spark程序，打包提交。

#大数据 #spark

136 

1 

标签介绍

spark

——spark

热门标签

本周

历史

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net