陌名_ 个人主页

@2302_80256936

陌名_

2024-05-28 17:34:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark3.x指北——3：Spark SQL

但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All 的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。因为join是一个代价较大的操作，也可能会产生一个较大的数据集。尽管这个实例通常是对输入形参的修改，但是我们

#spark #sql #大数据 +1

Spark3.x指北——4：Spark Streaming

结合我们介绍的准实时、微批次概念，SparkStreaming会将数据流按照更小的时间单位（如3s）划分为多个微批数据，由采集器将这些数据转化为DStream（一系列离散RDD），Driver会基于这些DStream划分stage、job，分发给Executor去做实际的取数据、计算数据的工作。下图是对window操作的一个解析。给定一个由(键，事件)对构成的 DStream，并传递一个指定如何

#spark #大数据 #scala

创新实训6——Spark + SpringBoot的整合

当前的功能已经实现，在下篇文章中，会对数仓模块的内容进行修复 + 优化处理。

#spark #spring boot #大数据

创新实训6——Spark + SpringBoot的整合

当前的功能已经实现，在下篇文章中，会对数仓模块的内容进行修复 + 优化处理。

#spark #spring boot #大数据

创新实训8——后端开发指南

文档版本: 2026-06-07背景：数据部分开发完成，暴露了SparkSubmit的能力，需要由后端工程师将Spark提交和agent分析整合。特整理此文档，让后端工程师了解仓库现状适用对象: 接手后端开发的工程师（阅读本文档前请先完整阅读CLAUDE.md和README.md核心原则: 本文档描述的是（what exists），而非「理想设计」。所有实现请基于实际代码结构，不要猜测。

#scala #大数据 #spark

创新实训7——数仓模块修复 + 优化

优先级问题影响P0DWSToADSDirect 清空业务表写假数据⚠️ 用户数据丢失P0DWSToADSDirect metric_result 假评分quality_report 不可信P0AppConfig MySQL URL 缺 allowPublicKeyRetrievalMySQL 8.0 连接失败P1CodeParseETL return 跳出 main多仓库采集中断P1DWDToDW

#spark #大数据 #scala

项目实训5——AI Coding工具切换

虽然Trae CN在免费的领域算好用，但终归比较慢，且没法支持deepseek v4接入（企业版有，但是个人版貌似没有？最近上手了claude code cli，感觉挺好用的，于是将AI Coding切换到claude code。由于cc只有外区能用，国区需要通过某些手段，本文主要介绍cc的国内安装。前置工作：下载node.js & git（搜一下就行，没啥需要注意的）

#spark #大数据 #分布式 +1

项目实训5——AI Coding工具切换

#spark #大数据 #分布式 +1

项目实训5——AI Coding工具切换

#spark #大数据 #分布式 +1

项目实训4——数据开发部分功能的实现

GitHub Code Analysis 项目最终状态报告## 1. 项目完成度统计指标数值完成度核心ETL流程完成度 16/18 88.9% 已实现表数量 16/18 88.9% 数据流转完整性核心4层 100%说明：- 18张表中，16张已有数据- 2张缺失（ metric_detail_json 为可选扩展， ads_language_analysis 和 ads_repo_qua

#spark #sql #大数据 +1

共 12 条

请选择