logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SparkSQL电商案例

Pandas是python的一个数据分析包(numpy,matlab),最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。

文章图片
#spark#大数据#分布式 +2
物流大数据平台架构设计实战

《物流大数据平台架构设计与实践》摘要: 物流行业数字化转型面临海量数据处理挑战,日均千万级订单和实时轨迹追踪需求催生了新一代大数据平台建设。该架构采用分层设计:数据采集层通过Kafka实现业务解耦;存储层融合HDFS、ClickHouse等组件满足不同场景;计算层基于Flink实现实时预警,Spark处理离线分析。技术选型注重高吞吐与低延迟,如Kafka3.4+Flink1.17组合。特别针对物流

文章图片
#大数据#hadoop#spark +2
spark的指令参数

在spark的bin下有是spark的指令,指令运行时可以指定对用的参数,实现对服务的控制。spark-submit--deploy-mode cluster代码文件名。当spark完成计算后,会产生对应的日志计算信息,在计算信息中显示了计算的流程。流程中涉及Application,job,stage,task的信息。dirver有资源调度分配在哪台机器上运行,就是cluster。dirver在提

文章图片
#spark#大数据#分布式 +4
spark-rdd实例

x 数结构rdd中每个元素数据,元素是是什么类型,就进行什么类型的计算操作。可以选择指定master,appName。

#spark#hadoop#hive +4
《低成本开启AI实践:聊聊2026年个人开发者的云上第一课》

时长:约18-20分钟风格:搞钱干货+轻幽默+紧迫感核心目标:推广阿里云云小站 https://www.aliyun.com/minisite/goods?userCode=zg2tbduyBGM:紧张感电子乐,像倒计时主播A(老K):“问你个事——2026年,38块钱能买什么?”主播B(阿紫):“两杯奶茶?一张电影票?还是…”老K:“停。我今天用38块,买了一台全年无休的AI服务器,能跑Deep

文章图片
#人工智能
Flink + Paimon 数据 CDC 入湖最佳实践

LSM 典型的 Minor Compaction 是指:增量数据只会让前面几层的文件进行合并,只要增量数据不够多,最底层的文件是不会参与 Compaction 的,这就意味着多个 Tag 之间的最底层是完全一样,完全复用的,结合湖格式的文件管理,多个 Tag 并不会带来冗余的文件存储。Tag 是 immuatable 的,它不能被增删改查的,一般来说,数据库映射的表是不可变的,我们推荐在 ODS

#大数据#flink#python +2
到底了