logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库(二、美团设计实践)

OneData建设探索之路:SaaS收银运营数仓建设背景随着美团业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,我们总结的问题包括如下几点:缺乏统一的业务和技术标准,如:开发规范、指标口径和交付标准不统一。缺乏有效统一的数据质量监控,如:列值信息不完整和不准确,...

#数据仓库
深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能

58同城离线计算平台设计与实践(大数据进阶)

编者荐语:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun导读:58离线计算平台基于...

#大数据
通俗易懂的大数据平台概念和架构

文章目录前言问题什么是大数据为什么需要数据平台数据平台整体模型模块分析主流平台前言今天为什么来写这个内容了,一是前些天有个非行业内的好朋友想了解了大数据相关概念的内容,搜了下网上平台相关的介绍,对于业内和业外的感觉都不太完善。另外就是自己也想定时归纳下认知。所以今天特意描述下自己的愚见,也欢迎大家指点。问题在开始今天的描述前,这里我先提一个问题。假设双11马总让大家来计算下淘宝过去1小时购...

#架构
最新elasticsearch7(一、增删改查java)

文章目录前言文档使用spring配置CRUD前言之前想到网上找几个es结合spring的简单实例,但是因为es的版本众多,个别版本的差异还较大,另外es本身提供多种api,导致许多文章各种乱七八糟实例,很难找到版本匹配直接能用的。所以后面直接放弃,从官网寻找方案,这里我使用elasticsearch最新的7.5版本来做样例,这里特别写一下官方文档的使用,方便小伙伴遇到问题可以自行查找。文档使...

#elasticsearch#大数据#java
scala(Row、Array、Tuple、Class、RDD、DF之间类型转换)

前言spark中因为Rdd和Dataframe的一些分装函数处理,经常会遇到类型的相关转换,今天就记录些常见的几种类型转换。Array => Rowval arr = Array("aa/2/cc/10","xx/3/nn/30","xx/3/nn/20")// val row = Row.fromSeq(arr)val row = RowFactory.create(arr)Row =&g

#scala#spark
Flink cdc debug调试动态变更表结构

flink cdc debug动态变更表结构

文章图片
#flink#大数据
clickhouse(十二、踩坑之路)

Q1DB::Exception: Cannot create table from metadata file /data/clickhouse/metadata/default/dwd_test.sql, error: DB::Exception: The local set of parts of table default.dwd_test doesn’t look like the set

#clickhouse
mybatis判断list集合是否包含指定数据

需求在mybatis脚本中想要判断list中是否含有某个字符串。准备之前脚本中用的最多的list函数就是size和遍历了。那么mybatis脚本中是不是又包含函数了。首先我们要清楚list的类型。写个简单的测试用例。<select id="test" parameterType="java.util.Map" resultType="java.util.Map">...

#mybatis
干货 | 携程机票数据仓库建设之路

一、前言随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切。数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色。数据仓库的主题覆盖度、性能、易用性、可扩展性及数据质量都是衡量数据仓库解决方案好坏的重要指标。携程机票部门数据仓库也在不断摸索向着这些目标砥砺前行。...

#大数据#数据仓库
    共 26 条
  • 1
  • 2
  • 3
  • 请选择