logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从大数据平台到数据中台

大数据概念2011年,美国麦肯锡在研究报告《大数据的下一个前沿:创新、竞争和生产力》中定义大数据是指大小超出典型数据库软件工具收集、存储、管理和分析能力的数据集。但是这个定义过于简单,作...

#数据仓库#运维#大数据 +2
云原生数据湖元数据管理在滴普科技的实践

元数据在数据湖上的重要性不言而喻,借用阿里云官方社区的一张图:这幅图描绘了数据湖分析平台的总体构架,它主要包括五个模块:数据源:原始数据存储模块,包括结构化数据(Database等)、半结构化(File、日志等)、非结构化(音视频等)数据集成:为了将数据统一到数据湖存储及管理,目前数据集成主要分为三种形态。第一种为直接通过外表的方式关联元数据;第二种为基于ETL、集成工具、流式写入模式,这种方式直

#云原生#科技#大数据
一种数据湖维表查询方案

构筑强者的道德平台是一个复杂的社会工程,道德平台太低,势必挤压弱势群体的生存空间,而过高的道德平台又必然存在两个问题:首先是很少有人能攀援上去,没有可操作性;其次是过多的帮助不利于社会进步,弱势群体得到的输血越多,则自身的造血功能就越差,就越接近死亡。道德平台理想的高度,是优胜劣汰的法则与人人平等的道德两者之间的平衡。主流的文化,是优胜劣汰的文化,是不给落后观念生存空间的...

#运维#数据库#java +2
数据湖常用查询优化技术

经济发展有周期,人的思想活动也是有周期的,是时候进行一场文化领域的整风运动了,尤其是那些空谈误国,乱教误人子弟的,就是缺少了对其思想改造的过程,严重脱离群众,是时候要常态化地下放了。本文首发微信公众号:码上观世界1MinMax开放式数据格式文件的的元数据信息部分通常都包含当前文件每个列的最大、最小值,比如下图中的parquet文件包含两个字段:year和uid,并且fil...

#大数据#数据库#python +2
大数据平台到底该如何设计?

本文首发微信公众号:码上观世界要回答如何设计大数据平台,首先要回答为什么要设计大数据平台。设计大数据平台无非是满足企业的数据查询和分析需求,最终为企业的运营服务。最终交到运营手里的大数据产品可以是报表、看板以及其他高级BI工具。实际上,从大数据运营平台沿着数据链路的产生方向往上游推,还存在着大数据采集与存储平台、大数据开发与计算平台、大数据治理平台等。他们分别服务者不同的用户,比如大数据采集与存储

#大数据#产品运营
如何设计统一元数据

元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。元数据管理工具可以了解数据资产分布及产生过程。实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方...

#大数据#数据库#python +2
物联网数据传输协议MQTT介绍与应用开发详解

本文首发微信公众号:码上观世界Part 1 物联网概述1. 物联网概念物联网是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器、激光扫描器等各种装置与技术,实时采集任何需要监控...

#网络#java#物联网 +2
数据仓库模型设计开发流程与规范

版本:V1.0最后修改日期:2021/03/17本文首发微信公众号:码上观世界1. 数据模型设计目标为使下游数据使用方低成本获取一致性的可靠数据服务,数据模型设计方需要达到如下目标...

#数据仓库#大数据#人工智能 +2
数据仓库模型设计开发流程与规范

版本:V1.0最后修改日期:2021/03/17本文首发微信公众号:码上观世界1. 数据模型设计目标为使下游数据使用方低成本获取一致性的可靠数据服务,数据模型设计方需要达到如下目标...

数据中台系统架构设计

架构总览数据中台通常采用分层架构,各层应用采用微服务化方式构建。针对不同的行业,系统托管方式各不一样,比如传统企业更倾向于采用私有云或自建机房,小型互联网企业倾向采用公有云等;针对不同应用...

#数据仓库#分布式#大数据 +2
    共 12 条
  • 1
  • 2
  • 请选择