logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据安全】基于Kerberos的大数据安全验证方案

1.背景互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。近几年,在thehackernews等网站上总会时不时看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。在Hadoop1.0.0之前,Hadoop并不提供对安全的支持,默认集群内所有角色都是可靠的。用户访...

谈MDM主数据管理系统、BI、大数据、SOA之间的关系

随着“大数据”技术广泛流传,而MDM、BI、SOA相关技术已经弱化,这是从一些程序员那听到的声音,今天就想捋捋这四者之间的关系。作为一个售前咨询人员来讲,理清这四者之间的关系还是很有必要的,因为在交流或者编写解决方案时还是会遇到这类场景。BI和大数据  首先看看BI和大数据之间的关系,很多传统软件厂商都是从BI报表开始做起,会经历数据采集、数据存储、数据处理分析、数据挖掘、可视化报表展...

阿里云Big Data - |分层| ODS& DWD& DWS& ADS| 行为数仓

有基础了解大致情况, 详细请参考原文数仓分层ODS:Operation Data Store原始数据DWD(数据清洗/DWI)data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活点赞、评

#大数据
【华为云技术分享】快速理解spark-on-k8s中的external-shuffle-service

【摘要】 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-service特性的最新进展吧。如果你想在kubernetes集群中运行Spark任务,那么你可能会对:如何

阿里云Big Data - dataworks和dataphin两款产品的区别

区别1:产品功能不同1、Dataworks,在阿里集团内部为大家所熟知的部分是D2,在阿里云则是数加平台的主体-数据工厂。DataWorks(数据工场)具备全栈数据研发能力(数据集成与开发、 生产运维调度、离线与实时分析、数据质量治理与资产管理、安全防护、数据共享与服务、机器学习、数据应用搭建)的大数据平台;2、Dataphin,通过输出阿里数据中台实战沉淀的大数据建设体系OneData+OneI

#大数据
阿里云Big Data - 如何优雅地设计数据分层 ODS DW DM层级

数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。话说,单纯用用Hadoop、Spark、Flume处理处理数据,其实只是学会几种新的工具,这是搞工具的,只是在数据仓库中etl中的一部分。当然,技术的更新往往能领到一个时代的变革,比如Hado

#大数据
阿里云Big Data - dataworks和MaxCompute之间的关系与区别

dataworks和MaxCompute之间的关系与区别MaxCompute做数据存储和数据分析处理,Dataworks是集成了数据集成、数据开发调试、作业编排及运维、元数据管理、数据质量管理、数据API服务等等功能的大数据开发IDE套件。类似Spark和HUE的关系,不知道这个对比是否准确。MaxCompute存储目前只暴露表,能处理非结构化数据吗?可以,非结构化数据可以存放在OSS上,一种方式

#大数据
概念 : ODS 、数据仓库

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全...

数据治理 - 数据仓库历史数据存储 - 拉链表

什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。我们先看一个示例,这就是一张拉链表,存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。注册日期用户编号手机号码t_start_datet_en...

数据治理 - 漫谈数据仓库之维度建模

概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述数据...

    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择