logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库应用篇(一)需求文档模板和需求评审

一、需求文档模板1、产品需求文档:文档标识、产品概述、功能说明、全局说明、非功能性需求等2、交互设计文档(DRD):3、报表需求文档:1)业务数据:业务场景、指标名称、指标定义、维度、维度定义/枚举值、用表及操作口径定义2)数据结果展示:字段、字段类型、枚举值、筛选器、数据展示路径、报表名称维度组合:其他信息:数据输出方式(接口、报表、其他),数据输出日期(实时、日、周、月),如果是按日的话注明t

数据分析模型

常见数据分析模型较多,列举其中常见的八种供楼主参考:1、行为事件分析行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程,如用户注册、浏览产品详情页、成功投资、提现等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。在日常工作中,运营、市场、产品、数据分析师根据实际工作情况而关注不同的事件指标。如最近三个月来...

5个理由告诉你为什么用NAS网络存储

来源:景安网络发表日期:2018-04-10浏览次数:Tags:NAS网络存储<div class="content-txt2 mtop10">景安网络专业的数据中心服务商,长期提供数据中心托管服务,私有云,互联网解决方案,互联网增值服务。<b><fon

HIVE实战处理(七) hive 新增字段 联级(cascade)和json格式的hive表

问题描述:实际应用中,常常存在修改数据表结构的需求,比如:增加一个新字段。如果使用一般的add columns(col1 string)的语句增加字段的话,对于旧分区中的col1将为空且无法更新,即便insert overwrite该分区也不会生效。1、准备一个分区表test_partition2、测试数据新增字段alter table temp.test_partition add column

kafka原理系列之(二)partition的消费策略

1、topic和partition以及consumer关系一个topic 可以配置几个partition,producer发送的消息分发到不同的partition中,consumer接收数据是按照group来接收。kafka确保每个partition只能同一个group中的同一个consumer消费,如果想要重复消费,那么需要其他的组来消费。也就是说partition可以被不同的消费组中的消...

kafka原理系列之(六)如何动态修改Kafka Topic的分区副本数

一、内容简介Kafka提供了一个工具,用于调整Topic中各个分区的复本数据。工具名称叫kafka-reassign-partitions.sh。创建一个Topic,共2个分区,副本数为2(共2份,含原始数据):查看该Topic。分区0的Leader是1,分区1的Leader是2:本文转载自:http://johng.cn/update-kafka-topic-replicas/,本站转载出...

kafka原理系列之(五)(如何确定Kafka分区个数)

一. Kafka的分区数是不是越多越好?1、 分区多的优点Kafka使用分区将topic的消息打算到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小单元。对于producer而言,它实际上是用...

kafka原理系列之(一)消息存储和offset提交机制

kafka之消息存储和offset提交机制Kafka具有存储功能,默认保存数据时间为7天或者大小1G,也就是说kafka broker上的数据超7天或者1G,就会被清理掉。这些数据存放在broker服务器上,以log文件的形式存在。kafka的安装目录下面的/conf/server.propertites文件中中设置:### 日志保存时间 (hours|minutes),默认为7天(168...

kafka原理系列之(三)replication机制(复制原理)和ISR机制(同步机制)

Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供partition级别的复制,replication的数量可以在$KAFKA_HOME/config/server.properties中配置(default.replication.refactor)。1、...

canal实操(一)监控mysql的数据打印到控制台

前言:本实操参考: 超详细的Canal入门,看这篇就够了!一、简易版本的canal控制台输出增量的日志1、准备一个mysql表,mysql压缩包解压的安装教程2、插入一条数据3、对应canal启动的客户端会把插入的log日志信息打印出来。以上需要本地开启canal 启动命令startup.batmysql服务启动准备好更新/插入的数据INSERT INTO runoob_tbl VALUES('2

    共 11 条
  • 1
  • 2
  • 请选择