logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据面试常见问题(四)——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题,你们是怎么解决的?4、如果抽取的数据有重复,怎么解决5、etl脚本开发以后,怎么运维6、一张特别大的表,几千万,几亿 的表,怎么通过etl工具同步7、数据同步以后,源系统的表结构发生了改变,比如源系统的表增加了字段,你的kettle脚本是否会报错?8、有一张表下午5点才出数据,依赖的表早上十点就已经跑完了,是什么原因导致表这么

#大数据#etl#面试
大数据面试常见问题(二)——Linux部分

1、shell怎么传参接收参数:采用$0,$1,$2..等方式获取脚本命令行传入的参数,值得注意的是,$0获取到的是脚本(1)路径以及脚本名#!/bin/bashecho "脚本$0"echo "第一个参数$1"echo "第二个参数$2"(2)执行shell脚本传入参数:./test.sh 1 2 或者 sh test.sh 1 22、批量杀死名字带abc的进程kill -9 `ps -aux

#大数据#linux#面试 +1
大数据面试常见问题(七)——面试部分

如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。1.2 数据漂移出现的原因通常落地数仓的ODS表会按时间切分做分区存储,实际上往往由于时间戳字

#大数据#面试
大数据面试常见问题(一)——Oracle部分

1、Oracle分区类型范围分区,列表分区,散列分区,组合分区2、每种类型一般是用在什么场景下?范围分区:用指定的分区键决定的范围进行分区,最为常用,分区键常采用日期。列表分区:某列的值只有几个,可以采用列表分区。散列分区:通过指定分区数量或编号来均匀分布数据的一种分区类型,分区数量常采用2的N次方;当列的值没有合适的条件时,采用散列分区;组合分区:范围分区和列表分区组合;范围分区和散列分区组合,

#oracle#数据库#大数据 +1
大数据面试常见问题(五)——报表部分

目录1、Finereport的报表设计流程2、做报表开发,如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗?都少钱?4、做出的报表是以什么文件或者形式发给客户,客户又是通过什么方式查看报表的呢?5帆软和tableau的区别(传统bi工具和商务智能bi工具的区别)6、olap和oltp的区别 我们都是根据需求来验证的,如果计算的话,都有计算公式,我会自己先算一遍,然后通过调用函数对比计算结

#数据仓库#大数据
大数据面试常见问题(六)——建模部分

会使用图形化的界面来表示表格和表格之间的关系,以及表格本身的内容。这个表示数据之间的表达关系的图,就叫做ER图。怎么去设计某个功能需要的表格,以及中间的小表,每个表格有哪些不同的关系等等,这个就是数据建模的过程(1)确定表名。表名要确保其唯一性,表的名称要与用途相符,简略、直观、见名知意。(2)确定字段名称。字段名长度小于64个字符;字段名可以包括字母、汉字、数字、空格和其他字符;字段名不可以包括

#大数据#面试
大数据面试常见问题(七)——面试部分

如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。1.2 数据漂移出现的原因通常落地数仓的ODS表会按时间切分做分区存储,实际上往往由于时间戳字

#大数据#面试
大数据面试常见问题(五)——报表部分

目录1、Finereport的报表设计流程2、做报表开发,如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗?都少钱?4、做出的报表是以什么文件或者形式发给客户,客户又是通过什么方式查看报表的呢?5帆软和tableau的区别(传统bi工具和商务智能bi工具的区别)6、olap和oltp的区别 我们都是根据需求来验证的,如果计算的话,都有计算公式,我会自己先算一遍,然后通过调用函数对比计算结

#数据仓库#大数据
大数据面试常见问题(六)——建模部分

会使用图形化的界面来表示表格和表格之间的关系,以及表格本身的内容。这个表示数据之间的表达关系的图,就叫做ER图。怎么去设计某个功能需要的表格,以及中间的小表,每个表格有哪些不同的关系等等,这个就是数据建模的过程(1)确定表名。表名要确保其唯一性,表的名称要与用途相符,简略、直观、见名知意。(2)确定字段名称。字段名长度小于64个字符;字段名可以包括字母、汉字、数字、空格和其他字符;字段名不可以包括

#大数据#面试
大数据面试常见问题(一)——Oracle部分

1、Oracle分区类型范围分区,列表分区,散列分区,组合分区2、每种类型一般是用在什么场景下?范围分区:用指定的分区键决定的范围进行分区,最为常用,分区键常采用日期。列表分区:某列的值只有几个,可以采用列表分区。散列分区:通过指定分区数量或编号来均匀分布数据的一种分区类型,分区数量常采用2的N次方;当列的值没有合适的条件时,采用散列分区;组合分区:范围分区和列表分区组合;范围分区和散列分区组合,

#oracle#数据库#大数据 +1
到底了