logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【数仓】大数据开发全流程 - 实习总结

  工作了快一个月了,今天简单说一下大数据开发的整个流程。假设就以自己这个公众号为例,这样不会抽象,比较直观。1.数据源前端会对用户行为进行埋点,并上报后端服务器。埋点会记录一些信息,比如:用户 id:标记一个用户,后面可以根据这个算一段时间的 UV(独立访客),也就是 selecct count(distinct uid) from table_name where date >= t1

#java#数据仓库
【面经】数据研发一面-蚂蚁集团暑期实习

  蚂蚁集团的数字经济数据研发岗,没有问大数据相关的组件。个人感觉是偏向大数据的应用而非数仓开发。如果想传统数据开发建议投递蚂蚁集团的 CTO 线。这里感觉蚂蚁的面试是比较偏向于计算机基础的。1.自我介绍所有的面试几乎都是从这一步开始的,介绍一下自己的基本情况,包括目前是几年级,什么时候毕业,什么专业,导师研究什么方向,在学校里做了什么,为什么要报数据开发这个岗位。2.学过什么专业课?这个问题暗示

#大数据#面试
【场景】大数据常考场景题 - Bitmap

  大数据开发面试通常会问场景题,主要考察大数据中常用的数据结构,比如 Bitmap、Bloom Filter 等等。今天就说一个工作中碰到的。比如昨天说到的问题,用户要在自定义时间区间内查询,就需要快速响应,可能用到 ClickHouse。可以先看昨天的文章。欢迎关注公众号。大数据开发全流程那么为什么 ClickHouse 为什么快呢?这要归因于底层的数据结构。考虑这样一个场景:场景1:用户画像

【面经】字节跳动大数据开发面经

  马上要去字节入职了,今天分享一篇字节大数据开发的面经。入职之后看情况更新,不知道会不会很忙,忙的话更新频率可能低一点。问题的答案写在这里了。可以先自己做再看答案。字节跳动面经。1.自我介绍2.数仓是什么?可以看《大数据之路》。3.Hive 是什么?建议看官网的描述。4.讲一下 MapReduce 的过程常考题,必会。这里简单说一下,后面单独写一篇文章。5.比较 MR 和 Spark 的 Shu

#大数据#数据仓库
【面经】字节大数据开发面经

1.wordcount的实现过程Map 阶段:按行读取要统计的文本文件;按空格拆分每行的单词将单词转换成 kv 键值对,格式为(单词,1)将所有的 kv 键值对中的单词按照单词首字母分区,比如分两个区,那么分区1(a-p),分区2(q-z)Reduce 阶段:每个 ReduceTask 拉取上一阶段所有 MapTask 的输出,按照 key 汇总对相同的 key 的 value(value 都是

#大数据#面试#数据仓库
    共 21 条
  • 1
  • 2
  • 3
  • 请选择