简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待!本文目录:一、Hadoop二、Hive三、Spark四、Kafka五、HBase六、Flink七、Clickhouse八、Doris九、数据仓库九、数据湖九、必备SQL题八、必备算法九、大数据算法设计题HadoopHadoop中常问的就三块,第一:分布式存储(HDFS);第二:分
作者:郭理想 & 任海潮部门:数据中台一、背景有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的 SaaS 系统和一体化新零售解决方案。随着近年来社交电商的火爆...
大家好,我是凌云。因为平常干的事比较特殊,所以我微信上加了挺多的警察,有时间会跟他们一块聊聊技术,分析一些案件。2019年12月15号,有个警察老哥跟我聊了聊二手平台诈骗的事,两天后...
导读:今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 中文直译是镶木地板,意思是结构紧凑,空间占用率高。1、概念大规模分析型数据处理在互联网乃至其他行业中应用都已越来越广泛,尤其是当前已经可以用廉价的存储来收集、保存海量的业务数据情况下。如何让分析师和工程师便捷的利用这些数据也变得越来越重要。列式存储(Column-or
数据分析中将两个数据集进行 Join 操作是很常见的场景。我在 这篇 文章中介绍了 Spark 支持的五种 Join 策略,本文我将给大家介绍一下 Apache Spark 中支持的 J...
近年来,随着国内数字化实践的不断深化,中国企业上云意识和积极性明显提高,上云比例和应用场景深度有所提升。根据亿欧智库2022年2月发布的《2021中国公有云服务商能力指数研究报告》指出:随着数字经济和新技术的发展,预计2023年中国政府和大型企业上云率将超过60%,上云深度将有较大提升。这意味着拥有云计算的技术将在职业发展中带来很大的竞争优势。ACE是什么?ACE是阿里云...
身为让容器应用实现大规模工业生产的一大功臣,过去几年,Kubernetes 势头迅猛,BAT、京东、美团、字节都走上了全域容器化部署以及云原生架构的康庄大道。而作为支撑阿里万亿级应用背后...
掐指一算,云计算已经有了十年的历史,发展到今天几乎可以算是近十年最伟大的技术进步之一。「云计算」这个术语,也早已从一个新鲜词汇,成为了妇孺皆知的流行语。任何事物的诞生和发展一定有其前...
经过好多天的各种折腾,终于在几台电脑里面配置好了Hadoop2.2.0分布式系统,现在总结一下如何配置。 前提条件: (1)、首先在每台Linux电脑上面安装好JDK6或其以上版本,并设置好JAVA_HOME等,测试一下java、javac、jps等命令是否可以在终端使用,如何配置JDK这里就不说了; (2)、在每台Linux上安装好SSH,如何安装请参加《Linux平台下安装SSH》。后面
信号(Signal)是Linux系统中用于进程之间相互通信或操作的一种机制。信号是一个相当广泛的课题;在这里,我们仅仅探讨几种最重要的信号以及利用信号控制进程的技术。 信号是一个发送到进程的特殊信息。信号机制是异步的;当一个进程接收到一个信号时,它会立刻处理这个信号,而不会等待当前函数甚至当前一行代码结束运行。信号有几十种,分别代表着不同的意义。信号之间依靠它们的值来区分,但是通