logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据生态组件学习笔记(一)

负责开发和维护多个知名的开源项目,如 Apache HTTP Server、Apache Hadoop、Apache Spark 等。spark是在内存中计算,然后数据存在内存中吗,从内存中读取数据?,实际需求可能会更高,考虑到中间结果、操作的复杂性和其他因素,建议至少准备 1.5 到 2 倍的内存。:数据首先存储在磁盘中(如 HDFS),计算过程从磁盘读取数据,随后在内存中进行处理。处理亿级数据

文章图片
#hadoop#spark#kafka +4
count(1)、count(*)、count(列名)的含义、区别、执行效率

先说结论:count(*) ≈ count(1) > count(id) > count(字段)含义:1、count(*) :统计所有的行数,包括为null的行(COUNT(*)不单会进行全表扫描,也会对表的每个字段进行扫描。而COUNT('x')或者COUNT(COLUMN)或者COUNT(0)等则只进行一个字段的全表扫描)。2、count(1):计算一共有多少符合条件的行,不会忽略null值(

#sql#java#数据库
到底了