logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大数据技术详解】——Elasticsearch技术(学习笔记)

Elasticsearch(ES)是一个基于Lucene的分布式搜索分析引擎,具有近实时处理能力。其核心概念包括节点、集群、索引、文档和分片,采用倒排索引技术实现高效检索。ES支持水平扩展、全文检索、聚合分析和RESTful API,适用于日志分析、电商搜索等场景。进阶功能涵盖向量搜索(8.x支持dense_vector字段和kNN搜索)、跨集群搜索、数据流管理及性能调优技巧(如批量写入、查询优化

文章图片
#大数据
【大数据技术详解】——HBase技术(学习笔记)

HBase是一个基于Hadoop的分布式NoSQL数据库,具有高可靠、高性能和可扩展特性。它适合海量数据的随机实时读写场景,如用户画像、时序数据和消息状态存储。核心架构包括HMaster、RegionServer和ZooKeeper,采用稀疏多维排序映射表模型,支持水平扩展和强一致性。RowKey设计是关键,需避免热点问题。HBase可与Hive/Spark集成,但性能调优需关注Region数量、

文章图片
#大数据#hdfs#hadoop +1
【大数据技术详解】——Sqoop技术(学习笔记)

Sqoop是Apache开源的数据迁移工具,专为关系型数据库与Hadoop生态系统(HDFS/Hive/HBase)之间批量数据传输设计。其核心功能包括并行导入导出、增量同步、数据类型自动映射等,通过MapReduce实现高吞吐量传输。虽然Sqoop在传统Hadoop数仓建设中发挥重要作用,但随着技术发展,其局限性(如依赖MapReduce、分片限制)逐渐显现,正被Spark JDBC等新方案替代

文章图片
#大数据#sqoop#学习
【大数据技术详解】——Hive 离线数仓分层(学习笔记)

本文详细介绍了Hive离线数仓的分层规范及实现流程。数据仓库采用经典四层架构:ODS层存储原始数据,DWD层进行数据清洗和标准化,DWS层实现轻度汇总,ADS层生成业务指标。通过用户行为日志分析示例,展示了从原始JSON数据到最终报表的完整ETL流程,包括建表语句、数据转换逻辑和分区管理。文章还提供了数据导出到MySQL的方案(推荐使用Spark),并给出Airflow调度任务示例。最后强调分层设

文章图片
#hive#hadoop#数据仓库
到底了