logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式存储引擎 Alluxio 入门指南

01什么是AlluxioAlluxio是世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更...

#大数据#java#hadoop +2
盘点Hadoop生态中 6 个核心的大数据组件

大数据生态圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OLTP型,以及混合事务与分析处...

#分布式#大数据#hadoop +2
使用Apache Spark和Apache Hudi构建分析数据湖

1. 引入大多数现代数据湖都是基于某种分布式文件系统(DFS),如HDFS或基于云的存储,如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数...

大数据平台迁移实践 | Apache DolphinScheduler 在当贝大数据环境中的应用

“大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用。本次演讲主要包含四个部分:平台建设的背景大数据平台重构大数据调度平台建设下一步规划Apache DolphinScheduler王昱翔当贝大数据平台基础开发工程师毕业于电子科技大学,主要...

#大数据#分布式#编程语言 +2
ByteLake:字节跳动基于Apache Hudi的实时数据湖平台

一篇关于字节跳动基于 Apache Hudi 的实时数据湖平台 ByteLake 的分享。本篇内容包含四个部分,首先介绍一下 Hudi,其次介绍字节的实时数据湖平台 ByteLake 的应...

#运维#大数据#数据库 +2
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

1. 测试过程环境版本说明Flink1.13.1Scala2.11CDH6.2.0Hadoop3.0.0Hive2.1.1Hudi0.10(master)PrestoDB0.256Mysq...

#hadoop#数据库#mysql +2
基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩优化和并发性。Hudi 于 2016 年推出,牢牢扎根于 Hadoop 生态系统,解释了名称背后的含义:Hadoop Upserts Deletes an

#大数据#hadoop#数据库 +2
HBase的SQL中间层——Phoenix(附大数据入门指南)

大数据依然是当前较为火热的领域,其背后的核心价值是数据。今天分享一个GitHub上一个系类文章,作者是heibaiying,大数据入门指南(2019)地址:https:/...

数据湖揭秘—Delta Lake

01DeltaLake 简介Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。Delta Lake 关键特性:ACID事务:通过不同等级的隔离策略,...

#大数据#数据库#python +2
构建您的专属AI助手:在钉钉上部署DeepSeek

引言在这个信息爆炸的时代,拥有一个高效的AI助手变得尤为重要。DeepSeek就是这样一款令人惊艳的AI解决方案,它能够帮助您处理各种日常任务,从日程管理到数据分析无所不能。然而,由于其近期过于火爆,许多用户反馈难以进入使用。今天,我们将介绍如何在钉钉平台上创建一个DeepSeek AI助理,以缓解这一问题。什么是DeepSeek?DeepSeek是一款基于先进的人工智能技术开发的助手软件,旨在为

#人工智能
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择