logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

苦练基本功——数据仓库

数据仓库是一个以主题为导向、集成、非易失性、时间一致的数据集合,用于支持企业决策者进行分析、报表和数据挖掘等活动。它通过对企业各个业务领域的数据进行整合和清洗,将其转化为可理解、易分析的数据,从而为决策者提供决策所需的信息和分析基础。数据仓库是一个面向主题的、集成的、稳定的、历史数据的集合,它包括多个来源系统的数据,这些数据被集成到一个统一的模型中,通过数据清洗、转换和整合,使得数据可以被分析、查

文章图片
#数据仓库#数据挖掘#数据库
python数据分析之pandas数据合并

🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作,类似于SQL中的内连接、外连接的操作.

#pandas#python#数据分析
数据仓库入门介绍

本篇文章将从初学者的角度,来介绍一下什么是数据仓库,以及数据仓库的理论基础,帮助大家快速了解这个概念。

#数据仓库#hadoop#大数据
spark学习之处理数据倾斜

大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。

文章图片
#大数据#数据仓库#spark +1
spark学习之执行计划explain

本文主要介绍了spark的执行计划explain的使用方法,以及对逻辑执行计划和物理执行计划进行了说明,让大家更加了解spark的运行原理。

#大数据#spark
2022字节跳动数据仓库实习面经

先和大家说一下情况,3月4号面试的字节跳动数据研发岗位直接把我挂了,我满脸疑惑,但是抱着学习和提升自我的心态,打电话问问hr,像看看面试官给我面试的评价,hr说,就两行,第一句肯定,第二句说我专业知识不够。以下是我上次的面试经历👇:链接: 2022暑期实习字节跳动数据研发面试经历.链接: 2022百度大数据开发工程师实习面试经历....

#数据仓库#面试#大数据 +1
Spark之RDD的使用(pyspark版)

????上次写完rdd的介绍,有同学强烈介意用一些代码来展示一下rdd,好今天我们就如你所愿,我们今天就来以代码的方式给大家讲解一下rdd吧,对以往内容感兴趣的同学可以查看下面????:链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之Dataframe基本操作.链接: Spark之处理布尔、数值和字符串类型的数据.链接: Spark之核心架构.链接: Spark之RDD算

#spark#big data#python +1
MacBook安装git教程,git学习这一篇就够了!

????今天想和大家分享一下git,想做这一期的原因是因为在实习期间,在和测试部门的主管交流需求时,她发现我对git一窍不通,然后叫我有空看看git去,这不,我就开始看看git。我在下面放上github和git的网址方便大家访问????:github: github官网.git: git官网.????今天这一期我主要是从git是什么,如何安装,如何使用这三个方面来讲述,也算是我自己学习的一个过程。

#git#linux#github
hadoop数仓建设之离线数据开发

最近在学python的基础数据结构,主要原因是面试的算法题都是数据结构,想努力打打基础,但是作为一个人工智能与大数据领域的博主,还是要继续学习大数据的,今天我们就来介绍一下数据仓库的离线数据开发的过程吧,往期数仓的介绍在下面????:第一篇: Hadoop之数据仓库概述.第二篇: hadoop数仓建设之日志采集.第三篇: Hadoop数仓建设之数据同步.大数据之路任重道远,借着公司有大数据的平台赶

#大数据#spark
M1芯片的MacBook安装docker

????在经历了deepin,centos7安装docker失败之后(deepin系统curl指令出错,centos7版本太低),我决定在我的Macbook m1上安装docker这里写目录标题1.确定自己电脑版本2.上官网下载m1版本的docker3.安装docker4.配置国内镜像加速5.检查配置1.确定自己电脑版本2.上官网下载m1版本的docker下载链接: MacBook m1芯片的do

#docker#运维#容器
    共 101 条
  • 1
  • 2
  • 3
  • 11
  • 请选择