[持续更新]大数据岗位实习日志

人工智能大二去了一个不对口的大数据岗位

江中洲

3286人浏览 · 2022-07-17 00:07:18

江中洲 · 2022-07-17 00:07:18 发布

入门了解

最近在大数据分析岗位实习,因为尚在入门所以就只能先做一个sqlboy啦,然后慢慢学习一点大数据相关开发的工作.

大数据开发与后端的区别

传统的后端java一般是用的spring全家桶,处理的数据量有上限,基于传统的数据库的CRUD与前端查询的接口

CRUD
增加(Create)、检索(Retrieve)、更新(Update)和删除(Delete)

数据库可以抽象为三个部分:
数据接入部分
数据计算部分(数据计算引擎)
结果存储部分

大数据开发需要会什么

说实话因为专业是智能,第一次听说需要懂这些东西

一些组件

Doug Cutting开山鼻祖首创Hadoop
消息队列组件KafKa(乍一听有点像那个作家卡夫卡)
数据存储组件Hadoop HDFS
分布式文件系统的鼻祖
分布式计算引擎Spark
先进的思想
高效的编程模型
完备的软件生态
分布式仓库HIVE
分布式数据库HBASE
分布式搜索引擎Elasticsearch

开源的数据计算引擎

MapReduce、Tez暂时不用考虑
(只是作为OLAP的内置计算引擎)
Strom(只是单一的流式处理没有批处理)
Spark兼容性更好
Flink

大数据入门为什么要先学计算引擎

不需要额外的设施
只需要一个IDE工具引入对应的jar包
地位核心承上启下决定运行效率
上接存储数据的数据源Kfaka、HDFS、Hive
下接结果存储的数据库Hbase、Elasticsearch、Mysql
使用频繁
与其他组件更紧密,可以读文件系统、数据库、消息队列,只要能存储都有对应的读api和写api

亚马逊云科技技术品牌专区

更多推荐

STM32节点移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）

STM32移植lorawan协议连接腾讯云物联网开发平台（IoT Explorer）前言前言在移植协议之前，先给大家科普一下Lora 和 lorawan 的区别。LoRa 是LPWAN通信技术中的一种，是美国Semtech公司采用和推广的一种基于扩频技术的超远距离无线传输方案。这一方案改变了以往关于传输距离与功耗的折衷考虑方式为用户提供一种简单的能实现远距离、长电池寿命、大容量的系统，进而扩...