logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

轻量级大数据架构——个人开发者最推荐的一种架构

Kappa架构就是纯流式架构或者批流一体架构,它把所有的内容都放在了流式计算的过程中,数据的来源通常是Binlog(二进制日志文件),展现还是通过APP,存储仍然通过MySQL,hive和elasticsearch等数据库或数据仓库完成,批处理则通过flink的重放来实现。爬虫的框架也就是Requests,BS4,Selenium,Scrapy,lxml,在爬的过程中可通过BS4和lxml进行ET

#大数据#架构#数据库 +4
轻量大数据架构(1):环境的搭建与配置

在windows里,spark-shell和pyspark的部分运行会因为环境不兼容而崩溃/报错,如使用:quit会因为删除失败报错;hadoop时,需要注意其与Windows环境兼容度问题,需要同时安装WinUtils和hadoop.dll,这里提供一个大佬的网址,里面有hadoop对应的dll和winutils,WSL系统在安装时,可采用图形化的安装方式,点开控制面板的“程序和功能”,然后再点

#大数据#架构#python +1
到底了