
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
轻量级大数据架构——个人开发者最推荐的一种架构
Kappa架构就是纯流式架构或者批流一体架构,它把所有的内容都放在了流式计算的过程中,数据的来源通常是Binlog(二进制日志文件),展现还是通过APP,存储仍然通过MySQL,hive和elasticsearch等数据库或数据仓库完成,批处理则通过flink的重放来实现。爬虫的框架也就是Requests,BS4,Selenium,Scrapy,lxml,在爬的过程中可通过BS4和lxml进行ET
轻量大数据架构(1):环境的搭建与配置
在windows里,spark-shell和pyspark的部分运行会因为环境不兼容而崩溃/报错,如使用:quit会因为删除失败报错;hadoop时,需要注意其与Windows环境兼容度问题,需要同时安装WinUtils和hadoop.dll,这里提供一个大佬的网址,里面有hadoop对应的dll和winutils,WSL系统在安装时,可采用图形化的安装方式,点开控制面板的“程序和功能”,然后再点
到底了







