logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Flume+Spark+Hive+Spark SQL离线分析系统

前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark!当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统也有很好的兼容性;Spark Sql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据;还提供了种类丰富的MLl

#spark#大数据#hive
社区发现算法原理与louvain源码解析

社区切分或者说社区发现,是一类图聚类算法,它主要作用是将图数据划分为不同的社区,社区内的节点都是连接紧密或者相似的,而社区与社区之间的节点连接则是稀疏的或者是社区与社区之间的节点并不相似。社区切分算法目前已经广泛运用在各个领域,例如在金融反欺诈的场景中,社区切分算法可以根据资金交易图谱划分出可疑的欺诈团伙或者洗钱团伙。再就是在营销场景中,社区切分算法可以对不同的人群进行自然分类,帮助业务人员发现不

文章图片
#算法#数据挖掘#知识图谱 +2
Flume+Kafka+Storm+Redis实时分析系统基本架构

今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一个简单的入门级架构,实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构,消费数据时如何处理重复数据或者丢失数据等问题,根据不同的业务场景,对数据的可靠性要求以及系统的复杂度

#storm#大数据#kafka +1
社区发现算法原理与louvain源码解析

社区切分或者说社区发现,是一类图聚类算法,它主要作用是将图数据划分为不同的社区,社区内的节点都是连接紧密或者相似的,而社区与社区之间的节点连接则是稀疏的或者是社区与社区之间的节点并不相似。社区切分算法目前已经广泛运用在各个领域,例如在金融反欺诈的场景中,社区切分算法可以根据资金交易图谱划分出可疑的欺诈团伙或者洗钱团伙。再就是在营销场景中,社区切分算法可以对不同的人群进行自然分类,帮助业务人员发现不

文章图片
#算法#数据挖掘#知识图谱 +2
Flume+Kafka+Storm+Redis实时分析系统基本架构

今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一个简单的入门级架构,实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构,消费数据时如何处理重复数据或者丢失数据等问题,根据不同的业务场景,对数据的可靠性要求以及系统的复杂度

#storm#大数据#kafka +1
到底了