logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Graphx图算法介绍

本文介绍的Graphx的图上算法都是基于Pregel模型实现的。用户图计算的场景:基于度分布的中枢节点发现基于最大连通图的社区发现(聚类)基于三角形计数的关系衡量基于随机游走的用户属性传播(聚类)1. 数三角形Graphx的数三角形算法TriangleCount用于统计每个顶点所在的三角形个数。1.1 简介对网络图中进行三角形个数计数可以根据三角形数量反应网络中的...

#spark
大数据常用技术栈

提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展,尤以Hadoop和Spark最为突出,已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一.

Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org

报错:Error during job, obtaining debugging information...FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决:失败原因经查发现发现/tmp/hadoop/.log提示java.lang.OutOfMemoryError

#hive
flink Caused by: java.net.BindException: Could not start rest endpoint on any port in port range 808

flink 启动,standalone 模式StandaloneSessionClusterEntrypoint 进程起不来查看log日志文件org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint StandaloneSessionClus

#flink
Apache Griffin - 数据质量监控工具

一、概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在不断

spark yarn模式提交任务不成功(application state: ACCEPTED)

问题详情  电脑8G,目前搭建3节点的spark集群,采用YARN模式。master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时)exportSPARK_WORKER_MERMORY=1g (在spark-env.sh)export JAVA_HOME=/usr/local/jdk/jdk1.8.0_60(必须写)export SCALA_HOME=/usr/local/

#spark#yarn
Flink 命令行提交参数

Flink 命令行提交参数:1 参数必选 :-n,--container <arg>分配多少个yarn容器 (=taskmanager的数量)2 参数可选 :-D <arg>动态属性-d,--detached独立运行-jm,--jobManagerMemory <arg>JobManager的内存 [i

#flink
Git和SVN的区别(以后别再问我了)

为什么需要版本控制git和svn都是程序员用来管理代码的,如果是一个人开发一个项目,版本控制这个玩意儿根本用不上,对吧。但是呢,在企业中进行开发,一个人负责一个项目的情况几乎不可能,从需求评审,UI设计,前端开发,后台开发,测试,整个过程都是需要团队来配合的。这个时候呢,版本控制都显得尤为重要啦。这篇主要是谈谈Git和SVN两者的区别。两者的区别把第一条理解到位思想到位了做起来才会有的放矢,其他几

#git#svn
Hive计算引擎Tez简介和使用

一、前言Hive默认计算引擎时MR,为了提高计算速度,我们可以改为Tez引擎。至于为什么提高了计算速度,可以参考下图:用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。二、安装包准备1)下载

#hive
ETL - 数据抽取的应用

所谓数据抽取,就是从源数据系统抽取目标数据系统需要的数据,拿到数据数据以后再根据业务需求去对数据进项处理。之前我们介绍了数据的全量抽取、增量抽取的概念。今天我们来讲讲全量抽取与增量抽取的应用。全量抽取应用较为广泛,因为我们在做业务处理分析过程中往往是需要对以前的历史数据结合分析的。但是全量抽取也不意味着就是把数据库里的所有历史数据都抽取过来,这样的方式太过于浪费资源。增量抽取也会分多种方式,具..

    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择