logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用MapReduce做数据清洗(ETL)

“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。实例:

#etl#mapreduce#数据仓库
影响力最大化——CELF算法的简介与python实现

CELF算法是Leskovecl等人利用IC模型的子模特性对爬山贪心算法进一步改进得到的优化算法。子模函数的定义为:任意函数f(·)将有限集合映射为非负实数集并且满足收益递减特性即为子模函数。设集合s ∈T,任意元素v添加到集合S中获得的边际效益大于等于添加到集合T中所获得的边际效益。Kempe已经对独立级联模型和线性阈值模型的影响期望值函数加以证明,得出其满足子模特性。由子模特性,把一个节点v添

#算法#python#开发语言
影响力最大化——最常用的模型IC和LT模型以及python实现

一、IC模型(独立级联模型)红色为处于激活态的种子节点,每条边都有一个传播概率p,激活的节点会以p的概率去激活邻居节点,一个节点有且只有一次机会去激活另一个节点,如果失败,则不再去尝试激活这个节点。def preprocess(G):p = 0directedGraph = nx.DiGraph()for u in G.nodes():for v in G.neighbors(u):if (v !

#python#算法
影响力最大化算法——degreediscount以及python实现代码

一、简介degreediscount算法即度折扣算法,是一个基于节点度的启发式算法度折扣算法的基本思想是:假设节点j是节点i的邻居,如果j已被选为种子节点,那么在基于度中心性指标考虑节点i是否作为种子节点时,应该对连边(i,j)打折扣,因为i对j不能产生额外的影响。假设所有边的激活概率都相同,均为β。当节点i的邻居中有si个激活种子时,被激活的概率为1-(1-β)的si的次方,此时i节点能被邻居节

#算法#python#开发语言
影响力最大化概述——《社会网络节点影响力分析研究》内容简述

一、社会网络节点影响力的定义影响力可以定性分析也可以定量分析,影响力具有不同的作用范围。到目前为止,影响力并没有统一 的形式化定义和标准的计算方法。社会网络的出现为定义和研究节点影响力提供了定量基础,定量度量节点影响力需要构建一个可测量的指标。个体与个体之间通过各种关系连接形成社会网络拓扑结构影响力可以表达为一个个体的特性,也可以表达为个体之间的作用形式,所以影响力具有全局和局部范围。 社会学家定

#大数据
《generative adversarial nets》的解读以及实现

一 论文解读1.1论文基本信息《Generative Adversarial Nets》是Ian J.Goodfellow发表在NIPS 2014上的一篇论文,也是GANs的开山之作。NIPS(NeurIPS),全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科

#人工智能#机器学习#深度学习
大数据入门之maven基础知识介绍

大数据入门之maven基础知识介绍一、为什么要使用Maven1.为了减少创建工程就要导入一个jar包到lib目录下,使用了maven后,每个jar包会保存到本地仓库内,新的工程需要jar包的话只需要维护一个文本形式jar包的引用,这个引用叫做“坐标”。2.寻找jar包的过程太过艰辛,在工程中只需要以坐标方式依赖一个jar包,maven会自动去中央仓库中去寻找这个jar包。3.jar包与jar包之间

#大数据
到底了