程哥哥吖个人主页

@weixin_42200347

程哥哥吖

2022-09-29 18:27:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

分布式图计算系统与算法简单文献综述

引言图作为计算机领域一个很重要的数据结构，很多软件算法都是基于图来实现的，随着人们对算力要求的越来越高，硬件算力也已到达瓶颈，单机的图计算系统已经不能满足巨大的计算需求，因此，分布式图计算系统的研究也变得越来越火热。本文简单介绍了当前主流分布式图计算系统和算法的发展历程，并对比了不同分布式图计算框架的优缺点及差异，文章最后在分布式图计算系统与算法领域作了简要总结。......

#分布式 #hadoop #mapreduce +1

天猫复购预测训练赛技术报告

逻辑回归[1](Logistic Regression，LR)是一种广义线性回归（Generalized Linear Model）,在机器学习中是最常见的一种用于二分类的算法模型。决策树[2](Decision Tree，DT)是一种基本的分类与回归方法，本文主要讨论分类决策树，决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。随机森林[3]

#数据挖掘 #随机森林

大数据系统与大规模数据分析学习笔记（相似度计算）

大数据系统与大规模数据分析学习笔记（相似度计算）寻找相似项过程：1.Jaccard相似度定义 Jaccard 相似度计算公式：J(A,B)=(A交B)/(A并B)2. shingling将文档用短字符集合来表示2.1 k-shinglecharacter 级别：包括空格word 级别：不包括空格和逗号句号符2.2 k 值大小的选择如果文档由邮件组成，那么选择 k = 5 比较合适。如果文档比较

#数据分析 #学习 #数据挖掘

国科大大数据分析课程第二次作业(NER和LSI)

一、LSI算法已知词项文档矩阵 C=利用LSI算法，求词项与文档各自的3维表示。解：将词项文本矩阵进行奇异值分解进行潜在语义分析：得到话题空间，以及文本在话题空间的表示代码：import numpy as npfrom numpy import linalg as lafrom numpy import matif __name__=="__main__":X = mat([[1, 0, 1,

#数据分析 #lstm #深度学习 +1

大数据分析课程第三次作业(最大密度子图)

大数据分析课程第三次作业(最大密度子图)参考：《胡伯涛: 最小割模型在信息学竞赛中的应用》一、作业题：二、答案：测试数据集：bio-CE-GT.txt，数据集来源：https://networkrepository.com/bio-CE-GT.php运行结果如下：可运行代码如下(点击可打开)：#include<iostream>#include<cstring>#incl

#大数据 #数据分析 #c++

国科大大数据系统与大规模数据分析课程第一次作业(hash distinct)

大数据系统与大规模数据分析第一次作业一、作业内容从HDFS中读出数据对读出的数据进行hash去重将处理好的数据存入Hbase二、作业代码import java.util.*;import java.util.regex.Matcher;import java.util.regex.Pattern;import java.io.*;import java.net.URI;import java.ne

#java #hadoop #hbase +1

JVM快速入门学习笔记（三）

栈是运行时的单位，Java 虚拟机栈，线程私有，生命周期和线程一致。描述的是 Java 方法执行的内存模型：每个方法在执行时都会创建一个栈帧(Stack Frame)用于存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法从调用直至执行结束，就对应着一个栈帧从虚拟机栈中入栈到出栈的过程。

#jvm #学习 #java

到底了