logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【转】知识图谱(KG)存储、可视化、公开数据集、图计算、图编程工具分享

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、

#知识图谱
explode和 lateral view explode函数解析非结构化的map数据类型

工作中遇到使用了Map结构来存储的数据。比如下面所示的这种:(数据表1)col1col2{24235:r2,98766:r3}{65432:r1,35689:r2,24577:r3}{13245:r3}{34567:r1,87654:r3}需求是解析出所有的key,即24235,98766,65432,35689,.... 并统计这些key分别出现了多少次、每个key对应的value值(即r2,

uplift model增益模型相关术语概念名词汇总

uplift model增益模型相关术语名词汇总

#机器学习
使用DTW算法简单实现曲线的相似度计算

如果度量算法符合我们的先验经验,比如我们人工标示最相似的两条曲线,算法给出的距离度量也是最小的,我们判断最不相似的,算法给出的距离度量也是最大的。有了判断两条曲线距离度量的算法,且算法结果具有一定的排序性,那么就可以计算出任两条曲线的距离度量值,根据此值就可以给出与指定股票曲线最相似的TopN股票曲线。dtw算法dtw(x,y)=2 < dtw(x,z)=18 判断曲线y与曲线x的距离小于曲线z与

文章图片
【转】数据挖掘,你不应该错过的六本书

2018-06-15|作者:张富峥、王英子不久前我们推出的《推荐算法不够精准?让知识图谱来解决》以及《如何将知识图谱特征学习应用到推荐系统?》系列文章受到了同学们的广泛欢迎。大家对推荐系统以及与之相关的、底层的数据挖掘技术非常关注。为了帮助小伙伴们更好地学习相关内容,我们邀请微软亚洲研究院社会计算组研究员张富峥和实习生王英子为大家推荐了六本数据挖掘领域的经典书籍,既涵盖了数据挖掘的概念、算法等基础

#数据挖掘#算法
【推荐】样本/数据一致性检验的方法

写在前面:一致性检验的目的在于比较不同方法得到的结果是否具有一致性。比如采集的样本和真实样本是否一致,比如两种抽样方法得到的两个样本集是否一致,比如两种不同超参数设置下的聚类方法得到的聚类结果是否一致,等等检验一致性,你用哪种方法? - 知乎检验一致性的方法有很多比如:Kappa检验、ICC组内相关系数、Kendall W协调系数等。每种方法的功能侧重,数据要求都略有不同:Kappa系数检验,适用

#聚类
Tensorflow2 model.compile()理解

在TensorFLow2中进行神经网络模型的训练主要包括以下几个主要的步骤:导入相关模块import准备数据,拆分训练集train、测试集test搭建神经网络模型model (两种方法:Sequential或自定义模型class)模型编译model.compile()模型训练model.fit()查看模型model.summary()模型评价模型预测model.predict()model.com

lateral view json_tuple函数解析非结构化的json数据类型

一、lateral VIEW json_tuple函数使用工作中遇到一个数据表的存储形式,如下:idcol1col21234{"part1" : "61", "total" : "623", "part2" : "560", "part3" : "1", "part4" : "1"}{"to_part2" : "0", "to_part4" : "0", "to_up" : "0", "to_pa

#sql
7、spark的生产应用提交脚本spark-submit

一、通过查询命令spark-submit --help 来查看提交任务时有哪些选项可以用。Options:说明备注--master MASTER_URLspark://host:port, mesos://host:port, yarn,k8s://https://host:port, or local (Default: local[*]).常用local本地模式、yarn集群模式 --depl

    共 29 条
  • 1
  • 2
  • 3
  • 请选择