logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据:Hive简介及核心概念

Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。特点:可以用 command-line shell 和 thrift/jdbc 两种方式来操作数据:在 Hive 中,表名、表结构、字段名、字段类型、表的分隔符等统一被称为元数据。所有的元

文章图片
#hive#大数据#数据仓库
项目:金融行业反欺诈模型

当今以互联网、移动终端等为代表的技术力量正深刻地影响着金融支付市场,信息化、网络化、无线终端等技术的应用,使金融机构特别是银行业的经营发生了天翻地覆的变化,传统的银行柜台和网点业务,正渐渐被电子化交易所替代,电子银行以其便利性和增值服务各方面的优势,已经成为银行业保持活力和竞争力的主要发展动力。围绕电子渠道信息泄露、资金被盗、诈骗等威胁与日俱增,欺诈信息、木马病毒、仿制克隆卡等欺诈手段层出不穷,让

文章图片
#金融
大数据:数据策略之CAP理论和BASE理论

在分布式环境中,一致性是指数据在多个节点之间能够保持一致的特性。如果在某个节点上执行变更操作后,用户可以立即从其他任意节点上读取到变更后的数据,那么就认为这样的系统具备强一致性。可以性是指系统提供的服务必须一直处于可用状态,对于用户的每一个操作请求总是能够在有限的时间内返回结果。它主要强调以下两点:分区容错性指定是分布式系统在遇到网络分区时,仍需要能够对外提供一致性和可用性的服务,除非是整个网络环

文章图片
#大数据#java#分布式
大数据:Flink项目概述

Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere 。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink 的母公司 Data Artisans,并宣布开源内部的 Blink,Blink 是阿里巴巴基于 Flink 优化后的版本,

文章图片
#大数据#flink#spark
框架研究:常见四种自动化测试框架

作为开发测试,熟悉并掌握一些测试框架是很有必要的,知道孰优孰劣,才能在开始编写框架的时候打好基础。目前对自动化测试架构做了如下四种分类:1.数据驱动测试框架(The Data-Driven Testing Framework)说明:仅仅是将测试数据从测试脚本中分离出来,开始了非混沌状态的第一步,这也是所有测试架构中最简单的一种优点:至少测试数据可以单独维护了缺点:任何被测试程序的变...

投资:波动率

不要盲从年化波动率指标。目前金融理论中主要用投资标的的波动性(比如年化波动率)来衡量其风险,这是有偏颇的。波动是一种重要风险,甚至是主要的风险,但绝对不是全部风险。一、定义Wind波动率【释义】将指定区间按照设定的周期分割为若干个样本区间,然后计算指定周期的平均收益率标准差。例如:指定周期=月,则计算结果为为月收益率的标准差。【算法】波动率={∑[(Ri-∑Ri/N)2]/(N-1)}...

数据挖掘:贝叶斯(Bayes)公式

大自然的规律有很多,在人们没发现之前都认为是上帝在操作,当我们发现其真正规律之后,我们往往惊讶于这样的发现,贝叶斯公式(Bayes)就是世界通用型规律。参考文献1.全概率公式、贝叶斯公式...

数据挖掘:描述性统计分析

数据分析的基础是统计学,统计学又分描述性统计和推断性统计,其中描述性统计又是统计学的基础,也是推断性统计的前导。其百度百科定义是这样的:描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。一、集中趋势分析平均数:平均数是总和除以总量。中数:中位数是数值大小位于中...

工具:Tableau使用指南

随着大数据时代的发展,数据的价值比以前越来越发挥更重要的作用,商业智能分析也越来越成熟,相应的软件也越来越丰富多样,前面我们讲过帆软FineReport使用指南,接下来将介绍另外一款商业智能分析软件叫Tableau,本着初学者的心态手把手的去学习这款软件。首先读者朋友可以去Tableau的官网下载Tableau Desktop试用版,试用版的使用时间14天。一、准备软件版本...

数据挖掘:邻近算法(KNN)

邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近

    共 16 条
  • 1
  • 2
  • 请选择