
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
总结一下在生产环境部署Hadoop+Spark+HBase+Hue等产品遇到的问题、提高效率的方法和相关的配置。集群规划假设现在生产环境的信息如下:服务器数量:6操作系统:Centos7Master节点数:2Zookeeper节点数:3Slave节点数:4划分各个机器的角色如下:主机名角色运行进程hadoop1Master
前言在 Flink最佳实践(一)流式计算系统概述 中,我们详细讨论了流式计算系统中 时域、窗口、时间推理与正确性工具 等概念。本文将以这些概念为基础,逐一介绍 Flink 的 发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API 等内容,让开发人员对 Flink 有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1 数据处理架构在流处理器出现之前,数据处...
非监督学习技术在决策树算法预测森林植被中我们可以体会到属于监督学习的分类和回归技术的强大,可以预测“即将发生”的事情使用监督学习技术有一个很关键的前提:需要大量的数据对模型进行训练,模型能够从已知的数据中学习规律进而预测未知的数据然而在某些场景下,并不是都能提供监督学习所需要的样本数据来训练模型,有可能只能给出部分正确的输出,甚至一个输出都没有这种情况下,监督学习的技术就不能够使用了此时
概要:随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域。个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣,决定着是否能够推荐用户真正感兴趣的信息,而面对用户的不断提升的需求,推荐系统不仅需要正确的推荐,还要实时地根据用户的行为进行分析并推荐最新的 结果。实时推荐系统的任务就是为每个用户,不断地、精准地推送个性化的服务,甚至到达
What is RDD?A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有
当下使用协同过滤算法计算的推荐系统到处可见,例如淘宝,京东,当当等电商网站,当你在网站上购买或者浏览了某些商品从而被其收集了相对应的数据,下次你在次浏览该网站的时候就会发现,他会根据你之前的购买/浏览记录为你推荐一些商品,而这些商品的推荐往往是十分精准的,因为它是建立在大数据的基础之上计算出来的。基于协同过滤的推荐是推荐算法中的一种思想,协同过滤的思想是这样的:一般是在海量的用户中发掘出一小部分和
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大所以这里首先介绍在单机内存中运行的FPGrowth算法还是使用apriori算法的购物车数据作为例子,如下图所示:
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+...+其他物品=多少¥而这些套餐就很有可能符合你的胃口,原本只想买一本书的你可能会因为这个推荐而买了整个套餐这与userCF和itemCF不同的是,前两种是推荐类似的,或者你可能喜欢的
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要







