DataScientist 个人主页

@DataScientist

DataScientist

2024-10-18 17:38:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Spark与Hadoop计算模型比较分析

最近很多人都在讨论Spark这个貌似通用的分布式计算模型，国内很多机器学习相关工作者都在研究和使用它。Spark是一个通用的并行计算框架，由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢？1，Spark的中间数据放到内存中，对于迭代运算效率比较高。Spark aims to extend MapReduce for iterativealgor

#hadoop #mapreduce

用统计学的算法证明数据挖掘并非什么都能挖的出来

这是一个在《Mining of MassiveDatasets》中提到的一个问题。2002年布什政府为了反恐的需求，提出了Total Information Awareness项目，据说后来在国会未通过。TIA项目的主要目的就是通过对美国国民的日常生活数据进行监控和分析，找出恐怖分子。我们这里讨论的是这个项目背后的技术。很多人认为给我足够的数据，我就能挖掘出知识，而没有考虑这个挖掘背后的统计学

#数据挖掘 #算法 #新浪微博 +1

SEDA高性能互联网服务器架构模型（1）

最近研究云存储相关的系统，Oceanstore和Cassandra都用到了SEDA编程模型。（注：关于Cassandra的代码结构和SEDA模型的使用情况可以参考这篇文章http://prettyprint.me/2010/05/02/understanding-cassandra-code-base/，里面还有一张时间序列图来说明程序的流程。） Staged Event Driven

#服务器

到底了