简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
转载请注明出处:http://blog.csdn.net/zbf8441372把一些好的,有用的博文搜集在这里,陆续更新,主题大都是涉及到分布式系统,文件和存储之类,还有云计算,包括一些强大的,热门的open-source,包括NoSQL生态系统,Hadoop家族,lucene全文搜索工具,一些Apache项目等等。另外一些比较好的站点和博客地址,可以拓展阅读。20. REST相关
上周看了O`Reilly的《OpenStack》,让人很失望,架构性的分析很少,大多是部署的内容,实用性也是有限,也怪不得没有人翻译它。OpenStack是一个开源的IaaS实现方案,是一套构建云的框架,有Nova这套比较成熟的虚拟机管理方案。趁着上周在上海的Openstack亚太技术大会,侃侃业界大小公司对公有
我们是全球领先的云数据库技术团队,这里有极具挑战性的岗位期待你的加盟: 阿里云-数据库技术组-分布式数据库研发工程师岗位描述:1.负责云数据库分布式计算引擎或者列存索引等核心模块的研发工作2.负责提升系统的易用性、稳定性,提升资源利用率和性能。岗位要求:1.在分布式计算/存储/数据库/OLAP等领域有3-5年的开发和优化经验者优先2.对开源的Hadoop/Spark/
一直受传统RDB的影响,对于数据库表的设计可能大多数开发者都形成了思维定势。在云计算和大数据背景下,RDBMS正在接近极限,KV存储将受到越来越多的关注。学习NoSQL,不求能革RDBMS的命,但希望在设计思路上能得到一些拓宽,很多场景里,SQL表的设计和计算语句其实蛮难受的。RDBMS天生不是分布式的,因其保持着ACID的特性发展至今,非常重视数据完整性,但在机器规模增长的情况下,ACID是不可
这是前段时间在看spark的python支持的时候,简单过了一下pyspark里的python代码,整理了一个大致流程。虽然几乎不会python,但基本上能看懂pyspark是怎么让不同虚拟机之间传输数据的、如何在python环境调用java类的、pyspark SDK的丰富程度取决于什么、需要做些什么流程和封装等。我看了下,应该只有Pyspark Internals这篇wiki里介绍了pyspa
转载请注明出处:http://blog.csdn.net/zbf8441372写在前面: Windows Azure是微软发展出来的一套云操作系统,用来提供云联机服务所需要的操作系统与基础存储与管理的平台。我关注Azure这个平台,主要是想了解他的架构,以及他的云计算存储技术。我觉得一个好的操作系统,就是一个好的架构。Windows Azure Platform现阶段提供
Slave模块三种Executor的设计,主要考虑的是各个Executor挂掉之后,怎样保证数据处理的不重复和不遗漏。我们依赖Zookeeper的可靠性,记录、更新、判断Bundle的状态,做到Input、Cache、Output各司其职,最到最小粒度的容错。Executor本身的失败和重启则由Mesos保障,Mesos作为资源管理系统,由Master监控Slave上各个Executor的执行状况
最近看了些Scala相关的内容,写了个简单的hash join。jion过程从数据源读取两个List[List[Any]](),我把所有的操作都放到List容器里进行将两份数据集,hash到自己写的简单的SimpleHashTable里,每次put进去的时候会返回一个Int值,用于记录两份数据占据的bucket number集合由于两份数据都是基于同一个hash方法进行hash的,join具体发生
背景我用Lucene3.6,为php语言搭建的平台提供一套搜索服务,但是lucene只是个提供索引操作的库,需要一个web-service来提供给java外的语言,使之可以通过http方式发送搜索请求并得到如json, xml格式的查询结果集数据。而Solr是一个二次包装了Lucene库的搜索服务容器,兼容lucene的api,可以在jetty或者Tomcat这样的容器里以web服务的方式启动
本文面向对Spark,Mesos和Zookeeper有一点了解的读者,介绍下Run Spark on Mesos with Zookeeper的方法和一些注意点。因为Spark和Mesos的相关文档里,关于结合Zookeeper之后应该怎么改写相应URL和参数这块讲得不太清楚。版本信息Zookeeper 3.4.5 stableSpark 0.8Mesos 0.13