logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【HBase】HBase笔记:HBase的Region机制

HBase 的机制里包含了许多优秀的算法,如 Region 定位、Region 分配、Region Server的上线和下线、Master 的上线和下线。在谈到这些之前,先把 HBase 的基本架构里的一些概念列在这里。一、HBase组成1.Client:利用 RPC 机制与 HMaster 和HRegionServer通信;2.Zookeeper: 协调,避免 HMaster 单点问

#hbase
做一名开源社区的扫地僧——从Bug report到Google Summer of Code(GSoC):从200个bug到5000美金

今年的软件自由日(SFD),我在广州Linux用户组的线下活动上做了一个分享,主题叫做《做一名开源社区的扫地僧(上)》。我把演讲的内容重新整理扩充, 写出了文字版, 希望可以跟更多朋友分享。金庸笔下有一个传奇人物,人称扫地僧,身世隐秘,武功绝顶。小说中的扫地僧一出现就是个高手,没人知道高手怎么炼成的。这种"扫地僧",实在可望不可及。 然而,还有另一种扫地僧,人人都可以效仿,人人都可以做到,

#bug
【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)

scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个:1.官方教程文档、scrapy的github wiki;2.一个很好的scrapy中文文档:http://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html;        剩下的就是网上其他的一些demo。 一、scrapy框架结构        还是先上个图吧,这

#scrapy
搭建一个免费的,无限流量的Blog----github Pages和Jekyll入门

喜欢写Blog的人,会经历三个阶段。  第一阶段,刚接触Blog,觉得很新鲜,试着选择一个免费空间来写。  第二阶段,发现免费空间限制太多,就自己购买域名和空间,搭建独立博客。  第三阶段,觉得独立博客的管理太麻烦,最好在保留控制权的前提下,让别人来管,自己只负责写文章。大多数Blog作者,都停留在第一和第二阶段,因为第三阶段不太容易到达:你很难找到俯首听命、愿意为你管

#github
【NLP】中文分词:原理及分词算法

一、中文分词        词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。        Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 中文分词

#自然语言处理#中文分词#机器学习
到底了