
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我来扯扯分布式数据库系统DDBS的设计注明:本文只是在完成一个高级数据库作业的文章,不能算是正儿八经登堂入室的paper,所以,不负责任哈,带坏小朋友不要找我哦 ^_~转载注明出处:Scofield's blog[ http://blog.csdn.net/scotfield_msn ]一、 引入目前本人所确定的研究方向是自然语言处理、文本挖掘,实际
此语料库清单包括了中文与英文,大家且看且珍惜……国内可用免费语料库(凡没有标注不可用的链接均可用)(一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注
世界各国的手机号码 日本:11位, 以080或090开头: 080-****-**** ,090-****-**** 美国:和普通电话号码一样, 如 626(区号)321090* 悉尼:十位数: 04** *** *** 韩国:11位,010,011,016,017,018或019开头,如101********* 加拿大:固定电话一样,
几个名词解释:大数据、Hadoop、云计算、机器学习、NLP、数据挖掘大数据:大数据是相对于传统"小数据"的,传统由于数据处理的成本很高,所以只能处理部分信息系统中产生的非常规范的数据,而对于文本、图片等数据不能处理,而且数据量非常大的话,只能通过抽样的方式来降低数据量。大数据的所谓4个特征是,Volume(数据量大,海量数据),Variety(数据类型多,文本/音频/
概率图模型学习笔记:HMM、MEMM、CRF原创博客,转载请注明出处。From Scofield. RxNLP一、Preface二、Prerequisite 2.1 概率图 2.1.1 概览 2.1.2 有向图 vs. 无向图 2.1.3 马尔科夫假设&马尔科夫性 2.2 判别式模型 vs.
机器学习之数据集划分: 训练集 验证集 测试集Q:将数据集划分为测试数据集和训练数据集的常用套路是什么呢?A:three ways shown as follow:1.像sklearn一样,提供一个将数据集切分成训练集和测试集的函数:默认是把数据集的75%作为训练集,把数据集的25%作为测试集。2.交叉验证(一般取十折交叉验证:10-fold
在TensorFlow (RNN)深度学习下 BiLSTM+CRF 跑 sequence labeling 双向LSTM+CRF跑序列标注问题去年底样子一直在做NLP相关task,是个关于序列标注问题。这 sequence labeling属于NLP的经典问题了,开始尝试用HMM,哦不,用CRF做baseline,by the way, 用的CRF++。关于CRF的理论就不再啰
NLP 主题抽取Topic LDA代码实践 gensim包 代码 分享一个代码实践:用gensim包的LDA模型实践NLP的一个典型任务,主题抽取。 顺带提一点,对于NLP任务,最好的方式就是先在代码上跑通起来,然后再进行理论深究,最后自己实现DIY学习模型算法框架。 顺带再提一点,跑通NLP或者ML任务,推荐在Python下用
深度学习DeepLearning papers初学者入门推荐学习论文清单(供下载)—————————————每一位DL初学者都想找到一条卓有成效的学习路线,我推荐的是沿着历史发展路线将前辈们的经典papers一一读一遍。所以有的兄弟已经做好了工作了:这里有位仁兄的(Deep Learning Papers Reading Roadmap就归纳了还比较齐全的paper清单。里面提供了下载器,但限于T
DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)词向量、word embedding、分布式表示、word2vec、glove 术语解释!自然语言处理表示学习词向量、word2vec无门槛理解!其实顺便分享下,在我个人的方法论思维中,一个带有完整上下文以及结构构建良好的知识框架,在某种程度上,比一些细枝末







