简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
使用 HanLP - 汉语言处理包 来处理,他能处理很多事情,如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换、拼音转换、根据输入智能推荐、自定义分词器使用很简单,只要引入hanlp.jar包,便可处理(新版本的hanlp安装包可以去github下载安装),下面是某位大神的操作截图:...
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.如何向pyhanlp添加自定义的词典?以python 2.7.9为例:1.安装pyhanlp:pip install pyhanlp2.在字典路径下添加自定义的词典:CustomDictio...
简单有效的多标准中文分词详解本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。(相关内容已经集成到大快的hanlp中,代码和语料可访问github上的hanlp开源项目主页查询)...
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。HanLP中文分词solr插件支持Solr5.x,兼容Lucene5.x。 快速上手1、将hanlp-portable.jar和hanlp-solr-pl...
文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0测试思路使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。语料库选取1998年01月的人民日报语料库。199801人民日报语料该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标注。测试数据选择SIGHan2005提供的开放测试集。SIG...
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。Maven<dependency><groupId>com.hankcs.nlp</groupId><artifactId>hanlp-lucene-plugin</artifactId>...
一、中文分词工具(1)Jieba(2)snowNLP分词工具(3)thulac分词工具(4)pynlpir 分词工具(5)StanfordCoreNLP分词工具1.from stanfordcorenlp import StanfordCoreNLP2.withStanfordCoreNLP(r'E:\Users\Eternal Su...
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。人类的语言太多,计算机技术起源于外国,所以一直以来自然语言处理基本都是围
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决
昨天和三个学计算机专业的学生聊天时聊到了大数据开发方面的话题,他们三个人中,有两个已经进入企业开始工作,另外一个还是大二学生,但已经开设了自己的工作室。他们都是从事程序开发方面工作的。大数据开发自然都有关注到,只是目前的大数据技能水平只能说是“小菜鸟”吧,连入门还谈不上。当然了,大数据开发方面我也只能算是个“小学生”,也是跟在师傅后面学。自然hadoop、区块链火了以后,发现很多从事程序开发的“码