NLP中的词性标注方法
一:词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。先来看一个用jieba实现的简单词性标注的例子import jieba.posseg as psegwords = pseg.cut("我是一只小喵")for word, flag in words:print('%s %s' % (word, flag))我 r是 v一只 m小喵 n如上就是里利用jieba中的p
·
一:词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。
先来看一个用jieba实现的简单词性标注的例子
import jieba.posseg as pseg words = pseg.cut("我是一只小喵") for word, flag in words: print('%s %s' % (word, flag))我 r
是 v
一只 m
小喵 n
如上就是里利用jieba中的posseq来完成的最最简单的词性标注
二:词性标词性标注中有一个难点,就是在我们碰到 一词多性的时候,比如工作、表演等等很多,它们既可以做动词又可以做名词,又叫做兼类词,这种词在常用词中出现的概率很大。针对这种情况我们通常利用概率的方法来解决,比如HMM是一种常用的方法来处理这种词语的标注,具体的就是利用HMM的图模型我们有一个发射的概率,即从一个词性到每个单词的概率,还有词性到词性之间的转移概率,我们来求的是p(t|w),它代表的就是这个词属于某个词性的概率,具体的公式计算又利用的了贝叶斯计算概率的方法。
三:还有基于转换的思想和基于分类的思想的方法进行词性标注,这里我就不占开说了。
更多推荐
已为社区贡献2条内容
所有评论(0)