一:词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。

先来看一个用jieba实现的简单词性标注的例子

import jieba.posseg as pseg
words = pseg.cut("是一只小喵")
for word, flag in words:
    print('%s %s' % (word, flag))
我 r

是 v

一只 m

小喵 n

如上就是里利用jieba中的posseq来完成的最最简单的词性标注

二:词性标词性标注中有一个难点,就是在我们碰到 一词多性的时候,比如工作、表演等等很多,它们既可以做动词又可以做名词,又叫做兼类词,这种词在常用词中出现的概率很大。针对这种情况我们通常利用概率的方法来解决,比如HMM是一种常用的方法来处理这种词语的标注,具体的就是利用HMM的图模型我们有一个发射的概率,即从一个词性到每个单词的概率,还有词性到词性之间的转移概率,我们来求的是p(t|w),它代表的就是这个词属于某个词性的概率,具体的公式计算又利用的了贝叶斯计算概率的方法。

三:还有基于转换的思想和基于分类的思想的方法进行词性标注,这里我就不占开说了。


Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐