NLP中的词性标注方法

一：词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。先来看一个用jieba实现的简单词性标注的例子import jieba.posseg as psegwords = pseg.cut("我是一只小喵")for word, flag in words:print('%s %s' % (word, flag))我 r是 v一只 m小喵 n如上就是里利用jieba中的p

gentelyang

10353人浏览 · 2017-09-12 20:06:58

gentelyang · 2017-09-12 20:06:58 发布

一：词性标注就是依据句子的上下文给每个词确定一个最最合适的词性。

先来看一个用jieba实现的简单词性标注的例子

import jieba.posseg as pseg
words = pseg.cut("我是一只小喵")
for word, flag in words:
    print('%s %s' % (word, flag))

我 r

是 v

一只 m

小喵 n

如上就是里利用jieba中的posseq来完成的最最简单的词性标注

二：词性标词性标注中有一个难点，就是在我们碰到一词多性的时候，比如工作、表演等等很多，它们既可以做动词又可以做名词，又叫做兼类词，这种词在常用词中出现的概率很大。针对这种情况我们通常利用概率的方法来解决，比如HMM是一种常用的方法来处理这种词语的标注，具体的就是利用HMM的图模型我们有一个发射的概率，即从一个词性到每个单词的概率，还有词性到词性之间的转移概率，我们来求的是p(t|w),它代表的就是这个词属于某个词性的概率，具体的公式计算又利用的了贝叶斯计算概率的方法。

三：还有基于转换的思想和基于分类的思想的方法进行词性标注，这里我就不占开说了。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐