NLP之统计语言模型—N元模型（N-Gram）

总的来说，语言模型可以分为两种，分别是规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位的内在统计规律，广泛应用于机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。N-Gram假设：第n个词的出现只与前面的n-1个词相关，而与其他任何词都不相关，整句的概率是各个词出现概率的乘积。这种可以结合上下文方法其实就是马尔可夫假设，结合上下文信息，预测将要出现的那...

NLP小姐姐

1512人浏览 · 2020-03-21 13:48:52

NLP小姐姐 · 2020-03-21 13:48:52 发布

总的来说，语言模型可以分为两种，分别是规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位的内在统计规律，广泛应用于机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。

N-Gram假设：第n个词的出现只与前面的n-1个词相关，而与其他任何词都不相关，整句的概率是各个词出现概率的乘积。这种可以结合上下文方法其实就是马尔可夫假设，结合上下文信息，预测将要出现的那个词，在某种程度上给出一个合理的预测。所以N-gram也可称为（N-1）阶马尔可夫模型。
在这里插入图片描述
每个·w对应于语料中不重复的词，i为需要预测的句子长度，n就是选择的N元模型的N的大小。理论上来说，N的数量越大，得到的估计概率越准确，模型的效果就会越好。但N增加，对应的参数也会增加。