自然语言处理:

机器翻译

语音识别系统

问答系统

语境识别与消解

文本摘要:抽取和抽象概括

文本分类

 

文本分析(文本挖掘):

文本分类

文本聚类

文本摘要

情感分析

实体抽取与识别

相似性分析与关系建模

 

文本分析应用:

垃圾邮箱检测

新闻分类

社交媒体分析与监视

生物医疗

安全智能

市场营销和客户关系管理

情感分析

广告投放

聊天机器人

虚拟助理

 

主流文本预处理技术:

切片 tokening

标注 tagging

分块 chunking

词干提取 stemming

词型还原 lemmatization

 

nltk操作:

文本切分

句子切分

词语切分

文本规范化

文本清洗 HTML编辑等等 beautifulSoup

文本切片

删除特殊字符

扩展缩略词

大小写转换

删除停用词,例如the a me

词语校正

校正重复字符

校正拼写错误

词干提取 例如jumps jump 词干是jump

词形还原

 

文本分类两种划分方法:

基于内容的分类

基于请求的分类

 

文本分类:

准备训练和测试数据

文本规范化处理

特征提取

模型训练

模型预测和评估

模型部署

--------

  • 文本规范化处理:

扩展缩略词

通过词形还原实现文本处理规范化

去除特殊字符与符号

去除停用词

  • 特征提取:

怎么表示:二维向量,文本列数表示整个数据中有多少个词,行数表示多少个文档

一些特征提取技术:

-词袋模:依赖单词的绝对频率

-TF-IDF模型:词频-逆文档频率,词频*逆文档词频

-高级词向量模型::主流的谷歌word2vec

  • 模型训练预测和评估

主流的分类器等等~~

主要的评估标准有准确率,精确率,召回率,F1 Score

 

文本相似度

  • 词项相似性度分析:

汉明距离

曼哈顿距离

欧几里得距离

莱文斯坦编辑距离

余弦距离和相似度

  • 文档相似度分析:

余弦相似度

海灵格-巴塔恰亚距离

Okapi BM25排名

 

文本聚类

层次聚类模型

基于质心的聚类模型

基于分布的聚类模型

基于密度的聚类模型

k-means聚类

近邻传播聚类

沃德凝聚层次聚类

 

语义与情感分析

语义分析

探索WordNet

--理解同义词集

--分析词汇的语义关系

--------蕴含关系

--------同音词和同形异义词

--------同义词和反义词

--------上位词和下位词

--------整体词和部分词

--------语义关系与相似度

语义消歧

命名实体识别(命名识别器)

分析语义表征

--命题逻辑

--一阶逻辑

 

情感分析:基于事实类(客观)和基于观念类(主观)

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐