《Python文本分析》简单笔记,入门需了解
自然语言处理:机器翻译语音识别系统问答系统语境识别与消解文本摘要:抽取和抽象概括文本分类文本分析(文本挖掘):文本分类文本聚类文本摘要情感分析实体抽取与识别相似性分析与关系建模文本分析应用:垃圾邮箱检测新闻分类社交媒体分析与监视生物医疗安全智能市场营销和客户关系管理情感分析广告投放聊天机器人虚拟助理主流文本预处理技术:切片 tokening标注 tagging分块 chunk...
自然语言处理:
机器翻译
语音识别系统
问答系统
语境识别与消解
文本摘要:抽取和抽象概括
文本分类
文本分析(文本挖掘):
文本分类
文本聚类
文本摘要
情感分析
实体抽取与识别
相似性分析与关系建模
文本分析应用:
垃圾邮箱检测
新闻分类
社交媒体分析与监视
生物医疗
安全智能
市场营销和客户关系管理
情感分析
广告投放
聊天机器人
虚拟助理
主流文本预处理技术:
切片 tokening
标注 tagging
分块 chunking
词干提取 stemming
词型还原 lemmatization
nltk操作:
文本切分
句子切分
词语切分
文本规范化
文本清洗 HTML编辑等等 beautifulSoup
文本切片
删除特殊字符
扩展缩略词
大小写转换
删除停用词,例如the a me
词语校正
校正重复字符
校正拼写错误
词干提取 例如jumps jump 词干是jump
词形还原
文本分类两种划分方法:
基于内容的分类
基于请求的分类
文本分类:
准备训练和测试数据
文本规范化处理
特征提取
模型训练
模型预测和评估
模型部署
--------
- 文本规范化处理:
扩展缩略词
通过词形还原实现文本处理规范化
去除特殊字符与符号
去除停用词
- 特征提取:
怎么表示:二维向量,文本列数表示整个数据中有多少个词,行数表示多少个文档
一些特征提取技术:
-词袋模:依赖单词的绝对频率
-TF-IDF模型:词频-逆文档频率,词频*逆文档词频
-高级词向量模型::主流的谷歌word2vec
- 模型训练预测和评估
主流的分类器等等~~
主要的评估标准有准确率,精确率,召回率,F1 Score
文本相似度
- 词项相似性度分析:
汉明距离
曼哈顿距离
欧几里得距离
莱文斯坦编辑距离
余弦距离和相似度
- 文档相似度分析:
余弦相似度
海灵格-巴塔恰亚距离
Okapi BM25排名
文本聚类
层次聚类模型
基于质心的聚类模型
基于分布的聚类模型
基于密度的聚类模型
k-means聚类
近邻传播聚类
沃德凝聚层次聚类
语义与情感分析
语义分析
探索WordNet
--理解同义词集
--分析词汇的语义关系
--------蕴含关系
--------同音词和同形异义词
--------同义词和反义词
--------上位词和下位词
--------整体词和部分词
--------语义关系与相似度
语义消歧
命名实体识别(命名识别器)
分析语义表征
--命题逻辑
--一阶逻辑
情感分析:基于事实类(客观)和基于观念类(主观)
更多推荐
所有评论(0)