《Python文本分析》简单笔记，入门需了解

自然语言处理：机器翻译语音识别系统问答系统语境识别与消解文本摘要：抽取和抽象概括文本分类文本分析（文本挖掘）：文本分类文本聚类文本摘要情感分析实体抽取与识别相似性分析与关系建模文本分析应用：垃圾邮箱检测新闻分类社交媒体分析与监视生物医疗安全智能市场营销和客户关系管理情感分析广告投放聊天机器人虚拟助理主流文本预处理技术：切片 tokening标注 tagging分块 chunk...

yangsss_

294人浏览 · 2020-12-07 19:18:10

yangsss_ · 2020-12-07 19:18:10 发布

自然语言处理：

机器翻译

语音识别系统

问答系统

语境识别与消解

文本摘要：抽取和抽象概括

文本分类

文本分析（文本挖掘）：

文本分类

文本聚类

文本摘要

情感分析

实体抽取与识别

相似性分析与关系建模

文本分析应用：

垃圾邮箱检测

新闻分类

社交媒体分析与监视

生物医疗

安全智能

市场营销和客户关系管理

情感分析

广告投放

聊天机器人

虚拟助理

主流文本预处理技术：

切片 tokening

标注 tagging

分块 chunking

词干提取 stemming

词型还原 lemmatization

nltk操作：

文本切分

句子切分

词语切分

文本规范化

文本清洗 HTML编辑等等 beautifulSoup

文本切片

删除特殊字符

扩展缩略词

大小写转换

删除停用词，例如the a me

词语校正

校正重复字符

校正拼写错误

词干提取例如jumps jump 词干是jump

词形还原

文本分类两种划分方法：

基于内容的分类

基于请求的分类

文本分类：

准备训练和测试数据

文本规范化处理

特征提取

模型训练

模型预测和评估

模型部署

--------

文本规范化处理：

扩展缩略词

通过词形还原实现文本处理规范化

去除特殊字符与符号

去除停用词

特征提取：

怎么表示：二维向量，文本列数表示整个数据中有多少个词，行数表示多少个文档

一些特征提取技术：

-词袋模：依赖单词的绝对频率

-TF-IDF模型：词频-逆文档频率，词频*逆文档词频

-高级词向量模型：：主流的谷歌word2vec

模型训练预测和评估

主流的分类器等等~~

主要的评估标准有准确率，精确率，召回率，F1 Score

文本相似度

词项相似性度分析：

汉明距离

曼哈顿距离

欧几里得距离

莱文斯坦编辑距离

余弦距离和相似度

文档相似度分析：

余弦相似度

海灵格-巴塔恰亚距离

Okapi BM25排名

文本聚类

层次聚类模型

基于质心的聚类模型

基于分布的聚类模型

基于密度的聚类模型

k-means聚类

近邻传播聚类

沃德凝聚层次聚类

语义与情感分析

语义分析

探索WordNet

--理解同义词集

--分析词汇的语义关系

--------蕴含关系

--------同音词和同形异义词

--------同义词和反义词

--------上位词和下位词

--------整体词和部分词

--------语义关系与相似度

语义消歧

命名实体识别（命名识别器）

分析语义表征

--命题逻辑

--一阶逻辑

情感分析：基于事实类（客观）和基于观念类（主观）

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

用 OpenAI Assistants 做大模型应用开发

CSDN学习社区

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

1 小时解读鸿蒙 10 大热点问题

CSDN学习社区

所有评论(0)

查看更多评论

yangsss_

@qq_40311018

已为社区贡献2条内容