python文本统计_Python文本挖掘: 词频统计，词云图

在中文的文本挖掘中，对海量文本进行准确分词是其中至关重要一步。当前的Python语言下存在多种开源文本分析包，其中jieba这个包能够提供相对高效的分词方案。结合jieba代码和一些相关资料，基本得知jieba是基于Trie树结构实现的高效词图扫描，生成句子中汉字所有可能成词情况的有向无环图(DAG)。结巴分词中自带了一个叫做dict.txt的词典，里面包含词，词条出现次数（基于人民日报等语料库

weixin_39562998

723人浏览 · 2020-11-29 22:37:32

weixin_39562998 · 2020-11-29 22:37:32 发布

在中文的文本挖掘中，对海量文本进行准确分词是其中至关重要一步。当前的Python语言下存在多种开源文本分析包，其中jieba这个包能够提供相对高效的分词方案。

结合jieba代码和一些相关资料，基本得知jieba是基于Trie树结构实现的高效词图扫描，生成句子中汉字所有可能成词情况的有向无环图(DAG)。结巴分词中自带了一个叫做dict.txt的词典，里面包含词，词条出现次数（基于人民日报等语料库），词性。结巴会根据词典对分词句子切分，生成DAG，与此同时将每个词的出现次数转换成频率。该频率会根据动态规划查找最大路径，找出基于词频的切分组合。

对于不存在与词典中的词，结巴则采用了基于汉字成词能力的HMM模型，使用Viterbi算法进行分词。也就是说如果dict.txt词典中没有任何词，结巴也能够根据HMM模型分词。下面写一个demo测试下结巴的分词能力。

测试文本数据采用了一篇翻译过来的医学论文《Importance of Being Adaptable Developing Guidelines for Lung Nodule Evaluation》.

结巴的提取关键词API非常易用, 这里我们提取测试文本中出现频率前100的高频词汇。并将中文编码转为unicode.

content = open("testing.txt","rb").read()

# tags extraction based on TF-IDF algorithm

tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)

text =" ".join(tags)

text = unicode(text)

在变量text中存储了我们需要的关键词结果。

接下来我们使用python中wordcloud这个库来快速生成一个词云图。由于wordcloud并不包含中文字体。对于显示中文分词，一定要对word cloud指定中文字体位置，否则最后词云图的中文都是方框乱码。

wc = WordCloud(font_path='simsun.ttc',

background_color="white", max_words=300, mask=trump_coloring,

max_font_size=40, random_state=42)

# generate word cloud

wc.generate(text)

词云图结果

2052d21a704c

wordcloud2.png

从词云图结果上大概可以看出，关键性高频名词基本被容纳进去，但是有一些无意义的高频介词也被包括进去。后期在提高模型正确率时，一方面需要扩充语义库，另一方面要对词性进行定义，将某些高频但无意义的词进行过滤。

全文代码:

# -*- encoding:utf-8 -*-

import jieba.analyse

from os import path

from scipy.misc import imread

import matplotlib as mpl

import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator

if __name__ == "__main__":

mpl.rcParams['font.sans-serif'] = ['FangSong']

#mpl.rcParams['axes.unicode_minus'] = False

content = open("testing.txt","rb").read()

# tags extraction based on TF-IDF algorithm

tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)

text =" ".join(tags)

text = unicode(text)

# read the mask

d = path.dirname(__file__)

trump_coloring = imread(path.join(d, "Trump.jpg"))

wc = WordCloud(font_path='simsun.ttc',

background_color="white", max_words=300, mask=trump_coloring,

max_font_size=40, random_state=42)

# generate word cloud

wc.generate(text)

# generate color from image

image_colors = ImageColorGenerator(trump_coloring)

plt.imshow(wc)

plt.axis("off")

plt.show()

参考资料:

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ChatGPT 提示词：2024最新AIGC提示词大全

开放原子开发者工作坊

项目实战9—企业级分布式存储应用与实战MogileFS、FastDFS

企业级分布式存储应用与实战-mogilefs　　环境：公司已经有了大量沉淀用户，为了让这些沉淀用户长期使用公司平台，公司决定增加用户粘性，逐步发展基于社交属性的多样化业务模式，决定开展用户讨论区、卖家秀、买家秀、用户试穿短视频等业务，因此，公司新的业务的业务特征将需要海量数据存储，你的领导要求基于开源技术，实现对公司海量存储业务的技术研究和实现，你可以完成任务吗？总项目流程图，详见...

开放原子开发者工作坊

.NET Core开源API网关 – Ocelot中文文档

.NET Core开源API网关 – Ocelot中文文档原文:.NET Core开源API网关 – Ocelot中文文档Ocelot是一个用.NET Core实现并且开源的API网关，它功能强大，包括了：路由、请求聚合、服务发现、认证、鉴权、限流熔断、并内置了负载均衡器与Service Fabric、Butterfly Tracing集成。...