python发明小故事_python一些小故事

这么多天。我都经历了什么。自从来到上海参加工作以后，突然就从python小白变成了一个语音识别的研究者。今天不讨论语音识别的相关知识，只说python的一些小技巧和一些函数的包，再掺杂一些我个人的一些杂谈。自从来到公司。首先我是从事爬虫工作，负责从晚上爬去新闻发布的文章内容，说实话这些新闻类的爬虫反爬不是很厉害。基本上都能解决，唯一解决有些麻烦的就是是否能对某条信息的内容有所遗漏。你问我爬取完这些

weixin_39641386

214人浏览 · 2020-12-03 06:42:55

weixin_39641386 · 2020-12-03 06:42:55 发布

这么多天。我都经历了什么。自从来到上海参加工作以后，突然就从python小白变成了一个语音识别的研究者。

今天不讨论语音识别的相关知识，只说python的一些小技巧和一些函数的包，再掺杂一些我个人的一些杂谈。

自从来到公司。首先我是从事爬虫工作，负责从晚上爬去新闻发布的文章内容，说实话这些新闻类的爬虫反爬不是很厉害。基本上都能解决，唯一解决有些麻烦的就是是否能对某条信息的内容有所遗漏。你问我爬取完这些内容干啥？？我前面也不知道，现在明白了。对这些文本内容进行新词发现。新词发现这个网上说的不多，不如python的函数啊或者是其他的多，可能这些技术太偏科了吧。不过我得做啊。

新词发现技术，就是从我们日常说的一句话或者一段文字中提取出某个词。这我说的不是废话吗，对，就是废话，然后可能就有疑问，这个词既然已经说出来了，这不就发现了。对啊，你从一个1M的文本里面使用分词，或者借助某些模块，比如jieba就能把这些词照出来，然后还要分词干嘛，那么“老铁”成词吗？以前不成词，现在是词了，但是分词技术实现不了。所以次啊会有新词发现，

这些技术，我认为第一步就是从1M的文本里面查找出现频率最高的两个或者三个，或者四个，或者5个。当超出一定限度之后，这个频率最高的“词”就被认为是词。那到底成不成词还需要判断，

比如“越老铁钩越不好使”。那么拿“老铁”举例。如果说老铁，看他左边，链接左边之后就是“越老铁”。在1M文本中出现的情况极其少。那么就不成词。所以不是新词。

再看右临，加上之后就是“老铁钩”。按理说铁钩是个词吧，“老铁钩”说着也能接受。可在这1M文本中出现的次数跟“越老铁”一样少，。所以这个也构成不了新词。还有其他的，我觉得我没说到。下次我再针对这篇文章来个新版本。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐