这么多天。我都经历了什么。自从来到上海参加工作以后,突然就从python小白变成了一个语音识别的研究者。

今天不讨论语音识别的相关知识,只说python的一些小技巧和一些函数的包,再掺杂一些我个人的一些杂谈。

自从来到公司。首先我是从事爬虫工作,负责从晚上爬去新闻发布的文章内容,说实话这些新闻类的爬虫反爬不是很厉害。基本上都能解决,唯一解决有些麻烦的就是是否能对某条信息的内容有所遗漏。你问我爬取完这些内容干啥?? 我前面也不知道,现在明白了。对这些文本内容进行新词发现。新词发现这个网上说的不多,不如python的函数啊或者是其他的多,可能这些技术太偏科了吧。不过我得做啊。

新词发现技术,就是从我们日常说的一句话或者一段文字中提取出某个词。这我说的不是废话吗,对,就是废话,然后可能就有疑问,这个词既然已经说出来了,这不就发现了。对啊,你从一个1M的文本里面使用分词,或者借助某些模块,比如jieba就能把这些词照出来,然后还要分词干嘛,那么“老铁”成词吗?以前不成词,现在是词了,但是分词技术实现不了。所以次啊会有新词发现,

这些技术,我认为第一步就是从1M的文本里面查找出现频率最高的两个或者三个,或者四个,或者5个。当超出一定限度之后,这个频率最高的“词”就被认为是词。那到底成不成词还需要判断,

比如“越老铁钩越不好使”。那么拿“老铁”举例。如果说老铁,看他左边,链接左边之后就是“越老铁”。在1M文本中出现的情况极其少。那么就不成词。所以不是新词。

再看右临,加上之后就是“老铁钩”。按理说铁钩是个词吧,“老铁钩”说着也能接受。可在这1M文本中出现的次数跟“越老铁”一样少,。所以这个也构成不了新词。还有其他的,我觉得我没说到。下次我再针对这篇文章来个新版本。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐