logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自然语言处理学习笔记(七)————字典树效率改进

fail表保存的是状态间一对一的关系,存储状态转移失败后应当回退的最佳状态。举个例子:我们的模式串为“自然语言”,如果用字典树查询,以“自“为起点, 找到”自然语言“后,起点又退回到”然“继续扫描...如果扫描到”自然语言“的同时知道”然语言“、”语言“、”言”不在字典树中,则可以少查询三次,观察这三个字符串,它们共享递进式的后缀,所以可以引入后缀树。output 表中的元素有两种,一种是从初始状

文章图片
#学习#python#自然语言处理
自然语言处理学习笔记(六)————字典树

字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的一条路径,并在终点节点上做个标记"该节点对应词语的结尾".字符串就是一条路径,要查询一个单词,只需顺着这条路径从根节点往下走。如果能走到特殊标记的节点,则说明该字符串在集合中,否则说明不存在。一个典型的字典树如

文章图片
#学习#nlp#自然语言处理 +1
Python语法:def __init__(self, value) -> None:

从而方便开发人员使用。->常常出现在python函数定义的函数名后面,为函数添加元数据,-> _Attr则表明函数返回的是一个外部可访问的类的私有变量。这里面,元数据表明了函数的返回值为int类型。这种写法通常是写在函数的函数名后面。

文章图片
#linux#运维#服务器 +1
Python爬虫学习笔记(八)————Phantomjs与Chrome handless

①是一个无界面的浏览器②支持页面元素查找,js的执行等③由于不进行css和gui渲染,运行效率要比真实的浏览器要快很多。

文章图片
#python#爬虫#selenium +1
自然语言处理学习笔记(五)————切分算法

完全切分的结果比较没有意义,我们更需要那种有意义的词语序列,而不是所有出现在词典中的单词所构成的链表。具体说来,就是在以某个下标为起点递增查词的过程中,优先输出更长的单词,这种规则被称为最长匹配算法。比较之后发现,双向最长匹配在2、3、5这3种情况下选择出了最好的结果,但在4号句子上选择了错误的结果,使得最终正确率3/6反而小于逆向最长匹配的4/6。第二句话就会产生误差了,我们是需要把“研究”提取

文章图片
#学习#自然语言处理#nlp
python中.npy文件转换为.txt或.csv文件

​二、 转换为csv文件。一、转换为txt文件。

文章图片
#python#开发语言
Python爬虫学习笔记(六)————BeautifulSoup(bs4)解析

(1).获取节点内容:适用于标签中嵌套标签的结构 obj.string obj.get_text()【推荐】 (2).节点的属性 tag.name 获取标签名 eg:tag = find('li) print(tag.name) tag.attrs将属性值作为一个字典返回 (3).获取节点属性 obj.attrs.get('title')【常用】 obj.get('title') obj['tit

文章图片
#python#爬虫#学习 +1
python中的range()函数详解

start、stop、step 分别表示序列的起始值、终止值和步长。start 和 step 是可选参数,如果不指定则默认为 0 和 1。

文章图片
#python#开发语言#pytorch +1
CART 算法——决策树

CART是英文“classification and regression tree”的缩写,翻译过来是分类与回归树,与前面说到的ID3、C4.5一致,都是决策树生成的一种算法,同样也由特征选择、树的生成以及剪枝组成,既可以用于分类也可以用于回归。CART算法由决策树的生成以及决策树剪枝两部分组成。决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方差最小化准则,对分类树用基尼指数最小化准则

文章图片
#算法#决策树#机器学习 +3
python的条件判断中的not、is、is not、is not None、is None

是判断A是否为0、False、空字符串、空列表、空字典、空元组以及None,满足任一条件即返回True。

文章图片
#python#开发语言
    共 13 条
  • 1
  • 2
  • 请选择