
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
中文文本分类实战持续更新THUCNews数据集数据集下载THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据预处理特征工程模型训练模型..
中文文本分类实战持续更新THUCNews数据集数据集下载THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。数据预处理特征工程模型训练模型..
博主声明该深度学习笔记系列为个人学习笔记整理。内容来源于网上的大牛和机器学习专家所无私奉献的资料,仅供学习交流,非商用。具体引用的资料请看参考文献。具体的版本声明也参考原文献,有部分参考资料没有给出来源,请各位原博主理解,如果涉及侵权,请联系博主删除。本人才疏学浅,整理总结的时候难免出错,此属于第一版本,若有错误,还需继续修正与增删。如果博主有未注意的错误,还望各位前辈不吝指正,谢谢。...
逻辑回归(LR)算法概述逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。逻辑回归算法原理预测函数和决策边界逻辑回归的预测函数可以表示为:举一个例子,假设我们有许多样本,并在图中表示出来了,并且假设我们已经通过某种方法求出了LR模型的参数(如下图):这时,直线上方所...
朴素贝叶斯(NB)算法概述朴素贝叶斯(Naïve Bayes, NB)算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于监督学习的生成模型,实现简单,并有坚实的数学理论(即贝叶斯定理)作为支撑。在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。朴素贝叶斯算法原理贝叶斯定理条件概率:就是事件 AAA在另外一个事件BBB...
决策树(Decision Tree)算法算法概述本文主要介绍机器学习中的决策树模型。决策树模型是一类算法的集合,在数据挖掘十大算法中,具体的决策树算法占有两席位置,即C4.5和CART算法。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。同时也特别适合集成学习比如随..
支持向量机(SVM)算法概述支持向量机(support vector machines,SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机当训练样本线性不可分时...
命名实体识别综述什么是命名实体识别?命名实体识别(Named Entity Recognition,简称NER),又称作**“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体**,通常包括人名、地名、机构名、日期时间、专有名词等。通常包括两部分:实体的边界识别确定实体的类型(人名、地名、机构名或其他)NER系统就是从...
逻辑回归(LR)算法概述逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。逻辑回归算法原理预测函数和决策边界逻辑回归的预测函数可以表示为:举一个例子,假设我们有许多样本,并在图中表示出来了,并且假设我们已经通过某种方法求出了LR模型的参数(如下图):这时,直线上方所...
决策树(Decision Tree)算法算法概述本文主要介绍机器学习中的决策树模型。决策树模型是一类算法的集合,在数据挖掘十大算法中,具体的决策树算法占有两席位置,即C4.5和CART算法。决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。同时也特别适合集成学习比如随..