
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、介绍本项目的主要目标是构建一个公共的知识库问答系统,从用户所提出的问题,对知识库进行检索,返回一个确定的答案,或者没有答案。项目代码、数据在这个地址中:链接: https://pan.baidu.com/s/1HvdVIvYIrvDaRBDl5p1oUw 提取码: a917本项目所使用的数据集是已经被预处理好的三元组 ,有两个文件 nlpcc-iccpol-2016.kbqa.training

首先了解下Iris鸢尾花数据集:Iris数据集(https://en.wikipedia.org/wiki/Iris_flower_data_set)是常用的分类实验数据集,由Fisher,1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花

本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库,点我下载。分为英文数据集(trec06p)和中文数据集(trec06c),其中所含的邮件均来源于真实邮件,并且还保留了邮件的原有格式(包括发送方、接收方、时间日期等等)和邮件中文内容。第二个链接即是中文文本的邮件数据集,点击链接即可下载。下载的压缩文件夹中,一个文件代表一封邮件,通过标签“spam”、“ham”

一、准备首先明确这是一个基于GMM-HMM的嵌入式命令词识别系统,它和基于GMM-HMM的孤立词识别系统有很大不同,孤立词识别系统的很好的一个参考文章是这篇,下面将简要介绍两个模型的区别,图和说明都是为了表述而简化的概念性版本,和我们实际操作的细节会有一些区别。简要地说,孤立词的GMM-HMM模型是每个需要识别的词对应一个GMM-HMM,如图所示:假设我们需要识别的词包括“前进”、“后退”、“左转
在NLP中,用来判断一句话是否符合正确的语法,广泛应用于信息检索、等重要任务中。),虽然可解释性强、易于理解,但存在泛化能力差等问题。随着深度学习技术的发展,相关技术也应用到语言模型中,如神经网络语言模型(Neural Network Language Model模型)。

新闻数据有20个主题,有10万多篇文章,每篇文章对应不同的主题,要求是任意输入一篇新的文章,模型输出这篇文章属于哪个主题。一、 算法原理1. 朴素贝叶斯方法朴素贝叶斯方法涉及一些概率论知识,我们先来复习一下。联合概率:包含多个条件,并且所有的条件同时成立的概率,公式为:P(AB)=P(A)*P(B)条件概率:事件A在另一个事件B已经发生的前提下发生的概率,记作P(A|B),如果有多个条件,那记作:

在NLP中,用来判断一句话是否符合正确的语法,广泛应用于信息检索、等重要任务中。),虽然可解释性强、易于理解,但存在泛化能力差等问题。随着深度学习技术的发展,相关技术也应用到语言模型中,如神经网络语言模型(Neural Network Language Model模型)。

通过加载已经经过预处理的文本来生成每个样本的文本与标签。# 定义Datasetself.text_with_tag = file.readlines() # 文本标签与内容def __getitem__(self, index): # 重写getitemline = self.text_with_tag[index] # 获取一个样本的标签和文本信息label = int(line[0]) # 标

一、安装Anaconda1. Anaconda的官网下载地址下载:官网地址或者清华大学镜像站(更快)。2.Anaconda安装步骤2.1 进入官网,点击Download.2.2选择自己电脑合适的版本进行下载。2.3 按照自己的下载路径找到安装程序,并点击该安装程序进行安装2.4 这是欢迎界面,点击下一步,即Next2.5点击I Agree,即同意Anaconda的协议,才能使用Anaconda2.
本文使用CLUE Fine-Grain NER中文数据集,数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(goverment),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)。命名实体识别(Named Entitie Recognition,NER)
