
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这节介绍一下如何修改生成适合自己场景的语言模型。RefOnline decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html修改语言模型首先,我们为什么要修改语言模型?虽然已有现成的Fisher_English或者Librispeech的HCLG.fst,但是他们用到的是3-gram,也就是说上下文一共是3个单词,
二维卷积层卷积运算from mxnet import autograd, ndfrom mxnet.gluon import nndef corr2d(X, K):h, w = K.shapeY = nd.zeros((X.shape[0]-h+1, X.shape[1]-w+1))for i in range(Y.shape[0]):...
原文简介Tensorflow.js是google推出的一个开源的基于JavaScript的机器学习库,相对与基于其他语言的tersorflow库,它的最特别之处就是允许我们直接把模型的训练和数据预测放在前端,置于浏览器内。本文会用一个简单的demo介绍如何从零开始训练一个tensorflow模型,并在浏览器内实现手写数字识别,最终效果大约如下:手写数字识别示例本文会假设你有基本的python和Ja
问题描述:把多个Word文档合并为一个,保留原来的内容以及全部格式。方法一,使用扩展库pywin32+Word/WPS首先使用命令pip install pywin32安装扩展库,如果仍不能使用,可以参考方法二:使用pywin32+Word/WPS方法三:使用pywin32+Word/WPS方法四:使用python-docx扩展库和docxcompose扩展库方法五:如果不会使用Python或者不
人工智能标记语言AIML聊天机器人:产生、种类、应用、实例、AIML概述、知识库、公司、业界(20k字经典收藏版)秦陇纪10译编聊天机器人(chatterbot)是一个用来模拟人类对话或聊天的程序,试图建立程序让真人认为在和另一个人聊天。在NLP/AIML技术加多样性语库支撑下,采用免费人工语言在线计算机实体ALICE人工智能标记语言(ALICEAIML)类知识库(knowl
DatasetWMT2018AI challenger(英中翻译规模最大的口语领域英中双语对照数据集)UM-Corpus: A Large English-Chinese Parallel CorpusOpenSubtitles2016MultiUNMethodsAI Challenger 2017 奇遇记机器翻译如何解决数据量小的问题?...
文本分类数据集https://hyper.ai/datasets搜狐新闻文本分类数据集官网https://www.sogou.com/labs/resource/list_news.php数据集:https://pan.baidu.com/s/1V6o20temK2v3j-bo16x94g提取码:fech今日头条中文新闻(文本)分类数据集https://github.c...
7.1 文本向量化概述 文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将句子作为文本处理的基本单元,于是..
DatasetWMT2018AI challenger(英中翻译规模最大的口语领域英中双语对照数据集)UM-Corpus: A Large English-Chinese Parallel CorpusOpenSubtitles2016MultiUNMethodsAI Challenger 2017 奇遇记机器翻译如何解决数据量小的问题?...
5.1 关键词提取技术概述 相对于有监督的方法而言,无监督的方法对数据的要求就低多了。既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练。因此,这类算法在关键词提取领域的应用更受到大家的青睐。目前常用的算法有TF-IDF算法、TextRank算法和主题模型算法(包括LSA、LSI、LDA等)5.2 关键词提取算法TF/IDF算法 TF-IDF(Term Frequenc