logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

动手学深度学习(MXNet)1:基础知识

预备知识安装环境$ pip install mxnet-cu80 --> cuda8.0数据操作,在MxNet中用NDArray类,是存储和变换数据的主要工具。NDArray提供GPU计算和自动求梯度等更多功能。自动求梯度,用autograd模块,from mxnet import autograd, ndx = nd.arange(4).reshape((4,1))...

大数据竞赛平台——Kaggle 入门篇

大数据竞赛平台——Kaggle 入门篇这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!1、Kaggle简介

计算机视觉项目

公式图片ocr,输入图片输出对应的latex表达式

中文机器翻译数据集

DatasetWMT2018AI challenger(英中翻译规模最大的口语领域英中双语对照数据集)UM-Corpus: A Large English-Chinese Parallel CorpusOpenSubtitles2016MultiUNMethodsAI Challenger 2017 奇遇记机器翻译如何解决数据量小的问题?...

Kaldi(A5)语言模型及HCLG.fst生成

这节介绍一下如何修改生成适合自己场景的语言模型。RefOnline decoding in Kaldi(Nnet2) http://kaldi-asr.org/doc/online_decoding.html修改语言模型首先,我们为什么要修改语言模型?虽然已有现成的Fisher_English或者Librispeech的HCLG.fst,但是他们用到的是3-gram,也就是说上下文一共是3个单词,

NLP:自回归(Autoregressive LM)与自编码语言模型(Autoencoder LM)

链接:https://zhuanlan.zhihu.com/p/70257427自回归根据上文内容预测下一个可能跟随的单词,就是常说的自左向右的语言模型任务,或者反过来也行,就是根据下文预测前面的单词,这种类型的LM被称为自回归语言模型。(GPT,ELMO)GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文,也利用了下文,但是本质上仍然是自回归LM,这个跟模型具体怎么实现有关系。ELM

人工智能标记语言AIML聊天机器人:产生、种类、应用、实例、AIML概述、知识库、公司、业界(20k字经典收藏版)

人工智能标记语言AIML聊天机器人:产生、种类、应用、实例、AIML概述、知识库、公司、业界(20k字经典收藏版)秦陇纪10译编聊天机器人(chatterbot)是一个用来模拟人类对话或聊天的程序,试图建立程序让真人认为在和另一个人聊天。在NLP/AIML技术加多样性语库支撑下,采用免费人工语言在线计算机实体ALICE人工智能标记语言(ALICEAIML)类知识库(knowl

Python自然语言处理实战(7):文本向量化

7.1 文本向量化概述    文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分的研究都是通过词向量化实现的。与此同时,也有相当一部分研究者将句子作为文本处理的基本单元,于是..

Python自然语言处理实战(5):关键词提取算法

5.1 关键词提取技术概述    相对于有监督的方法而言,无监督的方法对数据的要求就低多了。既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练。因此,这类算法在关键词提取领域的应用更受到大家的青睐。目前常用的算法有TF-IDF算法、TextRank算法和主题模型算法(包括LSA、LSI、LDA等)5.2 关键词提取算法TF/IDF算法    TF-IDF(Term Frequenc

Python自然语言处理实战(4):词性标注与命名实体识别

4.1 词性标注       词性是词汇基本的语法属性,通常也称为词类。从整体上看,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是如同分词一样,将句子的词性标注作为一个序列标注问题来解决。       较为主流的词性标注规范有北大的词性标注集和滨州词性标注集两大类。 

    共 63 条
  • 1
  • 2
  • 3
  • 7
  • 请选择