logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI+CV: 谷歌数据增强文章的实践

数据增强是机器学习中常用的Trick,特别是用于样本不足的情况下的一种提升机器学习模型性能的重要手段。看了谷歌开源的数据增强文章,里面已经实现得比较全的,做了简单实验,效果还是不错。从其开放代码(https://github.com/tensorflow/tpu/blob/master/models/official/efficientnet/autoaugment.py)中可以看出,该类已经..

CTC模型、安装及其pytorch绑定安装

CTC模型是语音识别模型中常见的模块之一,现有主流的语音识别系统经常采用该模型来实现端到端的语音识别。而CTC出现之前,语音识别模型的端到端识别效果还是相对较弱的,也就是说CTC解决了这一问题。1、CTC的相关原理深度学习的序列到序列模型可以解决许多现实任务,如:Image ClassificationImage GenerationLanguage ModelingSen...

#语音识别
微软开源认知服务CNTK的测试(语音训练)

前段时间,微软开源了认知服务的工具箱,直到近期才有时间进行测试。看了文档,这个CNTK工具包还是非常厉害的,可以支持语音识别,图像分类,机器翻译等多种任务。里面也集成了多种深度学习的模型。suchas deep neural networks (DNNs), convolutional neural networks (CNNs), recurrent neural networ

基于Tensorflow的VCTK语音识别例子测试

语音识别是深度学习早先攻克的几个领域之一。传统的基于HMM等的语音识别精度一直比较受限。但是深度学习还是给语音识别的精度带来了一个飞跃性的提高。本文在网上找了段代码实现了下,感觉非常简单就可以复现。不过看了过程,也非常简单,主要有几步:(1) 下载VCTK数据集;(2) 对数据集,提取每个WAV文件的MFCC特征以及对应的语音文本标注语料。(3) 设置CTC的损失目

#tensorflow#语音识别
Python3.6安装sqlite3的终极解决办法(

最近重装了系统之后,发现原有的python3环境下安装sqlite3(见原来博客:ubuntu环境下 python 3.0以上版本对sqlite3的支持问题)的办法已经行不通了。   即使安装了libsqlite-dev之后,仍然会报这样的错误:omnisky@omnisky:~/work/soft/Python-3.6.2$ pythonPython 3.6.2 (default, J

#python#ubuntu
pytorch实践中module 'torch' has no attribute 'form_numpy'问题的解决

最近开始仔细玩了一下pytorch,发现里面有个BUG之前都没有发现。在测试torch最基本的示例的情况下,居然碰到了个pytorch无法转化numpy为Tensor的问题,呈现的问题如下:ndscbigdata@ndscbigdata:~/work/change/AI$ pythonPython 3.6.1 (default, Jul 14 2017, 17:08:44)[GCC

#pytorch
SentencePiece的中文测试实践

许多自然语言处理程序中都用到了谷歌开源的SentencePiece作为词切分的基础工作之一,于是跟踪学习了下。1、基本介绍What is SentencePiece?SentencePiece is a re-implementation ofsub-word units, an effective way to alleviate the open vocabulary probl...

多语言文本到音素转换工具phonemizer实践

音素是语言识别领域的最小单元,文本到音素的转换是TTS任务(文本转语音)中重要的步骤之一,最近用了下python包(phonemizer),实践了下,觉得还挺有用的,因此记录一下过程。(1) 下载源码,https://github.com/bootphon/phonemizer(2) 进行源码的编译和查看,发现其调用的是festival and espeak/espeak-ng 两个系统的东西,即

Toward Multimodal Image-to-Image Translation(BicycleGAN)图像一对多转换测试

CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS 2017上又推出了一篇文章Toward Multimodal Image-to-Image Translation(见https://junyanz.github.io/BicycleGAN/,https://arxiv.org/pdf/1711.11586.pdf),讨论如何从一张图像同时转换为多张风格不一成对的图像。

LargeVis可视化技术学习

大图可视化一直是大数据可视化领域的一个关键技术,当前有各种办法,但是今年出来了一个LargeVis的技术,因此对这个技术进行复现和学习一下。前面有很多基础理论,如基本的降维理论,SNE,t-SNE可视化算法等,这些一概略过,想关注理论的可以参考网址:https://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis

#大数据#网络
    共 19 条
  • 1
  • 2
  • 请选择