logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【中文分词系列】 5. 基于语言模型的无监督分词

迄今为止,前四篇文章已经介绍了分词的若干思路,其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了,笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处,我一直在想,能不能给出一种只需要大规模语料来训练的无监督分词模型呢?也就是说,怎么切分,应该是由语料来决定的,跟语言本身没关系。说白了,只要足够多语料,就可以告诉我们怎么分词。看上去很完美,

python代理ip抓取大众点评

抓大众点评才抓了几页就被屏蔽,找到如下方法解决。第一步:获取代理ip在http://www.xicidaili.com/nn获取代理,命名为proxy_ip.py,代码如下:# coding:utf-8import requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozi

Ubuntu 12.10代理服务器上网设置

搞了好久终于可以使用虚拟机上Ubuntu 12.10的代理服务器上网了。1.VMWare设置,选中当前虚拟机的系统,然后VM->Setting->Network Adapter在右侧选择Bridged如图:2、在ubuntu中点击右上角的网络连接符号,进入Edit connections,选择一个Wired Connection,如图:点击Edit,并选择IPV4 Settin

基于kaldi的在线中文识别,online的操作介绍

最近研究了下kaldi,也看了好多文章,感觉这方面的有用文章太少! 大多停留在编译和深层理论方面。对于我们这种没有基础的人,除了看完编译,就只能很茫然的看哪些高高在上的理论了。本文章,适合那些。刚刚编辑完kaldi。想试试手,找找感觉的人来看的。如果你还没有编辑过,可以查查相关文章。有好多。声明一下,本文章,只适合在windows下装虚拟机UBuntu的机器上玩。你的虚拟机内存要大

使用Python下载Voxforge语音文件

由于做语音识别需要在使用voxforge的语音文件,但是voxforge文件太多,手工下载肯定不行,可以使用批量下载软件进行下载。而出于好奇,我打算用python自己写一个批量下载脚本,最后虽然能用,但速度不行,而且是单线程的,只能一个文件一个文件的下,就当当作练练手,过一阵再研究多线程的下载。步骤如下:voxforge的English speech files连接为:http://www

#python
语音识别工具箱之kaldi----研究联盟

转自:http://blog.csdn.net/wbgxx333/article/details/17893641今晚突然有个想法,由于kaldi 的中文资料比较少,而且由于这个工具箱比较新,所以我想借用大家的力量来为以后的人研究铺好一些路。所以现在我打算,也是希望大家可以从kaldi的原理上去理解kaldi的实现过程,也是大家不断学习的过程。就像网上很多htk的资料一样,大家也可以来丰富ka

#深度学习#语音识别
HTK搭建大词汇量连续语音识别系统( 五)

混合高斯模型+语言模型今天事情比较多,就花了点时间看了一下HTKbook的高斯混合模型和data driven,然后使用HVite进行解码,时间比较长,出去吃了个饭,打几局台球回来刚好运行完。1、初始proto 的hmm模型:~o39~h "proto1"395251 0.2390.0 0.0 0.0 0.0

#语音识别
HTK搭建大词汇量连续语音识别系统(三)

十、绑定三音素脚本mktri.led:WB spWB silTC执行命令:HLEd -n labels/triphones1 -i labels/wintry.mlf scripts/mktri.led labels/aligned.mlf脚本mktri.hed由脚本命令生成:perl scripts/maketrihed data/monophones1 la

#语音识别
HTK搭建大词汇量连续语音识别系统(四)

语言学模型训练(1)数据准备使用HTK自带脚本LCond.pl生成分词后的文本语料命令:perl scripts/LCond.pl sentence>trainlanguage其中sentence是之前的trainprompts去掉路径的句子,生成的language如下:SHE HAD YOUR DARK SUIT IN GREASY WASH WATER ALL YEAR

#语音识别
HTK搭建大词汇量连续语音识别系统(二)

接着昨天的做。昨天有个没注意的地方需要改过来,timit发音文件每个发音最后不能有sp,否则dict1会有两个sp。六、提取特征参数,生成.mfc文件       编写配置文件wav_config,内容如下: SOURCEFORMAT=NISTTARGETKIND=MFCC_0_D_ATARGETRATE=100000.0SAVECOMPRESSED=TUSEHAM

#语音识别
    共 13 条
  • 1
  • 2
  • 请选择