零落_World 个人主页

@cdj0311

零落_World

2023-12-22 18:42:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【中文分词系列】 5. 基于语言模型的无监督分词

迄今为止，前四篇文章已经介绍了分词的若干思路，其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了，笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处，我一直在想，能不能给出一种只需要大规模语料来训练的无监督分词模型呢？也就是说，怎么切分，应该是由语料来决定的，跟语言本身没关系。说白了，只要足够多语料，就可以告诉我们怎么分词。看上去很完美，

python代理ip抓取大众点评

抓大众点评才抓了几页就被屏蔽，找到如下方法解决。第一步：获取代理ip在http://www.xicidaili.com/nn获取代理，命名为proxy_ip.py，代码如下：# coding:utf-8import requestsfrom bs4 import BeautifulSoupimport reimport os.pathuser_agent = 'Mozi

Ubuntu 12.10代理服务器上网设置

搞了好久终于可以使用虚拟机上Ubuntu 12.10的代理服务器上网了。1.VMWare设置，选中当前虚拟机的系统，然后VM->Setting->Network Adapter在右侧选择Bridged如图：2、在ubuntu中点击右上角的网络连接符号，进入Edit connections，选择一个Wired Connection，如图：点击Edit，并选择IPV4 Settin

基于kaldi的在线中文识别，online的操作介绍

最近研究了下kaldi，也看了好多文章，感觉这方面的有用文章太少！大多停留在编译和深层理论方面。对于我们这种没有基础的人，除了看完编译，就只能很茫然的看哪些高高在上的理论了。本文章，适合那些。刚刚编辑完kaldi。想试试手，找找感觉的人来看的。如果你还没有编辑过，可以查查相关文章。有好多。声明一下，本文章，只适合在windows下装虚拟机UBuntu的机器上玩。你的虚拟机内存要大

使用Python下载Voxforge语音文件

由于做语音识别需要在使用voxforge的语音文件，但是voxforge文件太多，手工下载肯定不行，可以使用批量下载软件进行下载。而出于好奇，我打算用python自己写一个批量下载脚本，最后虽然能用，但速度不行，而且是单线程的，只能一个文件一个文件的下，就当当作练练手，过一阵再研究多线程的下载。步骤如下：voxforge的English speech files连接为：http://www

#python

语音识别工具箱之kaldi----研究联盟

转自：http://blog.csdn.net/wbgxx333/article/details/17893641今晚突然有个想法，由于kaldi 的中文资料比较少，而且由于这个工具箱比较新，所以我想借用大家的力量来为以后的人研究铺好一些路。所以现在我打算，也是希望大家可以从kaldi的原理上去理解kaldi的实现过程，也是大家不断学习的过程。就像网上很多htk的资料一样，大家也可以来丰富ka

#深度学习 #语音识别

HTK搭建大词汇量连续语音识别系统（五）

混合高斯模型+语言模型今天事情比较多，就花了点时间看了一下HTKbook的高斯混合模型和data driven，然后使用HVite进行解码，时间比较长，出去吃了个饭，打几局台球回来刚好运行完。1、初始proto 的hmm模型：~o39~h "proto1"395251 0.2390.0 0.0 0.0 0.0

#语音识别

HTK搭建大词汇量连续语音识别系统（三）

十、绑定三音素脚本mktri.led：WB spWB silTC执行命令:HLEd -n labels/triphones1 -i labels/wintry.mlf scripts/mktri.led labels/aligned.mlf脚本mktri.hed由脚本命令生成：perl scripts/maketrihed data/monophones1 la

#语音识别

HTK搭建大词汇量连续语音识别系统（四）

语言学模型训练（1）数据准备使用HTK自带脚本LCond.pl生成分词后的文本语料命令：perl scripts/LCond.pl sentence>trainlanguage其中sentence是之前的trainprompts去掉路径的句子，生成的language如下：SHE HAD YOUR DARK SUIT IN GREASY WASH WATER ALL YEAR

#语音识别

HTK搭建大词汇量连续语音识别系统（二）

接着昨天的做。昨天有个没注意的地方需要改过来，timit发音文件每个发音最后不能有sp，否则dict1会有两个sp。六、提取特征参数，生成.mfc文件编写配置文件wav_config，内容如下： SOURCEFORMAT=NISTTARGETKIND=MFCC_0_D_ATARGETRATE=100000.0SAVECOMPRESSED=TUSEHAM

#语音识别

共 13 条

请选择