logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【爬虫】使用BeautifulSoup、requests和you_get爬虫下载B站视频

整体流程上是,先用 Requests 请求获得网站源代码,再用 BeautifulSoup 解析网站并筛选出自己要的信息(如视频的url),最后用 you_get 下载。

#爬虫#beautifulsoup#python
【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

生成式建模的扩散思想实际上已经在2015年(Sohl-Dickstein等人)提出,然而,直到2019年斯坦福大学(Song等人)、2020年Google Brain(Ho等人)才改进了这个方法,从此引发了生成式模型的新潮流。目前,包括OpenAI的GLIDE和DALL-E 2,海德堡大学的Latent Diffusion和Google Brain的ImageGen,都基于diffusion模型,

#计算机视觉#深度学习#人工智能
【语音算法】wav2vec系列原理和使用

wav2vec系列工作由facebook AI Research团队提出,包括wav2vec、vq-wav2vec、wav2vec2.0,效仿nlp上的word2vec,是语音的一种通用特征提取器。本文重点讲解wav2vec2.0模型及其使用方法。

#算法#语音识别#人工智能
【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解

生成式建模的扩散思想实际上已经在2015年(Sohl-Dickstein等人)提出,然而,直到2019年斯坦福大学(Song等人)、2020年Google Brain(Ho等人)才改进了这个方法,从此引发了生成式模型的新潮流。目前,包括OpenAI的GLIDE和DALL-E 2,海德堡大学的Latent Diffusion和Google Brain的ImageGen,都基于diffusion模型,

#计算机视觉#深度学习#人工智能
【语音算法】使用端点检测和百度语音识别技术实现视频的字幕生成

字幕文件中包含很多段信息,每一段表示了一句话的起始结束时间和内容,因此便涉及到了端点检测技术和语音识别技术。3. 字幕生成的其他方式3.1 通过双门限法进行端点检测双门限法的原理是浊音的能量高于清音,清音的过零率高于无声部分。因此,其核心在于:先利用能量,将浊音部分区分出来,再利用过零率,将清音也提取出来,就完成了端点检测。SpeechRcognition 可以说是一款语音识别集合器,共包含了谷歌

#语音识别#百度#音视频
【语音识别】基于keras的简易语音识别

最近忽然看到不是基于kaldi的ASR代码,尝试了一下发现效果还不错,搬上来记录一下。

#语音识别#keras#人工智能
【语音识别】kaldi的安装和使用案例(librispeech)

按照官网教程,kaldi的安装首先通过git获取项目,再进行编译。如果报错,则可能是相关的依赖项没有安装,可按照提示一步步安装(需要root权限)。

#语音识别#人工智能
【语音算法】Montreal Forced Aligner教程(MFA,中文语音文本对齐)

Montreal Forced Aligner(MFA)是一种强制对齐工具,可以将音频文件和其对应的文本,转换为音频文件在word、phone等级别的时间对齐的标注。这个工具在语音识别、音频标注和语音合成等领域得到了广泛的应用。本文将为大家介绍如何使用MFA完成音频文件的强制对齐。Montreal Forced Aligner是一种非常有用的工具,可以帮助我们完成音频文件和文本之间的强制对齐,为语

文章图片
#人工智能
【音频特征】opensmile 工具的使用和批处理

openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。.........

【语音识别】详解kaldi的数据和模型文件——librispeech

第一次编译kaldi很可能会缺各种东西,最好有管理员权限来安装。

#语音识别#人工智能
    共 12 条
  • 1
  • 2
  • 请选择