logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习之语音识别-音频基础知识、声谱图(Spectrogram)

但由于谐波的多少不同,并且各谐波的幅度各异,因而产生了不同的音色。轻轻敲鼓时,鼓膜振动的幅度小,发出的声音弱。音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。另外,人们对响度的感觉还和声波的频率有关,同样强度的声波,如果其频率不同,人耳感觉到的响度也不同。通过改变它们的振幅(amplitude),即这个震动的具有的能量大小,被称为音

文章图片
#语音识别#音视频#人工智能
语音大模型之Whisper

Whisper模型方法证明了只需要用大量的弱标签数据,不需要很复杂的模型和调优方法,就可以到达非常不错的识别性能,尤其是在鲁棒性和泛化性上。这也是大家比较公认的一个结论,即数据才是模型性能提升的最大影响因素。

文章图片
#语音识别
语音大模型之Whisper

Whisper模型方法证明了只需要用大量的弱标签数据,不需要很复杂的模型和调优方法,就可以到达非常不错的识别性能,尤其是在鲁棒性和泛化性上。这也是大家比较公认的一个结论,即数据才是模型性能提升的最大影响因素。

文章图片
#语音识别
nginx中resolver参数配置解释

地址:https://www.rootop.org/pages/4307.html

.in‘ig.status: error: cannot find input file: `Makefile

使用autotoos 编译程序,执行autoreconf -ivf出现如下错误:checking for stddef.h... yeschecking for stdint.h... (cached) yeschecking for stdlib.h... (cached) yeschecking for string.h... (cached) yeschecking for unistd.h

#linux
nginx ngx_modules

在ngx_module.h中引用了两个至关重要的外部变量12extern ngx_module_t*ngx_modules[];extern char*ngx_module_names[];ngx_modules跟ngx_module_names定义在ngx_modules.c中,这个文件并不存在于nginx源码中,在编译时执行configure动态生成。ngx_modules数组包含所有的Ngi

音频格式--PCM介绍

对于语音电话信道,每秒采集 8,000 个样本就足够了,即每 125 μs 采集一个样本,因为根据采样定理,当采集频率为最大频率两倍的电信号样本时信号,这些样本将包含重建原始信号所需的所有信息。PCM指的是脉冲编码调制(Pulse Code Modulation),是一种数字信号处理技术,将由波形表示的模拟音频信号转换为由1和0表示的数字音频信号。在电话交谈的采样中,由于样本在语音强度范围内可以有

文章图片
深度学习之语音识别-音频基础知识、声谱图(Spectrogram)

但由于谐波的多少不同,并且各谐波的幅度各异,因而产生了不同的音色。轻轻敲鼓时,鼓膜振动的幅度小,发出的声音弱。音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。另外,人们对响度的感觉还和声波的频率有关,同样强度的声波,如果其频率不同,人耳感觉到的响度也不同。通过改变它们的振幅(amplitude),即这个震动的具有的能量大小,被称为音

文章图片
#语音识别#音视频#人工智能
ffmpeg添加libx265

1. 下载libx265 源码下载路径: http://download.videolan.org/videolan/x265/2. 安装cmake因为libx265 是基于cmake 编译的,所以先安装cmakeapt-get install cmake -y3.编译安装libx265基于README.rst , 查看安装步骤./bootstrap &a...

语音大模型之Whisper

Whisper模型方法证明了只需要用大量的弱标签数据,不需要很复杂的模型和调优方法,就可以到达非常不错的识别性能,尤其是在鲁棒性和泛化性上。这也是大家比较公认的一个结论,即数据才是模型性能提升的最大影响因素。

文章图片
#语音识别
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择