简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Linux下C语言实现ffmpeg视频+音频推流1.环境需求①ffmpeg源码编译https://trac.ffmpeg.org/wiki/CompilationGuide/Ubuntu官网编译教程一定要支持h264②alsa支持2.思路①ffmpeg调用摄像头推流为主进程②alsa录音并推流为线程③利用信号量做互斥锁,让两个进程互斥推流。3.源码#include <alsa/asoundl
语音识别之自动语音识别(ASR,Auto Speech Recognition)个人自学整理自动语音识别(ASR,Auto Speech Recognition)自动语音识别是机器把语音声波信号转化成文字,因人的物理器官位置不同可以发出不同的音,最小的发声单位称为音素,多个音素组成音节,若干音节组成字,机器识别的最小语音单位可以是音素、音节、字或词。基于Kaldi的传统语音识别有基于单音素和三音素
语音识别之声学模型知识(个人整理)声学模型声学模型使用高斯混合-隐马尔科夫模型(GMM-HMM),训练该模型的准则有:①早期的最大似然准则(ML)②中期的序列判别训练法(sequence hierarchical model)③目前广泛使用的基于深度学习的方法。未完待续...
用python实现语音端点检测(Voice Activity Detection,VAD)1.准备环境https://github.com/marsbroshok/VAD-python里面的vad.py文件2.具体代码from vad import VoiceActivityDetectorimport waveif __name__ == "__main__":load_file = "test
在python中用pyTorch搭建CNN神经网络实现数字(0~9)语音识别1.收集训练数据speech_commands_v0.01.tar.gzhttp://download.tensorflow.org/data/speech_commands_v0.01.tar.gz自己用迅雷下载什么都行(推荐迅雷)2.准备环境①pycharm软件②cuda和cudnn(我的是11.3)③python(我
如何用python画出语谱图(spectrogram)和mel谱图(mel spectrogram)1.准备环境①python②libsora③matplotlibNotes:pip install 直接一步到位2.具体代码①语谱图(spectrogram)import librosaimport numpy as npimport matplotlib.pyplot as pltpath = "
基于python的数字(0~9)语音识别1.收集训练数据speech_commands_v0.01.tar.gzhttp://download.tensorflow.org/data/speech_commands_v0.01.tar.gz自己用迅雷下载什么都行(推荐迅雷)2.准备环境①pycharm软件②cuda和cudnn(我的是11.3)③python(我的是3.9)④支持cuda的pyto
python使用yolov5进行物体识别1.GitHub代码yolov5:https://github.com/ultralytics/yolov52.环境准备pip install -r requirements.txt3.示例代码import torch# Modelmodel = torch.hub.load('ultralytics/yolov5', 'yolov5s')# or yolo
语音端点检测原理VAD——Voice Activity Detection(个人整理)语音端点检测:用于判断给定的音频数据是否存在语音,其常用语音编解码、降噪、增益控制、波束形成以及唤醒识别等算法中。VAD检测给定音频数据含有语音的概率,VAD方法通常包括特征提取和语音/非语音判决两部分。当前使用的语音特征主要有时域和频域两种,时域特征:①能量波动;②过零率③最大能量④最小能量等。频域特征:①基频
在python中用pyTorch搭建CNN神经网络实现数字(0~9)语音识别1.收集训练数据speech_commands_v0.01.tar.gzhttp://download.tensorflow.org/data/speech_commands_v0.01.tar.gz自己用迅雷下载什么都行(推荐迅雷)2.准备环境①pycharm软件②cuda和cudnn(我的是11.3)③python(我