OpenSmile的介绍和使用
1.下载并安装opensmile 从官网下载:openSMILE - audEERING windows下解压即可使用 2.使用opensmile 提取声音信号的各种音频特征,主要是低级描述符(llds) 3.使用opensmile 3.1 Windows下直接使用 运行以命令行形式提取音频特征。 1首先切换到处理文件smilexract_Release。 exe目录 2 复用声明: SMILEx
1.下载并安装opensmile
从官网下载:openSMILE - audEERING
windows下解压即可使用
2.使用opensmile
提取声音信号的各种音频特征,主要是低级描述符(llds)
3.使用opensmile
3.1 Windows下直接使用
运行以命令行形式提取音频特征。
1首先切换到处理文件smilexract_Release。 exe目录
2 复用声明:
SMILExtract_Release -C 配置文件 -I“要处理的音频” -O“要保存的特征向量的路径和文件名”
---->控制输出数据格式(参数)
\u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-instname <string> 通常输入文件的名称保存在 CSV 和 ARFF 输出的第一列。默认为“未知”
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-lldcsvoutput, -D <filename> 启动 LLD 帧输出到 CSV 格式文件
-appendcsvlld <0/1> 设置为 1 添加到现有的 CSV 文件末尾,默认覆盖 0
-timestampcsvlld <0/1> 设置为 0 以禁用将时间步长输出到 CSV 第二列默认为 1
-headercsvlld <0/1> 设置为0禁用标题进入CSV,默认为1
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-lldhtkoutput <filename> 启动LLD帧输出到HTK格式文件
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-lldarffoutput, -D <filename> 启动 LLD 帧输出到 ARFF 格式文件
-appendarfflld <0/1> 设置为1添加到现有的ARFF文件末尾,默认覆盖0
-timestamparfflld <0/1> 设置为 0 禁用时间步输出到 ARFF 第二列默认为 1
-lldarfftargetsfile <file> 指定的配置包含定义目标域(类)的文档。默认为:shared/arff_targets_conf.inc
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-output, -O <filename> 默认输出选项。 ARFF 格式,存储特性总结
-appendarff <0/1> 设置为0不添加到现有的ARFF文档末尾,默认添加1
-timestamparff <0/1> 设置为1,将时间步输出到ARFF 第二列默认为0
-arfftargetsfile <file>指定的配置包含定义目标域(类)的文档。默认为:shared/arff_targets_conf.inc
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-csvoutput <文件名> 默认输出选项。 CSV 格式,存储功能总结
-appendcsv <0/1> 设置为0不添加到现有的CSV文件末尾,默认为1
-timestampcsv <0/1> 设置为 0 以禁用将时间步长输出到 CSV 第二列默认为 1
-headercsv <0/1> 设置为0禁用标题进入CSV,默认为1
u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d
-htkoutput <filename> 输出特性概要(函数)到 HTK 格式文件
3.2在Python中的使用
3.2.1 单个音频文件的LLD特征提取
1\。设置 OpenSmile 路径
2\。选择并设置要使用的配置文件
3\。通过系统命令提取相关特征
导入我们
infilename u003d 'Ses01F_impro01_F002.wav'
输出文件名 u003d 'Ses01F_impro01_F002.csv'
#设置 OpenSmile 路径
exe_opensmile u003d 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'
#选择并设置要使用的配置文件
路径_config u003d 'D:/opensmile-2.3.0/config/ComParE_2016.conf'
#设置系统命令
opensmile_options u003d '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'
输出选项 u003d '-lldcsv 输出'
opensmile_call u003dexe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption + ' ' + outfilename
#实现
os.system(opensmile_call)
3.2.2 批处理
导入我们
from multiprocessing.dummy import Pool as ThreadPool
在此处设置您的 opensmile 提取器和路径
exe_opensmile u003d 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'
路径_config u003d 'D:/opensmile-2.3.0/config/ComParE_2016.conf'
在这里设置你的数据路径和输出路径
数据_path u003d "E:/Dataset/IEMOCAP_full_release/allwave"
save\path u003d './audio_ features_ ComParE 2016/' # 输出文件夹
提取器设置
opensmile_options u003d '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'
输出选项 u003d '-lldcsv 输出'
def 特征_extract(fn):
infilename u003d addr_files + '/'+fn
instname u003d os.path.splitext(fn)[0]
outfilename u003d save_path + '/' + instname + '.csv'
opensmile_call u003d exe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption \
- ' ' + outfilename + ' -instname ' + instname + ' -output ?'
os.system(opensmile_call)
对于 os.walk(data_path) 中的根目录、目录、文件:
对于目录中的目录:
文件 u003d os.listdir(data_path+'/'+dir)
addr_filesu003ddata_path+'/'+目录
池 u003d 线程池()
pool.map(功能_extract,文件)
池.close()
池.join()
4.简介(提供各种功能集)
4.1 情感分析功能集
4.2详细介绍
1.IS09_emotion.conf
出现在 CSV 文件中的 16 个低级描述符 (LLD) 的名称:
- pcm_rmsenergy信号帧的RMS能量
2.mfcc#梅尔频率倒谱系数1-12
-
pcm_zcr#时间信号过零率(基于帧)
-
voiceProb ,由 ACF 计算出的话语概率。
-
F0 u003d 从倒谱计算的基频
下层描述符的名称后缀_sma 表示它们由窗口长度为 3 的移动平均滤波器平滑。
sma_de 后缀表示当前特征是低级描述符平滑后的一阶 delta 系数(微分)。
2. IS10_paralling.conf
出现在 CSV 文件中的 34 个低级描述符 (LLD) 的名称:
-
pcm_loudness ,归一化强度增加到0.3次方的响度
-
mfcc #梅尔频率倒谱系数0-14
-
logMelFreqBand u003d MEL 频带 0-7 中的对数功率(分布范围从 0 到 8 kHz)
-
lspFreq u003d 8 个线谱对频率,由 8 个 LPC 系数计算得出
-
F0finEnv#平滑基频轮廓
-
voicingFinalUnclipped ,最终基频候选的话语概率
四个音高相关的 LLD 名称:
-
F0final}平滑基频
-
jitterLocal(帧到帧)jitter(基音周期长度偏差)
-
Jitter DDP差分帧间抖动('Jitter of the Jitter')
-
shimmerLocal局部(帧到帧)闪烁(基音周期幅度偏差)
3.其他配置文件类似
参考:
(38条留言)opensmile介绍_qq_22237367博客-CSDN博客_opensmile
更多推荐
所有评论(0)