1.下载并安装opensmile

从官网下载:openSMILE - audEERING

windows下解压即可使用

2.使用opensmile

提取声音信号的各种音频特征,主要是低级描述符(llds)

3.使用opensmile

3.1 Windows下直接使用

运行以命令行形式提取音频特征。

1首先切换到处理文件smilexract_Release。 exe目录

2 复用声明:

SMILExtract_Release -C 配置文件 -I“要处理的音频” -O“要保存的特征向量的路径和文件名”

---->控制输出数据格式(参数)

\u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-instname <string> 通常输入文件的名称保存在 CSV 和 ARFF 输出的第一列。默认为“未知”

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-lldcsvoutput, -D <filename> 启动 LLD 帧输出到 CSV 格式文件

-appendcsvlld <0/1> 设置为 1 添加到现有的 CSV 文件末尾,默认覆盖 0

-timestampcsvlld <0/1> 设置为 0 以禁用将时间步长输出到 CSV 第二列默认为 1

-headercsvlld <0/1> 设置为0禁用标题进入CSV,默认为1

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-lldhtkoutput <filename> 启动LLD帧输出到HTK格式文件

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-lldarffoutput, -D <filename> 启动 LLD 帧输出到 ARFF 格式文件

-appendarfflld <0/1> 设置为1添加到现有的ARFF文件末尾,默认覆盖0

-timestamparfflld <0/1> 设置为 0 禁用时间步输出到 ARFF 第二列默认为 1

-lldarfftargetsfile <file> 指定的配置包含定义目标域(类)的文档。默认为:shared/arff_targets_conf.inc

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-output, -O <filename> 默认输出选项。 ARFF 格式,存储特性总结

-appendarff <0/1> 设置为0不添加到现有的ARFF文档末尾,默认添加1

-timestamparff <0/1> 设置为1,将时间步输出到ARFF 第二列默认为0

-arfftargetsfile <file>指定的配置包含定义目标域(类)的文档。默认为:shared/arff_targets_conf.inc

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-csvoutput <文件名> 默认输出选项。 CSV 格式,存储功能总结

-appendcsv <0/1> 设置为0不添加到现有的CSV文件末尾,默认为1

-timestampcsv <0/1> 设置为 0 以禁用将时间步长输出到 CSV 第二列默认为 1

-headercsv <0/1> 设置为0禁用标题进入CSV,默认为1

u003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003du003d

-htkoutput <filename> 输出特性概要(函数)到 HTK 格式文件

3.2在Python中的使用

3.2.1 单个音频文件的LLD特征提取

1\。设置 OpenSmile 路径

2\。选择并设置要使用的配置文件

3\。通过系统命令提取相关特征

导入我们

infilename u003d 'Ses01F_impro01_F002.wav'

输出文件名 u003d 'Ses01F_impro01_F002.csv'

#设置 OpenSmile 路径

exe_opensmile u003d 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'

#选择并设置要使用的配置文件

路径_config u003d 'D:/opensmile-2.3.0/config/ComParE_2016.conf'

#设置系统命令

opensmile_options u003d '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'

输出选项 u003d '-lldcsv 输出'

opensmile_call u003dexe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption + ' ' + outfilename

#实现

os.system(opensmile_call)

3.2.2 批处理

导入我们

from multiprocessing.dummy import Pool as ThreadPool

在此处设置您的 opensmile 提取器和路径

exe_opensmile u003d 'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release'

路径_config u003d 'D:/opensmile-2.3.0/config/ComParE_2016.conf'

在这里设置你的数据路径和输出路径

数据_path u003d "E:/Dataset/IEMOCAP_full_release/allwave"

save\path u003d './audio_ features_ ComParE 2016/' # 输出文件夹

提取器设置

opensmile_options u003d '-configfile ' + path_config + ' -appendcsvlld 0 -timestampcsvlld 1 -headercsvlld 1'

输出选项 u003d '-lldcsv 输出'

def 特征_extract(fn):

infilename u003d addr_files + '/'+fn

instname u003d os.path.splitext(fn)[0]

outfilename u003d save_path + '/' + instname + '.csv'

opensmile_call u003d exe_opensmile + ' ' + opensmile_options + ' -inputfile ' + infilename + ' ' + outputoption \

  • ' ' + outfilename + ' -instname ' + instname + ' -output ?'

os.system(opensmile_call)

对于 os.walk(data_path) 中的根目录、目录、文件:

对于目录中的目录:

文件 u003d os.listdir(data_path+'/'+dir)

addr_filesu003ddata_path+'/'+目录

池 u003d 线程池()

pool.map(功能_extract,文件)

池.close()

池.join()

4.简介(提供各种功能集)

4.1 情感分析功能集

4.2详细介绍

1.IS09_emotion.conf

出现在 CSV 文件中的 16 个低级描述符 (LLD) 的名称:

  1. pcm_rmsenergy信号帧的RMS能量

2.mfcc#梅尔频率倒谱系数1-12

  1. pcm_zcr#时间信号过零率(基于帧)

  2. voiceProb ,由 ACF 计算出的话语概率。

  3. F0 u003d 从倒谱计算的基频

下层描述符的名称后缀_sma 表示它们由窗口长度为 3 的移动平均滤波器平滑。

sma_de 后缀表示当前特征是低级描述符平滑后的一阶 delta 系数(微分)。

2. IS10_paralling.conf

出现在 CSV 文件中的 34 个低级描述符 (LLD) 的名称:

  1. pcm_loudness ,归一化强度增加到0.3次方的响度

  2. mfcc #梅尔频率倒谱系数0-14

  3. logMelFreqBand u003d MEL 频带 0-7 中的对数功率(分布范围从 0 到 8 kHz)

  4. lspFreq u003d 8 个线谱对频率,由 8 个 LPC 系数计算得出

  5. F0finEnv#平滑基频轮廓

  6. voicingFinalUnclipped ,最终基频候选的话语概率

四个音高相关的 LLD 名称:

  1. F0final}平滑基频

  2. jitterLocal(帧到帧)jitter(基音周期长度偏差)

  3. Jitter DDP差分帧间抖动('Jitter of the Jitter')

  4. shimmerLocal局部(帧到帧)闪烁(基音周期幅度偏差)

3.其他配置文件类似

参考:

(38条留言)opensmile介绍_qq_22237367博客-CSDN博客_opensmile

Logo

学AI,认准AI Studio!GPU算力,限时免费领,邀请好友解锁更多惊喜福利 >>>

更多推荐