logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用Azure OpenAI Realtime模型实现语音助理

我以官方给的WebRtc方式demo为例,实现了一个语音助手,其中包括指令设置以及tools的function使用,演示了如何触发tools指定的function,以此实现RAG以及更多功能。我们的提示词是通过它的instructions参数设置给模型的,另外它的tools参数是用来配置相关function的,需要注意的是tools目前还不支持mcp服务。在多模态大模型出现前,我们都是使用语音转文

#azure#人工智能
使用ffmpeg实现音频文件分割

在处理长音频文件的语音转文字任务时,单一文件的处理时长往往随着音频时长线性增长。为了优化整体处理效率,将大文件分割为多个小片段并采用并发处理策略能显著缩短总转换时间。这种分治方法是处理大规模音频数据的有效实践方案。对于带封装格式的音频文件比如mp3、opus、wav等,我写了一个基于ffmpeg实现的按时长进行分割的功能。文件分割方式一般有按固定时长和VAD(静音检测)检测两种,也可以将两者相结合

#语音识别#c++#音视频
linux下编译鸿蒙版boost库

我在上一篇文章中介绍了curl和openssl的编译方式(),这篇再介绍一下boost库的编译。

文章图片
#linux#harmonyos
linux下编译鸿蒙版curl、openssl

是一个用相对路径表示的统一编译安装目录,openssl和curl都会引用以及安装到这个目录下,所以要保证两个开源库使用的编译脚本中的这个相对路径指向同一目录。如果有什么问题的话,也可以自己手动改成想要的路径,两个脚本一致就行。目前我编译的全部都是静态库,如果需要编译动态库的话,还需要调整下编译脚本中的参数。具体的参数可以查看openssl和curl的编译说明。curl使用的版本是 7.81。如果中

文章图片
#harmonyos#c++
到底了