logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

做一个基于ffmpeg的AI Agent智能体

FFmpeg AI Agent:一条自然语言指令,实现一个简单音视频处理。让用户说一句:音视频的处理要求,AI Agent帮你把活给做了。实现比较简单,抛砖引玉,留下tools接口,可以无限扩展。

文章图片
#人工智能
ffmpeg8.0合入whisper,语音识别模型终于进入ffmpeg

whisper合入ffmpeg,8.0开始可能使用语音转文字的AI智能。

文章图片
#语音识别
websocket协议详解与代码实现

websocket是基于http的长链接协议。最近OpenAI的Realtime Api比较火(人工智能实时语音互动),并且与AI做语音交互的协议就是用的websocket。本文的内容:websocket协议详解; Http部分;websocket frame部分;websocket协议的C++实现;基于libuv高性能异步

文章图片
#webrtc
到底了