logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kokoro-TTS的C++移植(windows, linux, android)

文章到这里就结束了,希望对大家有点帮助,有任何有疑问的地方欢迎评论区交流,如果有需要Demo体验的请留言,如果使用Demo的过程种有好的建议和意见或者碰到了什么BUG也欢迎在评论去留言, 笔者下一步是把这个项目移植到android/openharmony+rk芯片上面并且采用rknn推理,应该会有不错的结果吧(rk3566/rk3568NPU有0.8TOPS的算力,rk3576/rk3588NPU

文章图片
#c++#python#nlp +1
实时音频通话过程中AI降噪的实现(windows/Android)

本文探讨了实时音频通话中3A算法(AEC、ANS、AGC)的重要性,并针对WebRTC原生3A算法在特定场景下的不足,提出了基于开源项目DFSMN-ANS和RNNoise的优化方案。作者详细介绍了将这两个项目集成到音视频SDK的过程,包括算法移植、推理框架适配(支持ONNX、NCNN、RKNN)以及灵活的接口设计。通过性能测试显示,优化后的方案在啸叫抑制和噪声消除方面表现优异,尤其在处理突发性噪声

文章图片
#音视频#人工智能
Kokoro-TTS的C++移植(windows, linux, android)

文章到这里就结束了,希望对大家有点帮助,有任何有疑问的地方欢迎评论区交流,如果有需要Demo体验的请留言,如果使用Demo的过程种有好的建议和意见或者碰到了什么BUG也欢迎在评论去留言, 笔者下一步是把这个项目移植到android/openharmony+rk芯片上面并且采用rknn推理,应该会有不错的结果吧(rk3566/rk3568NPU有0.8TOPS的算力,rk3576/rk3588NPU

文章图片
#c++#python#nlp +1
Openharmony4.0上WebRTC的移植

自此我们就完成了WebRTC c/c++库在Openharmony4.0上的移植,从实际的工作量来看完成功能的移植和性能的优化时间各占用了一半,而其中功能的移植需要大家对webrtc代码有足够的了解和熟悉(尤其需要对摄像头管理和数据的采集,编解码器,图形渲染,音频的采集和播放这几个模块代码的深入理解),以及对Openharmony系统提供的多媒体api熟练的使用,这部分工作完成了就可以满足大部分的

文章图片
#webrtc#实时音视频
Openharmony4.0摄像头采集+编码器+预览的优化

在实时音视频场景下,终端上面的摄像头除了需要本地预览之外,还需同时经过编码器编码成ES流再通过网络发送出去,而在一些嵌入式设备上面性能是一个瓶颈(终端的售价决定了硬件的配置,硬件的配置决定的性能),音视频应用程序除了要显示本地摄像头图像和编码摄像头数据之外,还要做比如远端图像的解码显示,音频3A的处理,音频的采集和播放等,这就要求我们对每一个可优化的功能模块进行仔细的研究、分析、优化,以达到在音视

文章图片
#实时音视频#c++
Openharmony4.0上WebRTC的移植

自此我们就完成了WebRTC c/c++库在Openharmony4.0上的移植,从实际的工作量来看完成功能的移植和性能的优化时间各占用了一半,而其中功能的移植需要大家对webrtc代码有足够的了解和熟悉(尤其需要对摄像头管理和数据的采集,编解码器,图形渲染,音频的采集和播放这几个模块代码的深入理解),以及对Openharmony系统提供的多媒体api熟练的使用,这部分工作完成了就可以满足大部分的

文章图片
#webrtc#实时音视频
到底了