logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Voice Agent Camp 结营!完整项目名单公布丨超音速计划 2025

在过去的三个月里,17 个 Voice Agent 项目在超音速 Voice Agent Camp 里碰撞、打磨、成长。共同围绕「Voice First」理念,打造 AI 陪伴、个人助理、企业客服、AI 语音智能硬件等下一代产品。9 月 22 日,营员们带着阶段性的成果亮相 Demo Day,共同勾勒语音实时互动的未来图景。

文章图片
#实时音视频
Agora Python SDK:如何实现一对一视频中的人脸识别

近两年,Python在众多编程语言中的热度一直稳居前五,热门程度可见一斑。Python 拥有很活跃的社区和丰富的第三方库,Web 框架、爬虫框架、数据分析框架、机器学习框架等。良好的开源...

#人脸识别#数据库#python +2
手把手 Golang 实现静态图像与视频流人脸识别

说起人脸识别,大家首先想到的实现方式应该是 Python 去做相关的处理,因为相关的机器学习框架,库都已经封装得比较好了。但是我们今天讨论的实现方式换成 Golang,利用 Golang 去做静态图像和视频流人脸识别的相应处理。静态图像人脸识别首先我们来进行静态的人脸识别,Golang 这边相较于 Python 社区来说相对少一些,不过依然有一些优秀的库可以供我们使用。今天我们用到的就是 go-f

#音视频#人脸识别
Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻​。

文章图片
#架构
Qwen3-Omni发布:端到端全模态Thinker-Talker架构;Meta真实世界智能体基准Kimi K2开源最佳|日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻​。

文章图片
#架构
音视频同步!RTCP 协议解析及代码实现

RTCP 是实时控制协议(Real-Time Control Protocol)的缩写。RTCP 由 RFC 3550 定义(取代作废的 RFC 1889)。实时传输协议(RTP)和实时控制协议(RTCP)结合使用,可以监视大型多播网络的数据传递。RTP 承载媒体流,而 RTCP 用于监视传输统计信息和服务质量。监视使接收器能够检测是否有任何丢包并补偿任何延迟抖动。两种协议都独立于基础传输层协议和

#音视频#wireshark
保姆级教程!基于声网 Web SDK实现音视频通话及屏幕共享

大家好,我是 @小曾同学,小伙伴们也可以叫我小曾~如果你想实现一对一音视频通话和屏幕共享功能,不妨来看看这篇文章,保姆级教程,不需要从零实现,直接集成声网 SDK 即可轻松上手。本文也分享了我在实践过程中遇到的一些问题,帮助小伙伴们避坑。如果文章知识点有错误的地方,还请大家指正,让我们一起学习,一起进步~声网提供了各端丰富的音视频 SDK,本文将要使用的是 Web 端 SDK。

文章图片
#前端#音视频#javascript
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

你估计刷到过上面这个视频,两个 AI 最初用人类自然语言交流,在确认彼此身份后,立刻切换到「哔哔哔哔」这种机器专属的 GGWave 通信方式。这个爆火全网的视频,就诞生于我们今天要介绍的 ElevenLabs Hackathon。炙手可热的语音 AI 公司 ElevenLabs,凭借 30 亿美元的估值,在全球范围内掀起一股语音技术浪潮。其发起的语音 Hackathon 吸引了众多开发者踊跃参与,

文章图片
#人工智能
    共 178 条
  • 1
  • 2
  • 3
  • 18
  • 请选择