logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

腾讯投资 AI 陪伴项目 Born 融资 1500 万美元,主打社交化 AI 陪伴;朱啸虎:AI 语音与视频应用爆发在即丨日报

开发者朋友们大家好:这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@Jerry fong,@鲍勃1、小米新一代 Kaldi 团队发布 ZipV

文章图片
#人工智能
更灵活易用、延迟超低、更多情感语音支持!地表最强 Voice Agent 开源框架再进化!丨TEN Framework 更新

在 TEN 框架下,用 Node.js 构建语音助手时,你主要负责编排与业务逻辑,而无需重写 ASR/LLM/TTS。可以重用 Python 或 C++ 写的扩展模块。使用 Node.js 管道时仍然能获得低延迟和实时性能。

#开源
更灵活易用、延迟超低、更多情感语音支持!地表最强 Voice Agent 开源框架再进化!丨TEN Framework 更新

在 TEN 框架下,用 Node.js 构建语音助手时,你主要负责编排与业务逻辑,而无需重写 ASR/LLM/TTS。可以重用 Python 或 C++ 写的扩展模块。使用 Node.js 管道时仍然能获得低延迟和实时性能。

#开源
音频和视频流最佳选择?SRT 协议解析及报文识别

我们所知道 SRT 是由 Haivision 和 Wowza 开发的开源视频流协议。很多人会认为在不久的将来,它被是 RTMP 的替代品。因为 RTMP 协议安全性稍低,延迟相对较高 ,而相对于 SRT 协议支持高质量、稳定性、亚秒级延迟、强大的编解码器支持。SRT 被许多行业专家认为是视频流的新协议。SRT 究竟是什么?什么是 SRT?安全可靠传输 (SRT) 是一种开源数据传输协议。SRT 使

#音视频
上海交大开源超逼真声音克隆 TTS;微软探索音生图 AI 模型丨 RTE 开发者日报

FLUX.1-dev-LoRA-One-Click-Creative-Template 是由 Shakker Labs 提供的一个用于 文本生成图像(Text-to-Image) 的模板模型,专为创造性照片生成而设计。模型会根据你的输入提示词生成 4 张背景照片,背景部分由 4 张真实照片组成,并在其中央插入一张卡通风格的图像,作为对整个场景的总结。(@小互 AI)

文章图片
#microsoft#人工智能#实时互动
300 毫秒生成情感 AI 视频,Nuance Labs 获千万美元融资;AirPods Pro 3 将集成实时语音翻译丨日报

这可能是「全球首个 AI 会议促成者」,主打 real-time voice guidance(实时语音指导)、live resource retrieval(实时资源获取)、和 meeting pace control(会议节奏控制)。3 Times Meet 已集成 Google Workspace、Zoom、Perplexity,并在 200+ 场会议中测试。

文章图片
#人工智能#音视频
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨RTE2024 音频技术和 Voice AI 专场

在人工智能快速发展的今天,语音交互技术正经历一场革命性的变革。从语音识别到语音合成,再到端到端的语音对话系统,这一领域的创新正以前所未有的速度推进。这些进步不仅提升了技术指标,更为实时翻译、虚拟数字人、智能客服等实时互动场景带来了新的可能。本届 RTE2024 大会上,来自学界和业界的多位专家深入探讨了语音 AI 的最新进展。

文章图片
#人工智能#音视频
Typeless:能理解语音真实意图的转录工具;Chance AI:能够思考和行动的 Visual Agent丨日报

自称为世界首款 visual agent,Chance AI 的创立源于一个简单的初衷:将好奇心作为核心驱动力,利用人工智能技术,把智能手机的摄像头变成一个能够「思考和行动」的视觉助手。「好奇心镜头」的旨在帮助用户更好地理解所见之物,通过视觉识别提供有意义的解答,而非无关的干扰信息,让知识更贴近生活。

文章图片
#人工智能
    共 140 条
  • 1
  • 2
  • 3
  • 14
  • 请选择