声网个人主页

@agora_cloud

声网

2023-03-20 15:18:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

OpenAI 即将推出 AI 浏览器；Perplexity 发布 AI 浏览器 Comet，语音操控网页丨日报

我们欢迎更多的小伙伴参与。

#人工智能

从语音识别到智能助手：Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记

最近看到 Andrew Ng 的一句话让我印象深刻：“While some things in AI are overhyped, voice applications seem underhyped right now.”（尽管 AI 中有些领域被过度炒作，语音应用却似乎被低估了）。的确，在大模型、大生成的热潮中，Voice Agent 这一领域相比之下略显低调，但背后的技术变革与落地潜力正在悄

#语音识别 #交互 #学习

谷歌重新定位 Gemini AI ：超越对话，让 AI贯穿系统且主动；Nexa AI 发布 NPU x 端侧 AI 方案丨日报

我们欢迎更多的小伙伴参与。

#人工智能

ElevenLabs 估值翻倍至 66 亿美元；B 站开源 IndexTTS2；通义推出 Qwen3-ASR-Flash丨日报

我们欢迎更多的小伙伴参与。

#人工智能

300 毫秒生成情感 AI 视频，Nuance Labs 获千万美元融资；AirPods Pro 3 将集成实时语音翻译丨日报

这可能是「全球首个 AI 会议促成者」，主打 real-time voice guidance（实时语音指导）、live resource retrieval（实时资源获取）、和 meeting pace control（会议节奏控制）。3 Times Meet 已集成 Google Workspace、Zoom、Perplexity，并在 200+ 场会议中测试。

#人工智能 #音视频

见证语音领域 GPT-3 时刻！小米开源端到端语音模型 MiMo Audio；Xbox上线游戏助手，实时游戏理解+语音交互丨日报

（需关闭文本正则选项，中文为拼音，英文为 ARPAbet）

#gpt-3 #开源 #xbox

无声语音识别新突破，基于超声波舌部成像实现；Kyutai 联合 Epic 推出多人实时交互世界模型丨日报

在 50 小时的专用数据集训练下，系统跨说话人验证集的字错率降至 15.6%（从 1.5 万样本时的 102% 降至 5 万样本时的 15.6%），表现逼近基于 100 万小时数据集训练的唇读技术（12.5% 字错率），大幅超越同类超声波基准（TaL 数据集上的 83.8% 字错率）。自己推荐的信源、项目、话题、活动等；评估时，通过游戏状态探针直接从模型激活值中逆向读取车辆与球的位置、速度，并结合

#语音识别 #人工智能

NVIDIA 开源 Audio2Face：音频生成逼真面部动画；Gemini Live API 支持思考能力丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

#开源 #音视频 #microsoft

OpenAI 发布 gpt-realtime-mini，成本降低 70%；Deepgram 发布转录和轮次检测融合 api丨日报

AI智能体开发！和Kiro、Kimi、PPIO、TEN、memU、MiniMax一起Vibe丨Convo AI&RTE2025

除了本场论坛，你还可以在 10 月 31 日-11 月 1 日，逛遍 7 场技术论坛和 40 多场主题分享和圆桌讨论，一起来探索对话式 AI、Voice Agent、多模态 AI……如何赋能 AI 开发者，高效、稳定地构建下一代应用？又该如何设计新的协同模式，实现人机能力的最佳融合。来 Convo AI & RTE2025 「开发者工具专场」，加入我们的讨论，一同提问，一同寻找答案。将聚焦前沿工具

#人工智能

共 373 条

请选择