logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenAI 正为 Codex 内测实时语音模式,前台连麦与后台写代码分离;谷歌 I/O 2026 倒计时:20 日凌晨 1 点开幕丨日报

用户通过语音下达复杂编程任务后,前台会调用代号为 gpt-realtime-1.5 的语音模型,通过 WebRTC 实时与用户沟通进度,而真正的文件修改、代码生成和测试则交由后台另一套更大的模型静默完成。用户体验上,它更像**「视频版的对话式工作流」**:你录一次,就能自动得到视频和文档,再通过聊天式编辑精细调整,让修改体验接近在写文档而不是在剪辑视频。:支持上下装分离替换及整套服装更换,在保持

#人工智能
Meta AI 推出全语种语音识别系统,支持 1600+语言;谢赛宁、李飞飞、LeCun 联手发布「空间超感知」AI 框架丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

#人工智能#语音识别
马斯克:Grok 正在开发语音交互功能;阶跃星辰开源产品级语音交互大模型 Step-Audio 丨日报

Grok3 采用了深度学习和强化学习相结合的方法。通过深度学习,模型能够从大量数据中提取特征和模式。强化学习使 Grok3 能够在训练过程中不断调整自身的策略,以获得更高的奖励信号。在推理任务中,Grok3 通过多次尝试和验证,不断优化自身的推理路径,从而找到最优解。Grok3 的深度搜索功能是其架构中的另一个重要模块,够快速检索和验证信息,为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最

文章图片
#人工智能
告别「一来一往」式对话,Soul App 全双工语音大模型让人机交互更有人情味丨社区来稿

近日,社区伙伴 Soul 分享了最新的全双工语音通话大模型,备受开发者们的关注。这篇文章进一步分享了背后双 LLMs 的结构细节。具体而言,SoulX-DuoVoice 包含一个负责对话理解与生成的 Dialogue Model 和一个负责语音生成的 Speech Model。同时还通过「说话时机」和「沉默持续时间」建模,打造了一个会主动打断、沉默的语音通话智能体模型。2025 年主动式语音 AI

文章图片
#人机交互#人工智能
Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考​。

#开源
OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也将上线

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

文章图片
#webrtc
路透社:2026 年将迎来智能体语音交互爆发;Traini 融资 5000 万元:解析宠物叫声与行为,实现人犬实时对话丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

#宠物#人工智能
从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记

最近看到 Andrew Ng 的一句话让我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(尽管 AI 中有些领域被过度炒作,语音应用却似乎被低估了)。的确,在大模型、大生成的热潮中,Voice Agent 这一领域相比之下略显低调,但背后的技术变革与落地潜力正在悄

文章图片
#语音识别#交互#学习
    共 366 条
  • 1
  • 2
  • 3
  • 37
  • 请选择