logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Zyphra 开源 8B MoE 实时语音合成模型,600 万小时训练;MuteVox 消音口罩:AI+物理双降噪,耳语级语音识别丨日报

在训练和推理中,模型不使用自身的历史预测作为输入,仅引入噪声,且在单次并行前向传播中生成完整序列,避免了传统教师强制训练方法在面对非预期输入时的混淆。:系统在时刻接收演奏输入时,利用时刻的历史数据预测并生成时刻的伴奏。:采用基于 MoE++ 的稀疏混合专家架构,通过移除对无分类器指导的依赖,在总参数量从 1.6B 提升至 8B 的情况下,将实时吞吐量提高了 4 倍。采用全新的三阶段训练策略(宽泛过

文章图片
#人工智能
OpenAI 情人节正式关停 GPT-4o,引发大规模用户抗议;AI 社交应用 Elys 一夜爆红,已融资 2 亿元丨日报

AI 原生即时通讯社交平台 Teamily AI 正式上线。该平台打破了传统的单人助手模式,

#人工智能#语音识别
Gemini 发布 Embedding 2 原生多模态嵌入模型,支持跨媒体语义理解与检索;复旦等团队推出声音理解基准丨日报

允许用户自定义知识图谱的深入程度、内容难度分级。以及个性化偏好权重,实现学习路径的动态生成。

Qwen3.5-Omni上线,支持10小时音频输入、语义打断和音视频剧本级描述;Mistral融资8.3亿美元建设数据中心丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考。

#音视频
OpenAI Realtime API 重磅更新:锚定语音模型「深度推理+自主执行」演进路径|Voice Agent 学习笔记

在曾惊艳世界的 GPT-4o 发布两周年之际,OpenAI 通过三款全新语音模型再次定义了边界。。新模型 GPT-Realtime-2 将上下文窗口由 32K 扩容至 128K,并支持多工具同时调用,这意味着它能处理更长、更连贯、更复杂的业务逻辑,并具备了更成熟的错误恢复机制。。赋予语音模型深度推理与自主执行力,正是语音交互的下一步路径。我们翻译了包含音频示例在内的官方全文,带你深度了解这次更新。

#学习
路透社:2026 年将迎来智能体语音交互爆发;Traini 融资 5000 万元:解析宠物叫声与行为,实现人犬实时对话丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示:个人观点,仅供参考。

#宠物#人工智能
Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发;OpenAI 首款 AI 手机有望明年上半年量产丨日报

这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@koki、@鲍勃。

#人工智能#机器人
    共 334 条
  • 1
  • 2
  • 3
  • 34
  • 请选择