logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3-TTS 系列开源;谷歌收编语音 AI 初创 Hume AI;曝 vivo 叫停 AI 眼镜项目丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点,仅供参考​。

文章图片
#人工智能#开源#microsoft
2 行代码,15 分钟部署对话式 AI Agent!丨社区来稿

基于开源框架 TEN Framework 构建,声网近日推出了最新的对话式 AI 引擎。这是一个「开箱即用」的对话式 AI 部署解决方案。2 行代码,15 分钟,即使像 DeepSeek 这样的文本大模型也能快速转变为对话式多模态大模型,具备能说会道的能力。通过官方 demo 网站,你可以体验到智能助手、情感陪伴、口语陪练、智能客服等多种对话式 AI 的使用场景。

文章图片
#人工智能
微软开源 VibeVoice-ASR 模型,支持一小时长音频处理;苹果首款 AI 设备:AirTag 尺寸胸针,双摄三麦 丨日报

Microsoft 发布「VibeVoice-ASR」语音识别模型,突破了传统 ASR 依赖短音频切片的限制,支持单次处理长达 60 分钟的连续音频。该模型通过 64K token 上下文窗口,在单一推理过程中联合完成识别、说话人日志与时间戳生成。

#microsoft#开源#音视频
Meta AI 推出全语种语音识别系统,支持 1600+语言;谢赛宁、李飞飞、LeCun 联手发布「空间超感知」AI 框架丨日报

我们欢迎更多的小伙伴参与**「RTE 开发者日报」**内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

#人工智能#语音识别
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

Ebaad:这个转折很好。我正在开发一个叫talktoapps.com的东西。就像它的名字一样。基本上你可以用自然语言与你喜欢的应用进行交互。可以是文字,也可以是语音。两者都可以。基本上你可以做的是,不用点击上百次,你可以说一些很抽象的话,比如"删除我周三的所有会议",而不是去点来点去。它会理解这些,或者创建一个会议并分配给Vela,或邀请Vela,或分配给某个人,而不是去找他们。通过点击。所以是

文章图片
#人工智能#人机交互#语音识别
    共 261 条
  • 1
  • 2
  • 3
  • 27
  • 请选择