logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

走,去硅谷造 AI 硬件(并卖出去)丨活动招募:Physical AI Camp 硅谷站

当 AI 看得见、听得清,并开始对真实世界做出反应时,5 月 15 日周五,趁着大家都在硅谷参加 SaaStr 大会,在湾区发起了一场开发者与创业者的聚会。这里汇聚了——涵盖多模态大模型、边缘硬件、全球网络与实时生态。这次是第一个全天的硬件&语音 AI 派对:上午探讨实时多模态 AI 和硬件的结合,下午将动手使用 Agora Skills 和 SenseCAP Watcher 从 0 到 1 部署

#人工智能
走,去硅谷造 AI 硬件(并卖出去)丨活动招募:Physical AI Camp 硅谷站

当 AI 看得见、听得清,并开始对真实世界做出反应时,5 月 15 日周五,趁着大家都在硅谷参加 SaaStr 大会,在湾区发起了一场开发者与创业者的聚会。这里汇聚了——涵盖多模态大模型、边缘硬件、全球网络与实时生态。这次是第一个全天的硬件&语音 AI 派对:上午探讨实时多模态 AI 和硬件的结合,下午将动手使用 Agora Skills 和 SenseCAP Watcher 从 0 到 1 部署

#人工智能
OpenAI Realtime API 重磅更新:锚定语音模型「深度推理+自主执行」演进路径|Voice Agent 学习笔记

在曾惊艳世界的 GPT-4o 发布两周年之际,OpenAI 通过三款全新语音模型再次定义了边界。。新模型 GPT-Realtime-2 将上下文窗口由 32K 扩容至 128K,并支持多工具同时调用,这意味着它能处理更长、更连贯、更复杂的业务逻辑,并具备了更成熟的错误恢复机制。。赋予语音模型深度推理与自主执行力,正是语音交互的下一步路径。我们翻译了包含音频示例在内的官方全文,带你深度了解这次更新。

#学习
OpenAI Realtime API 重磅更新:锚定语音模型「深度推理+自主执行」演进路径|Voice Agent 学习笔记

在曾惊艳世界的 GPT-4o 发布两周年之际,OpenAI 通过三款全新语音模型再次定义了边界。。新模型 GPT-Realtime-2 将上下文窗口由 32K 扩容至 128K,并支持多工具同时调用,这意味着它能处理更长、更连贯、更复杂的业务逻辑,并具备了更成熟的错误恢复机制。。赋予语音模型深度推理与自主执行力,正是语音交互的下一步路径。我们翻译了包含音频示例在内的官方全文,带你深度了解这次更新。

#学习
Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发;OpenAI 首款 AI 手机有望明年上半年量产丨日报

这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@koki、@鲍勃。

#人工智能#机器人
Hugging Face 发布 Reachy Mini 机器人智能体工具包,支持自然语言开发;OpenAI 首款 AI 手机有望明年上半年量产丨日报

这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@koki、@鲍勃。

#人工智能#机器人
OpenAI 重构 WebRTC:采用 Relay+Transceiver 拆分语音 AI 架构;披露 5 亿美元融资细节,ElevenLabs 收购波兰语音 AI 初创 Papla丨日报

这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@koki、@鲍勃。

#重构#webrtc#人工智能
OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也将上线

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。

文章图片
#webrtc
Sakana AI 开源 KAME 双轨语音架构,实现「边想边说」;Deepgram 正式发布对话式语音识别模型,支持多语言检测丨日报

这里是,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的」、「有亮点的」、「有思考的」、「有态度的」、「有看点的」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@koki、@鲍勃。

#人工智能#开源#架构
    共 356 条
  • 1
  • 2
  • 3
  • 36
  • 请选择