logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ruflo:把 100 个 AI Agent 变成一支协作团队,GitHub 已超 4 万星

本文核心结论:Ruflo(前身为 Claude Flow)是目前多智能体协作领域架构最完整、工程化程度最高的开源项目之一。它的核心不是让一个 AI 变得更强,而是把几十乃至上百个专业化 Agent 组织成一支可以自我协作、自我学习、跨机器安全通信的「AI 团队」。

文章图片
#人工智能#github
谷歌 Gemini Omni 深度解析:原生视频模型的技术突破与行业影响

另一个演示同样令人印象深刻:原始视频中的主体是意大利面,用户只需说一句"把意大利面换成奶油浓汤",Omni 便能完成替换,并且自动适配替换物体所需的光影关系、遮挡层次,以及与周围场景的融合——这不是简单的抠图或滤镜,而是对整个场景语义的重新理解和局部生成。在泄露的演示中,用户将一段带有 Sora 水印的视频上传至 Gemini 对话框,然后用一句话告诉模型"去掉水印",Omni 就能在几乎毫无破绽

文章图片
#音视频#人工智能
谷歌 Gemini Omni 深度解析:原生视频模型的技术突破与行业影响

另一个演示同样令人印象深刻:原始视频中的主体是意大利面,用户只需说一句"把意大利面换成奶油浓汤",Omni 便能完成替换,并且自动适配替换物体所需的光影关系、遮挡层次,以及与周围场景的融合——这不是简单的抠图或滤镜,而是对整个场景语义的重新理解和局部生成。在泄露的演示中,用户将一段带有 Sora 水印的视频上传至 Gemini 对话框,然后用一句话告诉模型"去掉水印",Omni 就能在几乎毫无破绽

文章图片
#音视频#人工智能
语音 AI 的真正转折点:深度解析 OpenAI 三大实时音频模型 GPT-Realtime-2、Realtime-Translate 与 Realtime-Whisper

🔑核心结论(建议先读这部分)(首款搭载 GPT-5 级推理能力的语音模型,上下文窗口从 3.2 万扩至 12.8 万 token)、(支持 70+ 种语言输入、13 种语言输出的端到端实时翻译模型)、(低延迟流式语音转文字模型,边说边转)。三款模型均已通过 OpenAI Realtime API 上线,支持 WebSocket 和 WebRTC 两种接入方式。GPT-Realtime-2 按 t

文章图片
#人工智能#音视频
Ruflo:把 100 个 AI Agent 变成一支协作团队,GitHub 已超 4 万星

本文核心结论:Ruflo(前身为 Claude Flow)是目前多智能体协作领域架构最完整、工程化程度最高的开源项目之一。它的核心不是让一个 AI 变得更强,而是把几十乃至上百个专业化 Agent 组织成一支可以自我协作、自我学习、跨机器安全通信的「AI 团队」。

文章图片
#人工智能#github
AI 写代码写到一半就“失忆“?这个开源工具给它装上了永不丢失的项目经理大脑

Beads 是一个专为 AI 编程助手(如 Claude Code、Codex)设计的开源任务追踪系统,底层由版本控制 SQL 数据库 Dolt 驱动,能让多个 AI Agent 协同处理复杂项目时不丢失上下文、不产生任务冲突。它的 GitHub 地址为,官方文档见,目前 Star 数已超过 22,000。关键信息速览:它解决了什么问题?多 Agent 并行工作时,任务上下文频繁丢失、优先级混乱、

文章图片
#人工智能#开源
GPT-5.5 震撼登场:首次完整重训基座,终端编程得分 82.7% 碾压 Opus 4.7,还顺手证了一个数学定理

核心结论(30秒版):GPT-5.5(代号 Spud)于 2026 年 4 月 23 日正式发布,是 OpenAI 自 GPT-4.5 以来首次完整重训的基座模型。它在终端智能体编程基准 Terminal-Bench 2.0 上以 82.7% 的成绩创下新纪录,大幅领先 Claude Opus 4.7(69.4%);在知识型工作测试 GDPval(涵盖 44 个职业场景)中以 84.9% 位居第一

文章图片
挖到一个 4.3K Star 的开源字幕神器!本地跑,不上传,支持说话人分色,剪视频的人看完都沉默了

AutoSubs 是一款完全开源、在本地电脑上运行的 AI 字幕生成工具,不依赖任何云服务,不需要订阅账号。它基于 Tauri + Rust + React 架构构建,内置 Whisper、Parakeet、Moonshine 三大主流语音识别模型,同时集成 Pyannote 做说话人分离。核心能力:一键把音视频转成高精度字幕,自动识别不同说话人并上色,支持翻译成英文,可独立运行也可以与 DaVi

文章图片
#开源#音视频
和AI打电话终于不别扭了!字节Seeduplex全双工语音模型拆解:它是怎么做到“边听边说“的?

从Seeduplex的发布可以看出,AI语音交互正在经历一次底层架构的范式转换——从"回合制"走向"实时制",从"对讲机模式"走向"电话模式"。这不仅仅是一个技术指标的提升,而是交互范式本身的改变。对于开发者和技术从业者来说,全双工语音模型带来的不只是更好的用户体验,还有全新的应用场景和产品设计空间。当AI能够像真人一样"边听边说",很多之前受限于半双工模式而无法实现的交互形态都变得可能了。而对于

文章图片
#人工智能#语音识别
SkillHub 深度拆解:团队私有化 AI 技能包管理平台,从架构原理到部署实操全攻略

AI 工程化正在从"会用 AI"走向"管好 AI"。当团队把越来越多的核心工作流封装成技能包时,管理这些技能的基础设施就变得和管理代码一样重要。代码有 Git,容器有 Registry,AI 技能包也应该有自己的管理平台。SkillHub 作为这个方向上目前较为完善的开源方案之一,值得关注。项目目前仍在活跃开发中,如果你在使用过程中遇到问题,可以到 GitHub 仓库提 Issue;如果有开发能力

文章图片
#人工智能#架构
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择