一个叫MiroMind的AI公司,在全球首个动态实时预测基准FutureX上拿了第一。

图片

老板,是陈天桥。

就是那个创办了盛大网络,后来跑去做脑科学研究的陈天桥。从网游、到人脑、再到人工智能,这位大佬好像总在琢磨未来的事。

这“未来大考”是何方神圣?

真正的智能,不光要懂过去,还应该能看到未来。

于是,字节跳动SEED团队,联合了斯坦福大学、复旦大学和普林斯顿大学的一帮顶尖学者,搞了个叫FutureX的“考场”,专门考AI预测未来的能力。

可以说,Future-X是目前衡量AI预测能力最严格、最接近真实世界的一把尺子。连马斯克(Elon Musk)都在他的社交平台X上转发了FutureX的榜单,还评论说,预测未来的能力,才是衡量智能的最佳标准。

图片

陈天桥的AI,有何独门绝技?

获得如此成绩,得益于MiroMind开源的高性能且经济高效智能体框架MiroFlow v0.2。

图片

作为MiroMind研究项目的关键组成部分,它能够将任何大型语言模型升级至OpenAI深度研究级别的能力,专注于可靠完成复杂的工具使用任务,同时还具备开源可复现、高并发高可靠性以及部署成本低等优势。

在 GAIA、HLE、xBench-DeepSearch 和 BrowserComp 等基准测试中,均取得了开源且可复现的顶尖成果。

图片

不同于商业框架或部分开源的研究项目,该框架公布的每一项指标,都能通过公开代码复现。

高并发与高可靠性是其重要亮点,框架采用强大的并发管理和容错设计,能高效应对有速率限制的API以及不稳定的网络环境,确保复杂任务轨迹的顺畅收集与可靠执行。

成本效益显著,依托开源的MiroThinker模型,仅用单块RTX 4090显卡就能运行研究智能体服务,且整个技术栈都基于免费开源工具。

MiroFlow v0.2分为前端和后端两部分。前端是简洁的 Gradio 界面,方便用户操作与交互。后端则通过多工具协作(如网页浏览器、Python 工具等)自动处理用户查询,完成多步骤网络研究,全面分析大量在线资源,最终达成任务目标,具体流程包含五个关键环节。

首先是查询增强,大型语言模型会对用户输入进行分析,明确用户意图并丰富查询细节,从而更精准地理解用户需求。其次是任务规划,主智能体依据增强后的查询内容制定详细执行计划,协调整个工作流程,涵盖调用不同工具、为子智能体分配任务以及推动任务进展等。接着是子智能体委派,对于复杂或专业性强的任务,主智能体会将部分工作委派给具备相关专业知识的子智能体(如浏览智能体),这些子智能体可自主规划和执行任务,并调用所需工具。然后是工具调用,当需要调用外部功能时,智能体会连接至 MCP(模型上下文协议)服务器,获取并使用相应的专业工具。最后是结果合成,任务完成后,系统会整合多个信息来源的结果,保证输出内容高质量,且符合用户需求或预设格式。

FutureX上目前的榜单。

图片

第一名是GPT-5,但别急,看后面的智能体框架,用的是MiroMind开发的MiroFlow Agent。

再看第四名。这个叫MiroThinker-72B-Preview的模型,同样是MiroMind开发的。

MiroMind有能力驾驭全世界最顶尖的AI模型,并把它调教到极致。自己也有能力研发出世界一流的AI模型。

他们把自己夺冠用的“驾驶系统”——MiroFlow框架,以及自研的“发动机”——MiroThinker模型,都开源了。

AI世界出现了一个新的变量。

当大多数公司还在“生成”的赛道上内卷时,MiroMind已经悄悄地在“预测”这条更艰难、但可能也更有价值的赛道上跑出了身位。

参考资料:

https://github.com/MiroMindAI/MiroFlow

https://huggingface.co/miromind-ai

https://futurex-ai.github.io/

https://miromind.ai/

https://miromind.ai/blog/miroflow

END

Logo

更多推荐