大家最近用各种Agent产品的体验怎么样?

有没有感觉心累,你给它整了一大堆技能,但是却经常没有命中,白安装,还经常理解错真正要它做的事情,浪费很多时间去纠正。

这种因为模型原生协作能力不足导致的断片,让很多Agent停留在了玩具阶段。

实测了MiniMax新发布的M2.7模型,终于解决了Agent的笨拙感。

内测一片好评,今天看很多粉丝群的朋友已经用上了,不愧是国内最强的Cowork Agent模型。

强的离谱,技能的命中率非常高,最重要的是它实现了AI的自进化。

Agent Harness

Agent Harness你可以理解为模型干活时用的脚手架,之前这套东西得靠程序员手动搭建,而M2.7最硬核的地方就是它能自己给自己搭架子。

官方披露了一个细节,在研发M2.7的过程中,技术团队让模型自主去优化一套软件开发的脚手架。

M2.7独立运行了100多轮分析失败轨迹、改代码、跑评测、对比结果的循环,最后它硬生生把这套系统的表现提升了30%。

它能自己写skill去自我迭代,自己卷自己,所以M2.7就会越用越好用。

国内最强Cowork模型

在平时使用中,Agent需要面对的是几十、上百个复杂的Skills。

很多模型在Skills超过一定数量后,遵循率会断崖式下跌,但M2.7在面对40个复杂Skills的极端情况下,依然实现了97%的遵循率。

不知道你玩的时候是不是也这样,看到它调用了skill,才是真的有了安全感。

所以M2.7用起来真的太爽了。

做出来的前端,这种美感是真绝了。

办公场景

不知道你们之前有没有注意过,很少会有模型在处理Office软件上非常牛。

让AI精准地编辑Word格式或者处理Excel逻辑,难如登天。

Word这种上世纪80年代的产物,有兴趣可以搜搜WPS为什么能搞得了这些办公软件,就知道有多么难搞。

M2.7针对Office场景做了特殊优化,属于是向下兼容了。

来看看M2.7给我做的word!

这是真tm太牛了!!!!

再看看做的Excel这质感!!!

确实是比绝大部分人做的好看太多了,逻辑性就不说了,肯定是比人更强了。

Agent Team&Coding

说M2.7是最强Cowork,是因为它真的能像同事一样帮你解决生产效率问题。

看日志查Bug,这都完全没问题。

当系统告警,它能自动翻日志、查数据库、定位故障原因并且直接提交修复补丁。

最近经常要下载演示的视频,有的网站视频下载非常麻烦,很多视频还是加密的,所以我想让M2.7给我完成这样一个cli工具,然后做成skill,这样以后视频丢给它下载就好了。

要求它能自己查询日志,标准输出等等,来排查错误原因,比如实际上测试某个复杂的视频网页,然后来不断迭代解析网页视频的代码,最终实现我们想要的结果。

它自动使用了计划模式来询问方案,我们实际上希望是一个非常精简可靠的cli,能嗅探真实网页的视频,肯定是要求比yt-dlp更加通用,可以看到它自己规划了验证的方案:

做一些复杂任务,一点问题没有也不太可能,中间实际上遇到了编译错误,它会继续根据错误修复代码。

完全不需要自己去操心,它都会自己解决。

角色扮演

最后聊聊情商,用的时候发现M2.7变的更有人情味了,因为它极大加强了人设保持能力。

角色扮演这个能力着重去提升,是我没有想到的,M2.7是真的知道大家想要什么。

配合OpenClaw的长期记忆,它不再是聊完就忘的复读机。

顺便说下,M2.7现在的知识库也更新了,它确实认识马嘉祺。

写在最后

现在M2.7已经让我解放双手了。

当一个模型学会了自我迭代,学会了在多轮循环中纠正自己的错误,它产生的工作效能就不再是简单的线性增长。

M2.7是一个能够自主思考、配置环境、解决问题的原生智能体。

这种只要下个指令,剩下全交给它的爽感,可能就是AI Native组织该有的样子。

是时候用起来了,M2.7。

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐