豆包专业版开始收费了。

字节跳动在豆包这条产品线上投入不小,从基础版到专业版,功能层级拉开了,定价体系也搭起来了。专业版里有一个方向引起了不少讨论——端侧推理能力的强化。字节把端侧推理作为专业版的一个差异化能力来推,说明他们判断这个方向有商业价值,用户愿意为"更快、更私密、更本地化"的体验付费。

这件事对整个端侧AI赛道是个正向信号。大厂用真金白银验证了端侧推理的商业可行性,比任何行业报告都有说服力。

不过端侧推理从"技术上能跑"到"商业上能赚钱",中间隔着的工程问题和商业问题比外界想象的多。我们做Mano-P端侧GUI Agent这两年,在这条路上踩了不少东西,借豆包专业版这个话题把一些观察摊开来说。

端侧推理的成本结构和云端完全不一样,这是最根本的差异。云端可以把算力摊到海量请求上,单次调用的边际成本趋近于零。端侧的算力是用户设备自己出的,厂商这边出了模型和推理框架,中间的推理执行环节没有直接成本发生。这个结构决定了端侧AI的定价逻辑跟云端API按token收费那套完全对不上。

怎么收费呢。按功能模块收,端侧推理是底层能力,不是一个独立功能,你没法把"本地推理"单独拎出来标价。按使用次数收,本地推理没有服务器成本支撑,用户会质疑收费依据。订阅制包月,用户会问跟云端模型有什么区别。

我们内部讨论过好几轮这几种方案,每种都有逻辑上绕不过去的地方。这个问题目前行业里也没有成熟参照,大家都在摸索。豆包专业版把端侧能力整合进会员体系,是一种务实的处理方式,先让用户体验到价值再说定价的事。

模型更新是端侧推理另一个绕不开的工程问题。

云端模型发现问题可以热更新,改完代码部署上去,一小时后所有用户都在跑新版本。端侧模型需要用户主动下载整个模型包。我们Mano-P的完整部署包体大概6.4GB,网络条件不好的用户可能直接跳过这次更新。我们碰到过用户来反馈说模型不好用,排查下来发现他跑的还是好几个月前的旧版本,中间我们修了好几个影响稳定性的bug,发了好几个迭代,他一个都没更新到。

这个问题在端侧场景下几乎不可避免,没办法像云端那样静默推送。更新频率也是个平衡问题,太频繁用户烦,太少用户用着旧版本的bug和性能问题体验差。

Cider是我们做的推理加速SDK,最近在Apple Neural Engine深度适配上花了不少精力。ANE的INT8计算吞吐比GPU高,但支持的算子类型有限,有些Transformer层走不了ANE通道只能回退到GPU,回退一多性能收益就打折。在M5 Pro上测到的数据是Cider W8A8 prefill比MLX的W8A16基线快约1.8倍,整体比MLX W4A16快1.4到2.2倍。这个数字从开始做适配到稳定跑出来,中间反复调了好几轮。

Cider支持W8A8和W4A8两种量化模式。W8A8是INT8对称权重加INT8 per-token激活量化,W4A8是INT4 packed权重加INT8激活。两种模式的精度损失不一样,速度收益也不一样。还有条件编译的问题,M5以上芯片走全功能路径,M4及以下只能跑纯Python回退,性能差了一截。这些工程细节是端侧推理加速的真实门槛,不是写几行量化代码就能搞定的。

说到端侧模型的实际表现,我们有一组Mano-CUA-2.0-4B在MacBook Pro M5 16GB上跑的100个真实macOS GUI任务测试数据,可以拿出来看看端侧4B模型目前能做到什么程度。

整体pass rate 56%,平均每步7.9秒。作为对比,云端通用VL模型Qwen3-VL-Plus跑同样的任务是39%通过率、每步10.2秒。4B本地模型在GUI操作任务上打赢了云端通用大模型,GUI专项微调的价值在这里体现得很明显。云端Mano-CUA跑到了83%、每步9.3秒,端侧和云端的差距还在,但方向是对的。

分难度看,A级难度25个任务4B跑到了88%,跟云端92%很接近。B级45个任务53%,C级30个任务33%。简单任务端侧和云端几乎没差别,高难度任务差距拉大。

按应用分类,WeCom/飞书/钉钉场景4B跑到83%,云端100%。浏览器操作68%,云端90%。WPS/Office 40%,跨应用20%。跨应用和Office深度操作是目前端侧模型最弱的方向。

加上Bash工具之后Mano-CUA 1.1的通过率推到了90%。有些任务纯GUI做不了,调音量用osascript,旋转图片用sips命令,设置鼠标指针大小用defaults write,系统命令补上了GUI操作的盲区。GUI加Shell的混合策略比纯GUI的上限高不少,这个思路在端侧同样适用。

端侧推理加速这个方向的玩家目前不算多。Apple的MLX框架偏底层工具链,面向开发者但不直接做应用层模型适配。llama.cpp社区在做通用CPU和GPU推理,对Apple Silicon ANE利用率还有优化空间。Cider补的是MLX原生缺失的W8A8和W4A8激活量化原语,不限于Mano-P,任何MLX模型都能用。

OSWorld专项模型排名上Mano-CUA 1.1拿到58.2%排第一,比第二名opencua-72b的45.0%高了13.2个百分点。WebRetriever Protocol I上41.7 NavEval,超过Gemini 2.5 Pro Computer Use的40.9和Claude 4.5 Computer Use的31.3。这些benchmark是在云端模型上跑的,跟端侧4B不在同一个参数量级,但方向一致——GUI专项微调在操作任务上确实比通用VL模型表现好。

硬件每迭代一次端侧能做的事情就多一层。M5的NPU规格比M4宽了不少,下一代大概率进一步放宽端侧模型的参数上限。软件适配永远滞后于硬件,模型量化和推理优化的工程投入是持续性的。

豆包专业版在这个时间点推出收费端侧能力,对整个赛道是好事。大厂验证商业可行性,开源项目提供底层技术积累,两种角色互补。我们把Mano-P和Cider都做了开源,Mano-CUA Skills面向Agent爱好者,本地模型和SDK面向高安全需求开发者,训练方法论和量化裁剪技术面向有模型训练需求的开发者,三个阶段对应三类人群。

Mano-P 开源项目:https://github.com/Mininglamp-AI/Mano-P 感兴趣的可以看看哦

Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐