豆包专业版收费之后，端侧AI的商业化账本该怎么算

Mininglamp_2718

165人浏览 · 2026-06-25 15:01:58

Mininglamp_2718 · 2026-06-25 15:01:58 发布

豆包专业版开始收费了。

字节跳动在豆包这条产品线上投入不小，从基础版到专业版，功能层级拉开了，定价体系也搭起来了。专业版里有一个方向引起了不少讨论——端侧推理能力的强化。字节把端侧推理作为专业版的一个差异化能力来推，说明他们判断这个方向有商业价值，用户愿意为"更快、更私密、更本地化"的体验付费。

这件事对整个端侧AI赛道是个正向信号。大厂用真金白银验证了端侧推理的商业可行性，比任何行业报告都有说服力。

不过端侧推理从"技术上能跑"到"商业上能赚钱"，中间隔着的工程问题和商业问题比外界想象的多。我们做Mano-P端侧GUI Agent这两年，在这条路上踩了不少东西，借豆包专业版这个话题把一些观察摊开来说。

端侧推理的成本结构和云端完全不一样，这是最根本的差异。云端可以把算力摊到海量请求上，单次调用的边际成本趋近于零。端侧的算力是用户设备自己出的，厂商这边出了模型和推理框架，中间的推理执行环节没有直接成本发生。这个结构决定了端侧AI的定价逻辑跟云端API按token收费那套完全对不上。

怎么收费呢。按功能模块收，端侧推理是底层能力，不是一个独立功能，你没法把"本地推理"单独拎出来标价。按使用次数收，本地推理没有服务器成本支撑，用户会质疑收费依据。订阅制包月，用户会问跟云端模型有什么区别。

我们内部讨论过好几轮这几种方案，每种都有逻辑上绕不过去的地方。这个问题目前行业里也没有成熟参照，大家都在摸索。豆包专业版把端侧能力整合进会员体系，是一种务实的处理方式，先让用户体验到价值再说定价的事。

模型更新是端侧推理另一个绕不开的工程问题。

云端模型发现问题可以热更新，改完代码部署上去，一小时后所有用户都在跑新版本。端侧模型需要用户主动下载整个模型包。我们Mano-P的完整部署包体大概6.4GB，网络条件不好的用户可能直接跳过这次更新。我们碰到过用户来反馈说模型不好用，排查下来发现他跑的还是好几个月前的旧版本，中间我们修了好几个影响稳定性的bug，发了好几个迭代，他一个都没更新到。

这个问题在端侧场景下几乎不可避免，没办法像云端那样静默推送。更新频率也是个平衡问题，太频繁用户烦，太少用户用着旧版本的bug和性能问题体验差。

Cider是我们做的推理加速SDK，最近在Apple Neural Engine深度适配上花了不少精力。ANE的INT8计算吞吐比GPU高，但支持的算子类型有限，有些Transformer层走不了ANE通道只能回退到GPU，回退一多性能收益就打折。在M5 Pro上测到的数据是Cider W8A8 prefill比MLX的W8A16基线快约1.8倍，整体比MLX W4A16快1.4到2.2倍。这个数字从开始做适配到稳定跑出来，中间反复调了好几轮。

Cider支持W8A8和W4A8两种量化模式。W8A8是INT8对称权重加INT8 per-token激活量化，W4A8是INT4 packed权重加INT8激活。两种模式的精度损失不一样，速度收益也不一样。还有条件编译的问题，M5以上芯片走全功能路径，M4及以下只能跑纯Python回退，性能差了一截。这些工程细节是端侧推理加速的真实门槛，不是写几行量化代码就能搞定的。

说到端侧模型的实际表现，我们有一组Mano-CUA-2.0-4B在MacBook Pro M5 16GB上跑的100个真实macOS GUI任务测试数据，可以拿出来看看端侧4B模型目前能做到什么程度。

整体pass rate 56%，平均每步7.9秒。作为对比，云端通用VL模型Qwen3-VL-Plus跑同样的任务是39%通过率、每步10.2秒。4B本地模型在GUI操作任务上打赢了云端通用大模型，GUI专项微调的价值在这里体现得很明显。云端Mano-CUA跑到了83%、每步9.3秒，端侧和云端的差距还在，但方向是对的。

分难度看，A级难度25个任务4B跑到了88%，跟云端92%很接近。B级45个任务53%，C级30个任务33%。简单任务端侧和云端几乎没差别，高难度任务差距拉大。

按应用分类，WeCom/飞书/钉钉场景4B跑到83%，云端100%。浏览器操作68%，云端90%。WPS/Office 40%，跨应用20%。跨应用和Office深度操作是目前端侧模型最弱的方向。

加上Bash工具之后Mano-CUA 1.1的通过率推到了90%。有些任务纯GUI做不了，调音量用osascript，旋转图片用sips命令，设置鼠标指针大小用defaults write，系统命令补上了GUI操作的盲区。GUI加Shell的混合策略比纯GUI的上限高不少，这个思路在端侧同样适用。

端侧推理加速这个方向的玩家目前不算多。Apple的MLX框架偏底层工具链，面向开发者但不直接做应用层模型适配。llama.cpp社区在做通用CPU和GPU推理，对Apple Silicon ANE利用率还有优化空间。Cider补的是MLX原生缺失的W8A8和W4A8激活量化原语，不限于Mano-P，任何MLX模型都能用。

OSWorld专项模型排名上Mano-CUA 1.1拿到58.2%排第一，比第二名opencua-72b的45.0%高了13.2个百分点。WebRetriever Protocol I上41.7 NavEval，超过Gemini 2.5 Pro Computer Use的40.9和Claude 4.5 Computer Use的31.3。这些benchmark是在云端模型上跑的，跟端侧4B不在同一个参数量级，但方向一致——GUI专项微调在操作任务上确实比通用VL模型表现好。

硬件每迭代一次端侧能做的事情就多一层。M5的NPU规格比M4宽了不少，下一代大概率进一步放宽端侧模型的参数上限。软件适配永远滞后于硬件，模型量化和推理优化的工程投入是持续性的。

豆包专业版在这个时间点推出收费端侧能力，对整个赛道是好事。大厂验证商业可行性，开源项目提供底层技术积累，两种角色互补。我们把Mano-P和Cider都做了开源，Mano-CUA Skills面向Agent爱好者，本地模型和SDK面向高安全需求开发者，训练方法论和量化裁剪技术面向有模型训练需求的开发者，三个阶段对应三类人群。

Mano-P 开源项目：https://github.com/Mininglamp-AI/Mano-P 感兴趣的可以看看哦