最近在研究一个新东西:MCP协议。

准确来说是Model Context Protocol(模型上下文协议),Anthropic(做Claude那家)搞的一个开源标准,让AI能够直接调用外部工具和数据源。

之前MCP都是拿来接文件系统、接数据库的,最近有人把它用到手机上——手机里跑一个本地AI Agent,通过MCP协议直接控制手机硬件,包括拨打电话、收发短信、拍照、定位、闪光灯等等

我搭了一套,跑了3天,专门测试了通话场景。说说真实感受。

📞 我测试的场景
  • 手机:一台旧小米

  • 环境:Termux(安卓上的Linux环境)+ Node.js MCP Server

  • AI客户端:GitHub Copilot CLI通过WiFi连接到手机的MCP Server

  • 测试内容:给AI发自然语言指令 → AI通过MCP调用手机拨号 → AI解析通话内容并执行后续动作

核心链路是:AI看得到你的手机,也能动手操作你的手机
跟之前那些云端大模型不同,这套方案数据全程在本地,不需要把通话录音上传到第三方服务器去解析。说实话,隐私这块我是真放心的。

🧪 具体测了什么

① 自然语言拨打电话

手机跑MCP Server之后,直接在AI客户端里说 “给我老婆打个电话” 。AI通过contacts_list先查联系人,找到号码后调call_phone工具,直接拨出去。全程不用碰手机,语音发指令就行。

实测响应速度:从发指令到拨号响铃,大概2-3秒。

槽点是:这个MCP Server依赖WiFi连接,手机得和电脑在同一局域网。不过可以加Tailscale做内网穿透,远程也能用。

② 通话内容实时解析 + 自动写跟进

这是我觉得最有意思的部分。通话结束后,AI能自动做三件事:

  1. 调用sms_send发一条总结短信到通话对方的手机上

  2. 调用notification_send在手机通知栏弹一条待办提醒

  3. 或者在Copilot里直接把关键信息整理成文本,你可以复制到CRM

实测效果:打了个商务咨询电话,挂了之后AI直接列出了“对方需求是XXX、约定周五回电、需要准备资料XX份”——比我手动记笔记快多了。

✅ 优点
  1. 隐私本地化:通话内容和解析过程全部在本机完成,不上传任何第三方服务器

  2. 不依赖互联网:手机和AI客户端只要在同一局域网就能跑,断网也能用

  3. 能力扩展性强:MCP协议支持的不仅仅是通话,手机上的摄像头、定位、短信、剪贴板等18项硬件能力都可以被AI调用

  4. 跨AI客户端通用:MCP是开源标准,Claude Desktop、Cursor、VS Code、GitHub Copilot CLI都支持,一次配置所有AI都能用

  5. 纯本地运行:不需要云端API Key,不需要买第三方服务

❌ 槽点
  1. 部署门槛不低:需要懂Termux、Node.js,小白可能搞不定(市面上也有封装好的现成方案比如PocketMCP、PhonePi MCP,但越傻瓜化的工具往往越贵或功能受限)

  2. 仅支持安卓:iOS目前还在开发中

  3. 依赖WiFi连接:手机和AI客户端必须同在局域网,远程需要额外配置Tailscale

  4. 通话内容解析依赖AI模型质量:模型不够强的时候,解析出来的要点可能不完整

🤔 我的结论

这个方案本质上是在做一件事:让AI能真正“动手”,而不是只会聊

之前那种把通话录音上传到云端做语音转写的方案,隐私风险高、延迟大、还依赖网络。MCP这套是本地AI直接控制手机硬件,全程数据不出设备。

如果你对隐私比较敏感,或者不想把通话内容托管给第三方,这套方案值得关注。但如果你是技术小白、只想插个USB就能用,目前门槛确实偏高。

不过话说回来,MCP协议是Anthropic开源的,生态才刚起来。等手机厂商自己把这东西预装进去,那时候可能就是真正的“AI驱动手机”了。

💬 评论区聊

你希望AI帮你处理手机的哪些操作?拨电话、回短信、还是自动记待办?评论区聊聊。有想自己试着搭的,私信 “MCP清单” ,我把我用的配置文件、Termux安装步骤和MCP Server搭建教程打包发你(不用加微信,私信直接发图)。

更多推荐