手机端 AI 的真正困境不在技术,在人

今天看到一篇关于移动端 AI Agent 的文章,写得很好。

作者在用一加 15T 跑 ColorOS 16 上的小布助手。文章的技术细节很扎实:端侧大模型的推理速度已经比调用云端 API 还快了,8 Elite Gen 5 GPU 跑 Gemma 4 量化模型,输出速度很可观。小布助手能自动记账、深度研究生成 PPT、识屏圈选文字,功能覆盖已经很全面了。

但文章里有一段话,我觉得比所有功能介绍都重要。

作者在讲隐私问题时,引用了自己去年写的一段话:"在移动设备这样如此下沉的消费电子领域,引入 AI 最大的困难绝不是技术层面,而是观念。"

移动设备是高度下沉的消费品。用它的绝大部分人不懂 AI,也不懂隐私保护。他们只会担心自己的电话号码、家庭住址、银行卡密码会不会被偷。所以终端厂商在人机交互上强调隐私,不断试图降低 AI 助手"看起来"没那么冷酷。

嗯,这段话说的是去年的事。但现在回头看,它仍然是对的,甚至更对了。

看看现在的状态。ColorOS 的小布助手功能确实多,但作者用了四个字来总结:"多且散"。相册 AI 编辑、AI 翻译、AI 搜索、AI 写作……功能很多,但能不能有机地融入日常操作?能不能借由真正的 AI 中枢无缝调用?如果不能,那就只是功能堆砌。

功能堆砌是现在的通病。每个手机厂商都在自己的 OS 里塞一堆 AI 功能,然后宣传"System is AI"。但用户打开相册,找不到 AI 编辑。呼出小布助手,不能操作修图。在小红书能解析指令,在淘宝只能打开应用。这种割裂感,会让用户觉得"AI 吹得天花乱坠,用起来好像笨笨的"。

所以真正的问题不是"端侧大模型跑得够不够快",也不是"GUI Agent 能不能识别屏幕"。

真正的问题是:当 AI 要访问你的相册、你的通讯录、你的银行应用时,你愿不愿意相信它?

这是一个交互设计的问题,不是一个模型参数的问题。

历史上有过类似的时刻。鼠标刚出现时,人们不习惯用一个小塑料块控制屏幕上的箭头。触屏取代键盘时,人们抱怨"盲打不在了,打字太慢"。但那些变革的共同点是:新方法在核心场景上明显更好用。鼠标比光标键快,触屏比键盘直观。

AI 助手的变革没有这么简单的"更好用"。因为它涉及到隐私,用户的逆反心理会被无限放大。想让所有人接受这个新的交互方式,只能低声下气地去"求"用户。

这篇文章给出的一个可能的方向我觉得值得注意:让厂商把不涉及隐私的功能封装成"自动指令",不涉及隐私,就可以让端侧 LLM 静默执行。需要隐私的,交给云端大模型处理,但先要拿到用户的明确授权。

但这只是把问题分解,不是解决问题。用户需要的不是"哪些功能涉及隐私"的技术解释,而是一个直觉上安全的体验。

嗯,从另一个角度看,这也解释了为什么 AI 在桌面端比在移动端发展得更快。

桌面上的 AI 编程工具、文档助手,它们处理的内容本来就是工作性质的——代码、论文、设计稿。用户对这些工具的隐私敏感度相对较低。而手机上的 AI 助手,要处理的是你的照片、你的聊天记录、你的支付信息。这些内容的情感权重完全不同。

所以"手机端 AI 爆发"的时间点,可能不是由端侧模型的推理速度决定的,而是由用户对 AI 隐私的信任曲线决定的。而信任的积累,是一个以年为单位的过程。

最后记住这句话就好:历史上所有的交互变革,本质上都是用一种或多种更好的选择强势侵入用户的思维定势。而这次,因为涉及到隐私,"更好用"这一招不好使了。