

IDC 预计,2026 年中国 AI 手机出货量将达 1.47 亿台,占举座市集的 53%。行业把本年叫 "AI 手机元年 "。
但 "AI 手机 " 这四个字背后,各家在作念的事差得很远。
名义上群众都在说 " 让 AI 帮你操作手机 ",底层逻辑却皆备不同。有东谈主让 AI 班师看屏幕操作,有东谈主让 App 主动敞开接口,有东谈主在自家生态里买通管事。三条路,各有各的逻辑,各有各的天花板。
三星 S26 发布,努比亚总裁倪飞发微博说谷歌和三星 " 比咱们晚了三个月 "。这句话自己没错,但用 " 早晚 " 来测度这件事,有点收支。毕竟字节、谷歌、阿里,AI 手机的有策画根底不在归拢条跑谈上。

谷歌:让 App 主动开门
谷歌本年 2 月发布了两套并行有策画:AppFunctions,和 Intelligent UI Automation。
AppFunctions 的逻辑是,App 开发者在代码里标注哪些功能不错被 AI 调用,比如 " 创建日期事件 "、" 搜索像片 "。这些声明被编译成索引文献,提交给安卓系统。Gemini 收到用户提示,先查索引,找到匹配功能,在开垦腹地班师调用,全程不外程外部管事器。
谷歌把 AppFunctions 界说为 " 手机端的 MCP"。MCP 是 AI 圈的条约,处分 AI 模子奈何聚会外部器具的问题。AppFunctions 把这套逻辑搬进手机腹地,App 主动敞开接口,AI 按接口调用,有授权,有界限,有纪录。
搭载该系统的三星 S26 展示了一个案例,用户对着 AI 说 " 找我家猫的像片 ",Gemini 就会调用三星相册的接口,像片班师出咫尺对话界面,用户莫得掀开任何 App。
咱们用更常用的淘宝为例。若是淘宝接入 AppFunctions,敞开 " 搜索商品 " 的接口。此时,用户对着 Gemini 说 " 帮我在淘宝找一对跑步鞋,预算 1000 以内 ",Gemini 就能班师调用淘宝的搜索接口拿回恶果,在 AI 对话页面展示给用户,全程用户不需要掀开淘宝。
淘宝也能适度哪些功能敞开、哪些数据分歧外走漏,权限界限由 App 我方规矩。

但这样作念摈弃也很显着,App 必须主动接入,咫尺支撑的主要鸠合在日期、备忘录这几个类别。
是以谷歌同期推了 Intelligent UI Automation 看成补充,专诚针对还没接入 AppFunctions 的 App。AI 通过模拟点击、滑动完成任务,开发者不需要改一瞥代码。咫尺在 S26 系列 和 Pixel 10 上小范畴测试,支撑外卖、打车等少数场景。用户不错随时接管,遭遇付款,Gemini 会先弹证明。
谷歌官方说 " 本年晚些时候共享更多细节 "。功能上线了,表率还没写完,界限在那处谷歌我方也还在摸索。因此,这也等于中兴倪总所谓的三星 +Gemini 只完成了努比亚的局部智商。
字节:班师看屏幕,但被微信堵在门口
字节 + 努比亚的豆包手机,走的是另一条路,其底层是字节自研的 UI-TARS 模子。
使命神志很直不雅,截屏,截图输入视觉模子,模子分析屏幕上有什么,决定点那处,通过安卓无阻拦权限把提示发给手机。截图、分析、点击,轮回,直到任务完成。不需要任何 App 相助,表面上能操作手机上所有欺诈。
相似以淘宝例如,豆包手机不需要淘宝授权,它能识别淘宝页面中每一个按钮是作念什么的,点击哪个能杀青什么功能。你让豆包手机搜索商品,它会像真东谈主一样,点来点去,直到生成谜底。

这一切都诞生在 UI-TARS 模子的雄壮智商中,在 AndroidWorld 基准测试,UI-TARS 1.5 得了 64.2 分,GPT-4o 是 34.5 分。
首批 3 万台豆包手机也曾吵得火热,而今除了科技测评东谈主,还有若干东谈主在用?新本事会激发一时狂热,但热度散去群众才发现,好多底层问题都没处分。
骨子使用中,微信、支付宝、淘宝、各样金融 App 会班师弹安全劝诫防止操作。这些 App 的安全机制能识别出 " 有表率在模拟东谈主点击 ",判定为很是。此外,开元app豆包手机依赖的无阻拦权限,设想初志是匡助谬误用户,AI 拿来批量操作 App,踩的是通盘安卓生态的红线。
况兼好多软件升级安全战术,UI 更新,都可能让豆包手机的一部分功能失效。
天然,谷歌的 Intelligent UI Automation 和豆包手机在本事旨趣上差未几,都是看屏幕、模拟点击。但谷歌的有策画有系统层背书,谁让安卓是他的。豆包走的是权限的灰色地带,莫得这层信任基础。
动作把握,性质不同。
阿里:最安全,也最难
阿里的道路叫 A2A,Agent to Agent,智能体互联。春节时期,咱们用千问点奶茶,操作起来和也挺像 AI 手机的,但照旧有区别。
千问不看屏幕,也不碰手机系统权限,班师调用 App 的管事接口。用户说 " 帮我在饿了么订午饭,再用高德叫辆车去下昼的会 ",千问把两个恳求分离派发给饿了么智能体和高德智能体,各自完成,恶果汇总复返。全程莫得截图,莫得模拟点击,数据在预设接口里流转,阴私风险实在为零。
但前提是,这些操作都需要在阿里我方的生态里。淘宝、饿了么、高德、支付宝底本等于归拢家公司,接口买通的磋议本钱实在不存在。
一朝脱离阿里生态,这些操作就行欠亨了。
让千问帮用户操作好意思团、抖音、滴滴、微信、小红书,需要这些公司主动敞开接口。好意思团、字节、滴滴、腾讯、小红书一家一家谈下去,都需要时候,只不外跟着跟着各家都在探索和推出智能体,A2A 道路的上限,也会跟着生态界限的拓宽不休变宽。

AI 手机到底长什么样?
三条路,三种下注逻辑。
字节押的是速率,靠通用性换先发,代价是和通盘 App 生态的安全机制进行反水。但克己是东谈主们一提到 AI 手机,都会思到字节。
{jz:field.toptypename/}阿里押的是安全感,阴私风险最低,天花板也最明晰。
谷歌押的是举止,AppFunctions 开发者文档依然迭代到 alpha07 版块,每个 API 都有完好表率,慢但每一版都在扩大生态。
况兼谷歌还有一张牌没打出来,苹果本年证明将用 Gemini 入手下一代 Apple Intelligence。落地之后,Gemini 将同期成为安卓和 iOS 的 AI 底座,遮盖全球绝大无数手机用户。AppFunctions 的模范,就不仅仅安卓的举止,而是通盘移动互联网的举止。
当 AI 成了用户和 App 之间的新一层,适度了这一层,就适度了下一代的流量进口。

三条道路都有各自的天花板,但更大的问题是:AI 手机的几个有策画都还没跑通。
谷歌搞 AppFunctions,最终能走多远,得看有若干 App 振作主动接入。咫尺最大的阻拦等于开发者,咫尺支撑的,也就 Uber、Grubhub 这几个。此外,国内的微信、好意思团、抖音,不会因为谷歌发了一套 API 就列队来接。
信任这关,更贫瘠。AI 帮你点外卖,出错了酌夺重来一单。AI 帮你转了账,发现转错了,这锅谁背?咫尺三条道路都没给出谜底。就和自动驾驶一样,莫得法律的背书,不管案例多光鲜都是自嗨。用户的信任是逐渐建起来的,但时时要出几次真确事故才会被闲隙对待。
更进攻的是场景这关,说白了等于 AI 手机到底有什么用?咫尺演示的都是 " 找像片 "、" 订外卖 "、" 叫车 ",提示明晰,重要固定,一气呵成。然则,真确生计不是这样的。" 帮我把上周和那谁的聊天有策画整理一下,趁机把下周的会议改到周五 ",这种才是平日,莫得一家咫尺能顺滑处理。
AI 手机卖出去是一趟事,用户每纯果真在用 AI 操作 App,是另一趟事。