概览
AutoGLM-Phone 是一个基于视觉语言模型的 AI 手机智能助理框架。它能以多模态方式理解屏幕内容,并通过 ADB 自动操控设备。用户只需用自然语言下指令,如“打开小红书搜美食”,模型即可解析意图、理解界面并自动规划、执行操作流程,无需手动点击。
输入
需要完成的任务指令
输出
任务行动完成
支持的语言
中文
支持操控的硬件设备
Android 系统的手机
推荐场景
- 外卖选购
- 商品购买
- 出行服务
- 资讯新闻
- 租房找房
- 外卖下单:
- 在淘宝上的闪购帮我查找库迪咖啡的经典拿铁并下单
- 再来一单:
- 用美团再点一单最近的外卖。
使用资源
接口文档:API 调用方式
详细介绍
1
模型亮点
- 技术全面性:核心技术是 AutoGLM 多模态模型 + ADB 设备控制, 集成了视觉理解、任务规划、工具调用等完整能力栈;
- 商业化验证:已在诸多合作以及测试中验证了实用性和稳定性;
- 应用价值:真正的端到端智能,实现”所说即所得”的手机控制体验。
2
支持的应用
AutoGLM-Phone 支持 50+ 款主流中文应用,以下列举部分:
全量支持的应用,可到 开源项目 中运行脚本查看(欢迎点亮星星~)
| 分类 | 应用 |
|---|---|
| 社交通讯 | 微信、QQ、微博 |
| 电商购物 | 淘宝、京东、拼多多 |
| 美食外卖 | 美团、饿了么、肯德基 |
| 出行旅游 | 携程、12306、滴滴出行 |
| 视频娱乐 | bilibili、抖音、爱奇艺 |
| 音乐音频 | 网易云音乐、QQ音乐、喜马拉雅 |
| 生活服务 | 大众点评、高德地图、百度地图 |
| 内容社区 | 小红书、知乎、豆瓣 |
3
可执行的操作
| 操作 | 描述 |
|---|---|
Launch | 启动应用 |
Tap | 点击指定坐标 |
Type | 输入文本 |
Swipe | 滑动屏幕 |
Back | 返回上一页 |
Home | 返回桌面 |
Long Press | 长按 |
Double Tap | 双击 |
Wait | 等待页面加载 |
Take_over | 请求人工接管(登录/验证码等) |
应用示例
- 外卖选购
- 商品比价
- 播客播放
- 餐厅预订
- 差旅场景
- 制定旅游路线
帮我在美团点一杯冰豆花
调用指南
环境准备
1. Python 环境
建议使用 Python 3.102. ADB (Android Debug Bridge)
- 下载官方 ADB 安装包并解压到自定义路径 https://developer.android.com/tools/releases/platform-tools?hl=zh-cn
- 配置环境变量:
- MacOS:
export PATH=${PATH}:~/Downloads/platform-tools - Windows:参考 第三方教程 配置环境变量
- MacOS:
- 验证adb是否安装成功:
3. Android 设备配置
- Android 7.0+ 的设备或模拟器
- 启用开发者模式:设置-关于手机-版本号连续点击10次
- 启用 USB 调试:设置-开发者选项-USB调试


4. 安装 ADB Keyboard
下载 ADBKeyboard.apk 并在设备中安装,安装后到设置-输入法中启用 ADB Keyboard https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk
