兄弟们,你们是不是早已不满足于让 AI 仅停留在「文字交互」层面。
那么能否让 AI 真正「动手」操作电脑,完成从订机票、做报表到跨软件协作的全流程任务?
之前出现的豆包手机、AutoGLM等工具实现了让我们可以通过自然语言操作手机,给了我们无限的想象空间。
今天,给大家介绍的这个项目,能够让AI操作电脑,把自然语言指令直接转化为电脑的实际操作,重新定义了人与桌面系统的交互方式。
打开今日头条查看图片详情
下面我们一起来看看吧!
一、介绍
TuriX(TuriX-CUA)是一款由 AI 驱动的桌面自动化代理工具,核心目标是让强大的 AI 模型直接在桌面环境中执行真实的、可落地的操作,无需依赖特定应用的 API 接口。
打开今日头条查看图片详情
作为开源项目,它不仅在内部 OSWorld 风格测试集中达成了超过 68% 的任务通过率,处于行业领先水平,还完全免费面向个人与研究用途开放。
TuriX 支持 macOS 和 Windows 双系统,原生集成 Qwen3-VL 等前沿多模态视觉语言模型,能精准理解 UI 界面、完成复杂的跨软件交互。
打开今日头条查看图片详情
无论是预订机票 / 酒店、制作图表并插入 PPT,还是搜索信息并生成文档,只要人类能通过点击、输入完成的桌面操作,TuriX 都能基于自然语言指令自主完成。
此外,它还支持 MCP(Model Context Protocol)协议,可对接 Claude 等第三方智能体,进一步拓展能力边界。
打开今日头条查看图片详情
二、功能特性
TuriX 的核心优势集中在通用、灵活、高性能 三大维度,具体特性如下:
- 业界领先的默认模型:相比 UI-TARS 等开源代理,TuriX 在 Mac 系统上的任务成功率和执行速度均实现超越,复杂 UI 交互任务成功率最高可提升 15%;
- 无应用专属 API 依赖:摆脱对单一应用接口的依赖,只要人类能点击操作的界面(WhatsApp、Excel、飞书、腾讯会议等),TuriX 都能适配;
- 可热插拔的 “核心大脑”:无需修改代码,仅通过修改config.json配置文件,即可替换底层 VLM(视觉语言模型),支持 GPT、Gemini、Claude、Qwen3-VL 等多款模型;
- MCP 协议兼容:可对接 Claude for Desktop 等外部智能体,通过 MCP 协议实现多模型协作,拆解复杂任务;
- 跨系统适配:全面支持 macOS 15 和 Windows 11,覆盖主流桌面操作系统场景;
- 精准的 UI 交互能力:基于 UI 树分析和截图标注技术,可完成点击、输入、滚动、拖拽、文件操作等精细化动作,支持快捷键、AppleScript 等多种操作方式。
打开今日头条查看图片详情
三、安装
3.1 前置条件
- 操作系统:推荐 macOS 15 或 Windows 11;
- 环境要求:Python 3.12+、Git;
- 权限准备:开启系统辅助功能(Accessibility)、屏幕录制权限(macOS)。
3.2 安装步骤
- 克隆代码仓库
# 克隆仓库 git clone https://github.com/TurixAI/TuriX-CUA.git cd TuriX-CUA # (可选)设置上游仓库,便于同步更新 git remote add upstream https://github.com/TurixAI/TuriX-CUA.git- 创建并激活虚拟环境
# 以conda为例 conda create -n turix_env python=3.12 conda activate turix_env- 安装依赖包
pip install -r requirements.txt- 配置系统权限
- macOS:打开 “系统设置→隐私与安全性→辅助功能”,添加终端 / IDE 和 Python 解释器;同时开启 “屏幕录制” 权限;
- Windows:无需额外系统权限配置,确保 Python 可正常访问系统界面。
- 配置并运行
- 修改examples/config.json文件,指定 LLM 提供商(如 GPT、Anthropic、Google Gemini)、API 密钥、模型名称等;
- 执行主程序:
cd examples python main.py -c config.json3.3 核心配置说明
config.json中可自定义关键参数:
- llm:指定核心模型(provider 可选 turix/gpt/google_flash/anthropic 等);
- planner_llm:指定任务规划模型;
- agent:设置任务描述、最大执行步数、是否启用 UI 分析等;
- logging_level:配置日志级别(DEBUG/INFO/WARNING 等)。
四、总结
TuriX 的出现,打破了 AI 「只能说不能做」 的局限,将自然语言理解与桌面操作深度结合,为个人办公自动化、研究场景复现、企业流程提效提供了全新思路。
无论是日常办公中重复的文档处理、跨软件协作,还是研究领域的桌面自动化测试,TuriX 都能以 「零代码」 的方式降低使用门槛,让 AI 真正成为桌面端的 “全能助手”。
如果你也想让电脑听懂指令、自动干活,不妨试试 TuriX—— 开源、免费、高性能,解锁桌面自动化的无限可能。
我是Jack Bytes
一个专注于将人工智能应用于日常生活的半吊子程序猿!