AI 接管你的电脑?太强了!

兄弟们,你们是不是早已不满足于让 AI 仅停留在「文字交互」层面。

那么能否让 AI 真正「动手」操作电脑,完成从订机票、做报表到跨软件协作的全流程任务?

之前出现的豆包手机AutoGLM等工具实现了让我们可以通过自然语言操作手机,给了我们无限的想象空间。

今天,给大家介绍的这个项目,能够让AI操作电脑,把自然语言指令直接转化为电脑的实际操作,重新定义了人与桌面系统的交互方式。

打开今日头条查看图片详情

下面我们一起来看看吧!

一、介绍

TuriX(TuriX-CUA)是一款由 AI 驱动的桌面自动化代理工具,核心目标是让强大的 AI 模型直接在桌面环境中执行真实的、可落地的操作,无需依赖特定应用的 API 接口。

打开今日头条查看图片详情

作为开源项目,它不仅在内部 OSWorld 风格测试集中达成了超过 68% 的任务通过率,处于行业领先水平,还完全免费面向个人与研究用途开放。

TuriX 支持 macOSWindows 双系统,原生集成 Qwen3-VL 等前沿多模态视觉语言模型,能精准理解 UI 界面、完成复杂的跨软件交互。

打开今日头条查看图片详情

无论是预订机票 / 酒店、制作图表并插入 PPT,还是搜索信息并生成文档,只要人类能通过点击、输入完成的桌面操作,TuriX 都能基于自然语言指令自主完成。

此外,它还支持 MCP(Model Context Protocol)协议,可对接 Claude 等第三方智能体,进一步拓展能力边界。

打开今日头条查看图片详情

二、功能特性

TuriX 的核心优势集中在通用灵活高性能 三大维度,具体特性如下:

  1. 业界领先的默认模型:相比 UI-TARS 等开源代理,TuriX 在 Mac 系统上的任务成功率和执行速度均实现超越,复杂 UI 交互任务成功率最高可提升 15%;
  2. 无应用专属 API 依赖:摆脱对单一应用接口的依赖,只要人类能点击操作的界面(WhatsApp、Excel、飞书、腾讯会议等),TuriX 都能适配;
  3. 可热插拔的 “核心大脑”:无需修改代码,仅通过修改config.json配置文件,即可替换底层 VLM(视觉语言模型),支持 GPT、Gemini、Claude、Qwen3-VL 等多款模型;
  4. MCP 协议兼容:可对接 Claude for Desktop 等外部智能体,通过 MCP 协议实现多模型协作,拆解复杂任务;
  5. 跨系统适配:全面支持 macOS 15 和 Windows 11,覆盖主流桌面操作系统场景;
  6. 精准的 UI 交互能力:基于 UI 树分析和截图标注技术,可完成点击、输入、滚动、拖拽、文件操作等精细化动作,支持快捷键、AppleScript 等多种操作方式。

打开今日头条查看图片详情

三、安装

3.1 前置条件

  • 操作系统:推荐 macOS 15 或 Windows 11;
  • 环境要求:Python 3.12+、Git;
  • 权限准备:开启系统辅助功能(Accessibility)、屏幕录制权限(macOS)。

3.2 安装步骤

  1. 克隆代码仓库
# 克隆仓库 git clone https://github.com/TurixAI/TuriX-CUA.git cd TuriX-CUA # (可选)设置上游仓库,便于同步更新 git remote add upstream https://github.com/TurixAI/TuriX-CUA.git
  1. 创建并激活虚拟环境
# 以conda为例 conda create -n turix_env python=3.12 conda activate turix_env
  1. 安装依赖包
pip install -r requirements.txt
  1. 配置系统权限
  • macOS:打开 “系统设置→隐私与安全性→辅助功能”,添加终端 / IDE 和 Python 解释器;同时开启 “屏幕录制” 权限;
  • Windows:无需额外系统权限配置,确保 Python 可正常访问系统界面。
  1. 配置并运行
  • 修改examples/config.json文件,指定 LLM 提供商(如 GPT、Anthropic、Google Gemini)、API 密钥、模型名称等;
  • 执行主程序:
cd examples python main.py -c config.json

3.3 核心配置说明

config.json中可自定义关键参数:

  • llm:指定核心模型(provider 可选 turix/gpt/google_flash/anthropic 等);
  • planner_llm:指定任务规划模型;
  • agent:设置任务描述、最大执行步数、是否启用 UI 分析等;
  • logging_level:配置日志级别(DEBUG/INFO/WARNING 等)。

四、总结

TuriX 的出现,打破了 AI 「只能说不能做」 的局限,将自然语言理解与桌面操作深度结合,为个人办公自动化、研究场景复现、企业流程提效提供了全新思路。

无论是日常办公中重复的文档处理跨软件协作,还是研究领域的桌面自动化测试,TuriX 都能以 「零代码」 的方式降低使用门槛,让 AI 真正成为桌面端的 “全能助手”。

如果你也想让电脑听懂指令、自动干活,不妨试试 TuriX—— 开源、免费、高性能,解锁桌面自动化的无限可能。

我是Jack Bytes

一个专注于将人工智能应用于日常生活的半吊子程序猿!