UI-TARS-desktop:基于UI-TARS和Seed系列模型的本地GUI代理项目

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

分支1Tags0
文件最后提交记录最后更新时间
chore: sunsetting agent tars desktop (#840) 10 个月前
chore: upgrade GitHub Actions for Node 24 compatibility (#1795) Signed-off-by: Salman Muin Kayser Chishti <13schishti@gmail.com> Co-authored-by: Charles <jinxin001@bytedance.com>3 个月前
feat(ui-tars-desktop): initialize 1 年前
chore: disable editor.formatOnSave setting (#1486) 8 个月前
feat(ui-tars): sunset UI-TARS-desktop remote operator (#1135) 9 个月前
feat(ui-tars): sunset UI-TARS-desktop remote operator (#1135) 9 个月前
fix(cve): react cve (#1756) 5 个月前
docs: refine readme (#843) Co-authored-by: ycjcl868 <chaolinjin@gmail.com> Co-authored-by: yc.ai <helio9cn@gmail.com>10 个月前
feat(pdk): support direct release version/tag and improved prerelease (#1768) 5 个月前
fix(security): add CSRF protection, CORS whitelist, and security headers (#1853)2 个月前
chore: remove debug console.logs and fix typos (#1820) 3 个月前
feat(agent-tars): add mcp servers settings (close:#280) (#415) This commit support MCP servers setting to integrate with a wide range of real-world tools. Close:#280 Close:#334 1 年前
docs: fixed the rfc document format issue (#130) 1 年前
fix(mcp-browser): browser dom context (#1763) Co-authored-by: ycjcl868 <chaolinjin@gmail.com> Co-authored-by: Charles <jinxin001@bytedance.com>5 个月前
fix(mcp-browser): screenshot MCP error & add e2e test case (#346) 1 年前
feat: agent tars next (#480) 11 个月前
feat(ui-tars-desktop): initialize 1 年前
feat(ui-tars-desktop): initialize 1 年前
feat(agent-tars): strict-typed gui agent procotol (#1295) 8 个月前
feat(mcp-servers): support mcp offical registry (#1447) 8 个月前
fix(mcp-browser): browser dom context (#1763) Co-authored-by: ycjcl868 <chaolinjin@gmail.com> Co-authored-by: Charles <jinxin001@bytedance.com>5 个月前
feat(ui-tars-desktop): initialize 1 年前
feat(ui-tars-desktop): initialize 1 年前
chore: sunsetting agent tars desktop (#840) 10 个月前
feat: add ui-tars GUI Agent SDK (#110) * fix(bug): ensure screen capture uses primary display source (#117) * fix: ensure screen capture uses primary display source * test: add device.test.ts * test: update device.test.ts * tweak(ux): close Settings Window after saving (#115) * feat(visualizer): reduce html report size (close: #118) (#119) * feat(visualizer): reduce html report size * feat(visualizer): remove midscene_report_tpl element and minify css & js code * feat(visualizer): externals common lib * feat: init sdk * chore: operators * feat: sdk agent * feat: sdk ready * chore: add publish beta shell * feat: packages changelog * release: publish beta packages * chore: remove pre pack * refactor(agent): use @ui-tars/sdk refactor * chore: type * chore: beta shell * chore: add utio * chore: remove app agent code * release: publish beta packages * chore: version * fix: async_hooks * chore: unsafe * chore: forge * fix(build): front end bundle server code * release: publish beta packages * chore: status * fix(operator): scaleFactor * fix: scaleFactor * chore: unused * fix: model retry bug * fix: som bug * fix: windows screenshot size * fix: resize screenshot * fix: scale factor * release: publish beta packages * fix: sdk add parsedPrediction * chore: utio version * release: publish beta packages * fix: useConfig bug * chore: peer deps * fix: model custom * chore: typo * fix(sdk): async_hooks store get undefined multiple sdk versions in the project * fix: screen sources primary * chore: ci test * chore: replace inquirer to clack * chore: date.now * feat: support pass InstanceType model * release: publish beta packages * fix: operator bug * release: publish beta packages * chore: add instruction * chore: sdk add maxLoopCount * chore: simplify sdk * refactor: useConfig to useContext * release: publish beta packages * chore: useContext * fix: global this * chore: browser * chore: add test cases * feat: init sdk * chore: unused --------- Co-authored-by: Dugyu <duguangyu.d@bytedance.com> Co-authored-by: skychx <skychx@hotmail.com> Co-authored-by: heh <38528320+ZhaoHeh@users.noreply.github.com>1 年前
feat: add gui agent powered by tarko (#1031) Co-authored-by: skychx <skychx@hotmail.com> Co-authored-by: ULIVZ <chenhaoli@bytedance.com>9 个月前
fix(model-provider): handle unknown providers by defaulting to openai-compatible (#1823) 3 个月前
docs: refactor README.md and update credits (#216) 1 年前
chore: sunsetting agent tars desktop (#840) 10 个月前
docs: update LICENSE1 年前
docs: fix extra parenthesis in README (#1804) 3 个月前
chore(all): add 0.3.0 releated news to readme (#1738) 6 个月前
docs: Added SECURITY policy file (#131) 1 年前
fix(mcp-browser): get current active page (#658) 11 个月前
chore(ci): add lint (#1002) 9 个月前
fix(mcp-browser): browser dom context (#1763) Co-authored-by: ycjcl868 <chaolinjin@gmail.com> Co-authored-by: Charles <jinxin001@bytedance.com>5 个月前
feat: init create-new-mcp (#671) 11 个月前
feat(tarko): init @tarko/agent-ui-builder (#1436) 8 个月前
chore: sunsetting agent tars desktop (#840) 10 个月前
feat: init create-new-mcp (#671) 11 个月前
docs: license (#1) * docs: license1 年前
Agent TARS Banner

Introduction

English | 简体中文

TARS* 是一个多模态 AI Agent Stack,目前包含两个项目:Agent TARSUI-TARS-desktop

Agent TARS UI-TARS-desktop
Agent TARS 是一个通用的多模态 AI Agent Stack,它将 GUI Agent 和 Vision 的强大功能带入你的终端、计算机、浏览器和产品中。

它主要提供 CLIWeb UI 供使用。 旨在通过前沿的多模态 LLMs 和与各种现实世界 MCP 工具的无缝集成,提供更接近人类任务完成方式的工作流程。
UI-TARS Desktop 是一个桌面应用程序,基于 UI-TARS 模型提供原生的 GUI Agent。

它主要提供 本地计算机以及浏览器操作器。

Table of Contents

News

  • [2025-11-05] 🎉 我们很高兴地宣布 Agent TARS CLI v0.3.0 正式发布!此版本新增了多种工具的流式调用支持(shell 命令、多文件结构化展示)、Runtime Setting 和耗时统计、Event Stream 可视化用于数据流追踪和调试,以及 AIO Sandbox 集成、支持隔离的执行环境。
  • [2025-06-25] 我们发布了 Agent TARS Beta 和 Agent TARS CLI - Introducing Agent TARS Beta,这是一个多模态 AI agent,旨在通过丰富的多模态能力(如 GUI Agent、Vision)和与各种现实世界工具的无缝集成,探索更接近人类任务完成方式的工作形式。
  • [2025-06-12] - 🎁 我们很高兴宣布发布 UI-TARS Desktop v0.2.0!此次更新引入了两个强大的新功能:Remote Computer OperatorRemote Browser Operator—— 完全免费。无需配置:只需点击即可远程控制任何计算机或浏览器,体验全新的便利和智能水平。
  • [2025-04-17] - 🎉 我们很高兴宣布发布全新的 UI-TARS Desktop 应用程序 v0.1.0,具有重新设计的 Agent UI。该应用程序增强了计算机使用体验,引入了新的浏览器操作功能,并支持先进的 UI-TARS-1.5 模型以提供更好的性能和精确控制。
  • [2025-02-20] - 📦 推出了 UI TARS SDK,这是一个强大的跨平台工具包,用于构建 GUI 自动化 agent。
  • [2025-01-23] - 🚀 我们更新了**Cloud Deployment**部分的中文版:GUI模型部署教程,其中包含与 ModelScope 平台相关的新信息。你现在可以使用 ModelScope 平台进行部署。

Agent TARS

npm version downloads node version Discord Community Official Twitter 飞书交流群 Ask DeepWiki

Agent TARS 是一个通用的多模态 AI Agent Stack,它将 GUI Agent 和 Vision 的强大功能带入你的终端、计算机、浏览器和产品中。

它主要提供 CLIWeb UI 供使用。 旨在通过前沿的多模态 LLMs 和与各种现实世界 MCP 工具的无缝集成,提供更接近人类任务完成方式的工作流程。

Showcase

请帮我在 Priceline 上预订 9 月 1 日从圣何塞到纽约最早的航班,以及 9 月 6 日最晚的返程航班

https://github.com/user-attachments/assets/772b0eef-aef7-4ab9-8cb0-9611820539d8


预订酒店 使用额外的 MCP Servers 生成图表
指令: 我 9 月 1 日到 9 月 6 日在洛杉矶,预算 5000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我编制一份交通指南 指令: 为我绘制杭州一个月的天气图表

更多用例,请查看 #842

Core Features

  • 🖱️ 一键开箱即用的 CLI - 支持 有界面 Web UI无界面 server 执行
  • 🌐 混合 Browser Agent - 使用 GUI AgentDOM 或混合策略控制浏览器。
  • 🔄 Event Stream - 协议驱动的 Event Stream 驱动 Context EngineeringAgent UI
  • 🧰 MCP Integration - 内核构建在 MCP 之上,同时支持挂载 MCP Servers 来连接现实世界的工具。

Quick Start

Agent TARS CLI

# 使用 `npx` 启动。
npx @agent-tars/cli@latest

# 全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g

# 使用你喜欢的模型提供商运行
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

访问完整的 Quick Start 指南获取详细的设置说明。

Documentation

🌟 探索 Agent TARS Universe 🌟

分类 资源链接 描述
🏠 核心枢纽 Website 进入 Agent TARS 生态系统的入口
📚 Quick Start Quick Start 5 分钟从零快速上手
🚀 最新动态 Blog 发现前沿功能和愿景
🛠️ 开发者专区 Docs 掌握每个命令和功能
🎯 Showcase Examples 查看官方和社区构建的用例
🔧 参考文档 API 完整的技术参考



UI-TARS Desktop

UI-TARS

UI-TARS Desktop 是一个由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动的原生 GUI agent,可在你的本地计算机上使用。

   📑 Paper    | 🤗 Hugging Face Models   |   🫨 Discord   |   🤖 ModelScope  
🖥️ Desktop Application    |    👓 Midscene (use in browser)   

Showcase

指令 本地操作器 远程操作器
请帮我在 VS Code 设置中打开 VS Code 的自动保存功能,并将自动保存操作延迟设置为 500 毫秒。
你能帮我查看一下 GitHub 上 UI-TARS-Desktop 项目的最新 open issue 吗?

Features

  • 🤖 由 Vision-Language Model 驱动的自然语言控制
  • 🖥️ 截图和视觉识别支持
  • 🎯 精确的鼠标和键盘控制
  • 💻 跨平台支持 (Windows/MacOS/Browser)
  • 🔄 实时反馈和状态显示
  • 🔐 私密且安全 - 完全本地处理

Quick Start

参见 Quick Start

Contributing

参见 CONTRIBUTING.md

License

本项目基于 Apache License 2.0 许可证。

Citation

如果你觉得我们的论文和代码对你的研究有用,请考虑给个 star ⭐ 和引用 📝

@article{qin2025ui,
  title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
  author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
  journal={arXiv preprint arXiv:2501.12326},
  year={2025}
}

项目介绍

The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

定制我的领域

下载使用量

0

项目总下载次数(含Clone、Pull、 zip 包及 release 下载),每日凌晨更新

语言类型

TypeScript69.84%
TSX19.2%
MDX8.32%
JavaScript1.1%
CSS1.07%