让AI直接操控专业软件?这个开源工具做到了
你有没有试过让AI自动修图、批量导出视频、生成PPT?听起来像科幻片里的场景,但现实是:目前绝大多数专业软件——无论是Photoshop、Blender还是LibreOffice——都只能靠人工操作。即使你用自动化脚本,也常常因为界面微小变动就崩溃。手动写UI脚本?太慢、太脆弱、太折腾。
香港大学数据智能实验室(HKUDS)最近开源了一个叫 CLI-Anything 的项目,它不靠截图识别、不靠模拟鼠标点击,而是直接把那些复杂软件“翻译”成你能用命令行调用的工具。你只要输入一行命令,AI就能让GIMP自动抠图、让Blender渲染一整个场景、让LibreOffice批量生成报告——全部自动完成,稳定得像本地程序一样。

不是模拟,是真正在调用软件内核
市面上很多自动化工具靠的是“模拟用户操作”——比如识别按钮位置、点击、截图比对。这种方案一旦软件更新一个像素,就全崩了。CLI-Anything完全不一样:它读取软件的源码,分析它的功能模块,然后自动生成一个标准的命令行接口(CLI),直接调用底层引擎。
比如:
- 调用GIMP的Python脚本引擎做批量图像处理,不是截图找按钮
- 直接连接Blender的Python API渲染3D模型,不是录屏再剪辑
- 用LibreOffice的UNO接口生成ODF文档,不是模拟键盘打字
这意味着:功能完整、输出稳定、结果可复现。你得到的不是“看起来像”的结果,而是和你亲手操作一模一样的真实文件——SVG、MP4、ODT、MLT XML,全都是原生格式,无需转换。
自动生成,连文档都帮你写好
你不需要懂编程,也不用去翻官方API文档。CLI-Anything会自动完成整套流程:
- 分析软件源码结构
- 识别核心功能模块
- 用Click框架生成标准CLI命令
- 自动编写1500+项测试(单元测试+端到端)
- 生成完整的帮助文档(--help)
- 打包成Python包,一键安装
生成的命令长这样:
gimp --crop image.jpg 100,100,800,600 --export png --output result.png
blender --render scene.blend --output video.mp4 --frames 1-120
libreoffice --convert-to pdf report.odt --output /output/
每个命令都支持 --json 参数,输出结构化数据,AI可以直接解析,不用再写一堆正则去抓取结果。你还能进交互模式(REPL),像终端一样连续执行多个命令,还能看到进度、查看历史。
13款主流软件,现在就能用
项目已经为以下13款广泛使用的开源软件自动生成了CLI接口:
- GIMP:批量修图、去背景、调色
- Blender:自动渲染动画、批量导出模型
- Inkscape:生成SVG图标、批量修改矢量图形
- Audacity:静音检测、批量降噪、导出音频
- LibreOffice:自动生成PPT、Word、PDF报告
- OBS Studio:自动开始/停止录制、切换场景
- Kdenlive / Shotcut:剪辑视频、加字幕、导出不同码率
- Zoom:自动录制会议、导出字幕(需本地部署)
- Draw.io / Mermaid:从文本自动生成流程图、架构图
- ComfyUI:调用AI模型批量生成图像,支持工作流参数传递
这些都不是“演示Demo”,而是经过完整测试、能稳定跑在Linux/macOS/Windows上的真实工具。很多用户已经在自己的服务器上跑起了自动化流水线:每周自动更新产品图、每月生成财报PPT、每天渲染30个产品模型。
安装?比装个插件还简单
你不需要配置环境变量、不需要装Docker、不需要开云服务。只要你的机器能跑Python,就能用。
对Claude Code用户:直接在聊天窗口输入:
/plugin marketplace add HKUDS/CLI-Anything
/plugin install cli-anything
然后直接调用:
/cli-anything https://github.com/GNOME/gimp
它会自动下载源码、分析结构、生成CLI、安装依赖——全程本地运行,5分钟内搞定。
也支持OpenClaw、OpenCode、Codex、Qodercli等主流Agent框架,只需在配置文件里加一行命令路径,就能接入。
不是噱头,是真有人在用
项目上线不到两个月,GitHub星标突破17,000+,登上趋势榜前三。不是因为宣传,而是因为开发者真的在用。
一位独立游戏开发者在Reddit上分享:他用CLI-Anything + Blender自动生成1000+个不同角度的产品模型图,过去要花3周,现在只要12小时跑完。
一家小型设计工作室用它自动把客户发来的PSD文件转成Web可用的PNG+SVG,再用LibreOffice生成报价单,整个流程无人值守,每天处理50+单。
甚至有高校实验室用它自动处理科研数据可视化:从MATLAB导出数据 → 用Inkscape画图 → 用LibreOffice排版 → 生成PDF论文附录。
未来:CAD、DAW、IDE,都在路上
团队已经列出下一步目标:AutoCAD、Fusion 360、Ableton Live、PyCharm、MATLAB、LaTeX编辑器……这些专业工具,未来都会被“CLI化”。
如果你手上有某个冷门但重要的软件(比如地质建模工具、医学图像分析软件、工业控制软件),也可以自己提交封装方案。项目鼓励社区共建,文档清晰,贡献门槛很低。
别再用RPA了,该升级了
十年前,我们用宏和脚本自动化重复劳动;今天,我们用AI来思考如何做这些事。但AI不能只停留在“说”,它必须能“做”。
CLI-Anything不是AI的“新功能”,而是把人类几十年积累的软件资产——那些没人敢碰的复杂工具——重新变成AI能用的工具。它不炫技、不靠大模型幻觉,而是用最原始、最可靠的方式:命令行。
如果你是开发者、设计师、数据分析师、自动化爱好者,或者只是厌倦了重复点鼠标——现在,你可以去试试了。
项目地址:https://github.com/HKUDS/CLI-Anything