代理式AI正逐步融入程序开发流程,使得AI代理的调试、追踪与评估成为新的开发挑战。新兴可观测性公司Raindrop AI推出了开源工具Workshop,定位为AI代理本地调试与评估工具,可将AI代理执行过程中的追踪记录实时流式传输至浏览器界面,帮助开发者查看AI代理在执行过程中大型语言模型的调用、工具调用、决策路径,以及错误发生的原因。
Workshop采用MIT许可证发布,官方提供macOS与Linux的一键安装方式,GitHub Releases页面也提供Windows x64可执行文件。据VentureBeat报道,Workshop以本地常驻服务程序配合用户界面运行,默认可在localhost:5899打开界面,并将每个令牌、工具调用与决策写入单一SQLite数据库文件,使开发者能在本地检查AI代理在哪个步骤出错、何时出错,以及可能的失败原因。
Raindrop在官方博客指出,AI代理调试的难点在于,失败原因往往隐藏在多层嵌套的span(追踪段)记录中。开发者通常只能查看终端输出,或依赖延迟呈现的SaaS仪表盘,最终仍需手动阅读大量追踪日志并编写评估测试。Workshop则提供两种界面:一是本地实时追踪记录查看器,二是通过模型上下文协议(MCP)连接Claude Code,让AI编程代理读取同一组追踪记录。
这套工具的另一大亮点是Raindrop称为“自我修复评估循环”的机制。当AI代理执行失败时,Workshop会保留完整的执行轨迹,Claude Code可读取这些记录,依据实际失败案例生成评估测试,定位提示词或代码中的逻辑问题,并重新运行代理,直到测试条件通过。Raindrop强调,这种做法让开发者能基于真实发生的故障进行测试,而非凭空推测可能的情景。
在兼容性方面,Raindrop说明Workshop支持TypeScript、Python、Go与Rust,并可集成Vercel AI SDK、OpenAI Agents SDK、Anthropic SDK、Claude Agent SDK、LangChain、LangGraph与CrewAI等SDK与框架,也能配合Claude Code、Codex、Devin、Cursor与OpenCode等编程代理使用。Raindrop还指出,Workshop沿用了其生产环境调试系统相同的追踪架构。