
Databricks宣布在其智能助手(Assistant)中加入代理模式,推出数据科学代理(Data Science Agent),主打在Notebook与SQL编辑器中自动化完成从数据探索、代码生成与执行,到机器学习训练与结果解释等一系列工作。官方表示,Data Science Agent的目的并非取代人力,而是在治理与可追溯的前提下,将发现问题到分析的流程缩短为数分钟。此功能目前为预览阶段,需由工作区管理员启用。
开发者在助手面板启动代理模式后,输入明确任务即可让代理规划并执行。Agent能针对指定表格进行探索性分析,支持以表格名称快速指向数据资产,能在Notebook或SQL编辑器生成并执行SQL或Python代码,遇到异常时可调用已有的错误诊断机制,尝试修正并反复验证直至排除问题。
当任务包含模型训练与评估,代理会根据需求结合机器学习工作平台MLflow,以追踪训练流程并记录结果,并可依指示调整模型类型或超参数,完成后以重点式摘要汇报分析结果或建议后续步骤。
数据科学代理以Unity Catalog统一数据管理平台为基础,沿用权限控制、数据上下文与业务语义,代理在寻找可用表格、笔记本与代码片段时会以用户可访问范围为界限。同时官方也保留用户的控制权,在执行代码前,代理会请求授权,用户可选择仅允许一次、在本次对话持续允许,或长期允许。系统另设有保护机制以避免如误删表格等高风险操作,不过,官方仍建议在涉及生产数据时,用户应审查代理生成的代码与操作。
在多步骤或跨阶段的分析用例中,用户可启用Planner,系统会先生成详细步骤计划,并在必要时提出澄清问题,经确认后逐步执行与查看输出,最后整理结论。这对于需要依次进行数据清洗、特征工程、模型训练与评估的流程,有助于明确界定每一步的输入、输出与评估标准,并让团队更容易追踪分析脉络。
在导入与运维方面,数据科学代理管理员通过预览入口启用代理模式后,用户即可直接在Notebook与SQL编辑器中操作,无需进行额外安装或改变工作流程。代理运作会遵循Unity Catalog的治理范围,当数据资产的命名与字段注释越完整,代理在探索数据与搜索资产时的效果也越好。
Databricks也预告数据科学代理后续发展方向,包括引入MCP以扩展上下文获取的广度,改善代理的指令记忆与可编辑性,并加速资产搜索体验。