先进AI模型处理长流程文件任务仍不可靠，内容被改写后更难察觉

随着AI代理以及vibe coding等应用逐渐普及，企业开始尝试将文件整理、格式转换、数据拆分与程序开发等知识型工作交由大型语言模型（LLM）处理。然而，微软研究院（Microsoft Research）发表论文《LLMs Corrupt Your Documents When You Delegate》，指出当前LLM在长流程委派式任务中，仍难以维持内容的完整性与准确性。

VentureBeat也报道了这项研究，指出此类问题凸显当前围绕完全自主AI代理的热潮，仍需更务实的可靠性检验。

这项研究关注的是“委派式工作”（delegated work），即用户让AI代为分析、修改与重组文档。研究团队指出，这类应用的前提是信任，因为用户往往没有时间或专业能力逐一检查AI完成的每一项修改；若模型在过程中加入未经核实的错误、删除内容或产生幻觉，这些问题可能在后续流程中被持续放大。

为测试AI系统是否适合此类工作，研究团队构建了DELEGATE-52基准测试，涵盖52个专业领域、310个工作场景，包括财务会计、软件工程、晶体学（Crystallography）以及乐谱记谱等。每个场景均使用真实文档，并设计5至10项复杂编辑任务。研究团队还在测试环境中加入与主题相关、但执行任务时无需使用的参考文档，以观察模型是否会引用错误信息。研究团队先要求模型根据指令修改文档，再要求其将文档还原，以此评估模型在多轮修改后是否仍能保持原始内容的完整性与正确性。

研究团队测试了OpenAI、Anthropic、Google、Mistral、xAI与Moonshot等厂商的19个模型。结果显示，所有被测模型整体来看，在20次连续交互后，文档平均出现50%的内容劣化，即原始内容出现缺失、扭曲或错误；即使是Gemini 3.1 Pro、Claude 4.6 Opus与GPT-5.4等表现最佳的先进模型，平均仍会造成约25%的文档内容劣化。其中，整体表现最优的Gemini 3.1 Pro，也仅在52个领域中的11个领域达到研究团队定义的委派式工作可用门槛。

研究还指出，模型能否稳定处理委派任务，与文档所属领域高度相关。在52个测试领域中，广泛用于程序开发与数据处理的编程语言Python，是唯一有多个模型达到研究团队可用门槛的领域。相比之下，模型在自然语言文档以及较少见的专业文档格式中更容易出现严重错误。

值得注意的是，文档内容劣化并非由大量小错误逐步累积，而是由少数关键性失误导致。研究指出，约80%的总劣化源于少数关键错误。表现较差的模型失败时，常见问题是删除内容；而先进模型更常出现改写、扭曲或生成幻觉内容，文字看似保留，实则已偏离原始意图。

研究团队还测试了让模型搭配文件读写与代码执行等通用型代理工具，但结果并未改善表现，反而平均增加6%的内容劣化。研究人员指出，问题不在于工具本身，而在于通用工具未必能支持不同专业文档所需的精准操作；当模型无法以程序化方式完成修改时，仍可能采用读取并重写整份文档的方式处理，从而增加内容被误删、改写或掺入幻觉的风险。

VentureBeat进一步指出，这项研究对企业的检索增强生成（Retrieval-Augmented Generation，RAG）系统也具有警示意义。若企业RAG系统在多步骤任务中提供过多看似相关、但实际不应纳入判断的信息，模型可能在后续处理中引用错误数据，导致错误逐步累积。VentureBeat援引论文共同作者、微软研究院资深研究员Philippe Laban的说法指出，RAG流程不应仅以单轮检索基准测试评估，而应置于多步骤工作流程中观察，才能反映检索不精准在长流程任务中引发的连锁影响。

对企业与AI系统部署者而言，这项研究凸显，在部署AI代理处理知识型工作时，应将工作流程拆解为短程、可检查且透明的任务，并在每个关键步骤后进行人工复核。

对开发者而言，研究人员也提醒，单纯提供AI代理文件读写或代码执行等通用工具并不足够，还需构建面向特定领域、范围明确的工具与测试流程。例如，针对账册或企业内部文档格式设计专用函数，使模型能以更可控的方式完成数据计算、项目移动、格式转换或内容合并。

技术名词 AI模型长流程文件公司

CB科技站

先进AI模型处理长流程文件任务仍不可靠，内容被改写后更难察觉

与本文相关的文章