Apache基金会旗下的文档内容分析工具Apache Tika曝出一项严重的XML外部实体(XML External Entity,XXE)漏洞,编号CVE-2025-66516,CVSS风险评分为10分满分。攻击者只需发送包含特制XFA(XML表单架构)表单的恶意PDF文件,即可在无需身份验证且无需用户交互的情况下,远程读取服务器上的敏感数据或向内部系统发起请求。
Apache Tika是用Java实现的开源内容分析工具,能够从上千种文件格式中提取文本与元数据,常被集成到搜索引擎、内容管理系统及各类数据处理平台中,用于处理用户上传文件或批量导入文档。该XXE漏洞通报指出,Tika核心模块tika-core、部分PDF专用模块tika-pdf-module,以及旧版1.x分支中的tika-parsers,均在特定版本区间内受影响,整体覆盖范围从1.13一直延伸至3.2.1版,具体影响范围因模块而异。
该漏洞允许攻击者在PDF中嵌入特制的XFA内容,诱使Tika在解析过程中处理外部实体,从而通过XXE访问本地文件或向内网及第三方服务发起请求,形成信息泄露与服务器端请求伪造(SSRF)风险。此类漏洞若结合整体架构与权限配置,可能进一步被用于获取更多系统信息或影响服务可用性,但目前公开资料主要仍聚焦于敏感数据泄露与内部资源被滥用的情形,并未提及已出现大规模攻击事件。
此次新编号CVE-2025-66516,官方说明是对8月公布的CVE-2025-54988的补充与修正。当时仅指出PDF解析模块tika-parser-pdf-module中PDFParser处理XFA内容的问题,但后续调查发现,真正与修复相关的代码位于tika-core模块中,同时旧版1.x分支的PDFParser实际归属于tika-parsers模块,未被最初公布的CVE所涵盖。
由于Tika常部署在后端服务中,负责处理大量文档,例如搜索索引、邮件归档、企业内容管理与合规审计系统等。这些系统通常会自动解析用户上传或批量导入的PDF文件,因此只要任一服务节点仍使用受影响版本,就可能被恶意PDF触发XXE,使攻击者绕过前端验证,在文档处理层打开一条通往内部资源的通道。
GitHub公告指出,受影响模块包括tika-core与tika-parser-pdf-module,修复版本均为3.2.2;而Tika 1.x分支中的PDFParser所依赖的tika-parsers模块,受影响版本为1.13至1.28.5,修复版本为2.0.0。对于仍在使用Tika 1.x的环境,需将相关依赖升级至Tika 2.x或3.x版本,方可同时规避此次CVE风险及已停止维护分支带来的安全隐患。