最新消息:关注人工智能 AI赋能新媒体运营

Cloudflare推出内容协商转换服务,支持AI爬虫实时将网页转换为Markdown格式

科技资讯 admin 浏览

Cloudflare 推出 Markdown for Agents 服务,主打通过 HTTP 内容协商机制,让 AI 爬虫与 AI 代理在发送请求时通过 Accept 头部表明偏好 text/markdown,针对已启用该功能的网站,由 Cloudflare 网络在可行时将源站的 HTML 实时转换为 Markdown 后返回,降低 AI 系统抓取网页内容时的预处理负担。

Cloudflare 表示,对 AI 系统而言,直接处理 HTML 通常需要先忽略大量与语义无关的标签和布局元素,会造成词元消耗与解析成本。以同一篇博客文章为例,Cloudflare 指出原始 HTML 为 16,180 个词元,转换为 Markdown 后仅为 3,150 个词元,词元用量减少 80%。代理获取更精炼、结构更清晰的文本格式后,就能将更多上下文窗口留给内容主体。

Markdown for Agents 通过 Accept 头部触发内容协商,当请求包含 text/markdown 时,Cloudflare 会先向源站获取原始 HTML,随后在传输过程中完成转换,并以 text/markdown 响应,同时通过 vary: accept 标识响应内容会因 Accept 头部不同而变化。转换后的响应还会附带 x-markdown-tokens 头部,用于提供该份 Markdown 文件的词元估算值,供代理在读取前评估上下文窗口规划或分段策略。

Cloudflare 还将此 HTML 转换为 Markdown 的功能,与自家此前提出的内容信号(Content Signals)框架整合。内容信号政策中定义了 search、ai-input、ai-train 三种用途语义,网站可通过 robots.txt 表达数据使用的偏好,而转换为 Markdown 的响应默认会标记内容可用于 AI 训练、搜索索引,以及作为 AI 系统输入等用途。

此外,Cloudflare 将观测机制纳入 Cloudflare Radar 数据平台。Cloudflare 表示,Radar 的 AI Insights 新增了以 MIME 类型分组的 content_type 维度,让用户观察 AI 机器人与爬虫抓取的内容类型分布,分类中也纳入了 Markdown。在符合条件的情况下,各个 AI 爬虫的专属信息页上会显示该爬虫实际获取的内容类型分布。

Markdown for Agents 目前以测试版提供,启用入口位于 Cloudflare 控制面板的快速操作中。该功能目前面向 Pro、Business、Enterprise 方案,以及 SSL for SaaS 用户开放,不额外收费。