最新消息:关注人工智能 AI赋能新媒体运营

GPT-5引爆OpenAI爬虫活动,流量激增三倍

科技资讯 admin 浏览

OpenAI的爬虫大军,正在悄悄改变互联网

自2025年8月GPT-5上线以来,全球数百万网站的服务器日志里,出现了一个越来越频繁的名字:OAI-SearchBot。这不是一个普通的机器人,它不像过去那些只抓取网页存档的爬虫,而是24小时不间断地扫描新闻、论坛、社交媒体和学术平台,目标明确——捕捉最新、最真实的信息,喂给正在进化的ChatGPT。

数据显示,OpenAI的网络爬虫活跃度在短短半年内飙升了300%。在一些科技媒体和医疗资讯网站,单日访问量从几百次暴涨到数千次。有网站管理员透露:“我们一开始以为是DDoS攻击,后来查了IP才发现,是OpenAI的爬虫在疯狂抓取。”

它不只在“学习”,更在“搜索”

过去,OpenAI主要依赖GPTBot收集文本做模型训练,但现在,OAI-SearchBot已经成了主力。它不光是“读”内容,还在“问”问题——比如,今天谁当选了新一任加拿大总理?某地突发地震后,官方通报了哪些疏散信息?这些实时问题,不再靠模型“背诵”旧数据,而是直接调用最新网页结果。

这种转变,让ChatGPT的回答越来越像一个“会说话的搜索引擎”。当你问“最近有哪些疫苗获批”,它不再给你2024年的汇总,而是能引用上周FDA官网发布的公告。这种能力,让医疗从业者、记者、研究人员开始依赖它,也让更多网站意识到:你的内容,正在被AI当“参考文献”用。

谁在被“抓”,谁在被“忽略”

受影响最大的,是新闻门户、专业博客和开放获取的学术平台。BBC、The Verge、PubMed Central等站点的爬虫访问量激增,而一些封闭的付费内容平台、会员制社区,访问量却基本没变——OpenAI似乎有意识地绕开了那些需要登录或付费才能访问的内容。

但这并不意味着你可以“躲过去”。许多中小型媒体发现,即使没被明确抓取,只要内容被大站转载、被社交媒体传播,依然会被OAI-SearchBot顺藤摸瓜找到。一位独立博主说:“我写的一篇关于抑郁症治疗的长文,被三个大号转了,结果一周后,ChatGPT直接引用了我的段落,没提我名字。”

谷歌还在,但不再是唯一答案

尽管OpenAI的爬虫总量目前只有谷歌的4%左右,但它的增长速度远超预期。谷歌每天有数十亿次爬取请求,而OpenAI的爬虫正以每月20%以上的速度扩张。更重要的是,它不追求“全网覆盖”,而是精准打击“高价值实时信息”。

业内分析认为,OpenAI的目标不是取代谷歌,而是成为“AI时代的答案引擎”。用户不再需要打开搜索页,直接在对话框里问问题,AI就给出融合了最新网页和自身知识的回答。这对传统搜索引擎构成了前所未有的挑战。

网站该屏蔽,还是该拥抱?

现在,网站运营者面临一个两难选择:

  • 屏蔽OpenAI爬虫?你的内容将不会出现在AI的回答里,流量可能被悄悄抽走。
  • 放行爬虫?你的原创内容可能被AI直接引用,却不带来任何流量回流,甚至被当作“免费素材”。

一些网站已经开始行动。《纽约时报》和《华尔街日报》已明确要求爬虫不要抓取其深度报道;而Medium、Substack等平台则选择开放,但要求AI在引用时必须标注来源——尽管目前大多数AI系统并不遵守。

2026年,一个新词正在流行:“AI流量漏斗”。内容创作者不再只看Google排名,还要看“是否被AI引用”“是否出现在ChatGPT的答案里”。没有被AI抓取的内容,正在悄然失去新一代用户的注意力。

OpenAI,人工智能,AI

未来已来,但规则还没定

目前,全球还没有统一的法律要求AI必须注明来源、支付版权费或获得授权。OpenAI也从未公开承认其爬虫是否绕过robots.txt,或是否对抓取内容进行商业使用。

但有一点是确定的:互联网正在从“人找信息”转向“AI替人找答案”。而决定谁的信息能被看到、谁的内容能被传播的,不再是搜索引擎的算法,而是那些在后台默默扫描、学习、重组的机器人。

你写的东西,可能正在被AI读完,然后告诉千万人“这是对的”。而你,连一句“谢谢”都收不到。