图片来源于The Impact of AI-Generated Text on the Internet
来自英国帝国理工学院(Imperial College London)、美国斯坦福大学(Stanford University)以及互联网档案馆(Internet Archive)的跨机构研究团队本周发表了一项研究报告,指出自OpenAI于2022年11月推出ChatGPT以来,截至2025年年中,约有35%的新增网站内容被判定为AI生成或AI辅助生成。
研究人员从Internet Archive的Wayback Machine中采集了2022至2025年间发布的网页,采用“多维度分层抽样”(Multi-Dimensional Stratified Sampling)方法模拟对公开网页的随机抽取,并使用Binoculars、Desklib、DivEye及Pangram v3等四种AI文本检测工具,判断内容是出自人类还是AI。
结果显示,在ChatGPT于2022年底推出后,AI生成内容的比例从几乎为零迅速上升至三分之一以上,反映出生成式AI对网络内容生态的渗透速度。
研究同时检验了外界对AI内容的六项常见负面假设,包括语义收缩、事实衰退、正面语气偏移、知识孤岛、信息密度稀释与风格单一化。结果表明,仅有语义收缩与正面语气偏移获得了统计支持,其余四项未被数据证实。例如,AI生成网站的语义相似度比人类撰写网站高出33%,正面情绪得分则高出107%。
除了借助工具分析外,研究人员还对853名美国成年人进行了问卷调查,结果显示多数受访者认为上述六项负面影响正在发生。这表明公众的感知与实际数据之间存在显著差异。
总体而言,生成式AI正在重塑网络内容的生产模式与语言风格。当前的主要影响集中在内容多样性与情绪表达上,但对信息可信度的冲击尚未得到实证支持。