最新消息:关注人工智能 AI赋能新媒体运营

Wikimedia去年的多媒体内容频宽用量大幅成长50%,主要来自AI机器人的资料爬虫

科技智能 admin 浏览 评论

维基媒体基金会(Wikimedia Foundation)周二(4/1)表示,自2024年以来,外界对于由志工建立的维基媒体社群的内容需求大幅攀升,特别是维基共享资源(Wikimedia Commons)上所存放的1.44亿个图像、影片或其它文件,下载相关多媒体内容的频宽成长了50%,其增长主要来自于AI模型的爬虫机器人,因此该基金会订定了年度计画,预计减少20%的爬虫请求,以及降低30%的爬虫资料传输流量,以节省资源及频宽,供真正需要服务的开发者使用。

该基金会指出,维基媒体的各个专案一直是全球最大的开放知识集合,不管是人类搜寻或是商用产品的存取都仰赖它们,其中,内容一直是搜寻引擎结果的关键组成部分,同时也会将使用者引导至维基媒体的网页,然而,AI的兴起使其动态产生了变化,他们观察到请求数量明显增加,所增加的流量中大多数是来自于替大型语言模型(LLM)或其它案例蒐集资料的爬虫机器人,而这些流量大部分并没有注明所取得的资料来源,同时还对维基媒体的底层基础设施造成了大量的负担。

根据维基媒体基金会的统计,自2024年1月以来,用于下载多媒体内容的频宽增加了50%,此一增长并非来自人类,主要来自自动化程序,这些爬虫程序抓取Wikimedia Commons影像目录中的公开许可图像,以将图像提供给AI模型。该平台的基础设施可承受高关注事件发生时,人类于短时间相继造访所形成的流量高峰,然而,若花费大量的时间与资源来回应非人为的流量时,该平台容纳异常事件的空间就会缩小,也衍生出愈来愈大的风险与成本。

维基媒体基金会是藉由全球的资料中心网路替使用者提供内容,当一篇文章被多次请求时,他们会在离使用者最近的资料中心记住或快取它们,倘若某篇文章很久未被请求,那么则会自核心资料中心供应,意味着此一请求必须行经从靠近使用者的资料中心到核心资料中心的所有路径,再将其储存在区域资料中心。

人类读者与机器人的差别在于,人类通常会造访特定或相似的主题,但爬虫机器人通常是批量阅读大量的页面,包括那些很少被存取的冷门页面,意谓着许多请求会被转至核心资料中心,消耗更多的资源。

在维基媒体进行系统迁移时,发现机器人浏览的网页数量仅占全体的35%,但造访其核心资料中心的流量却高达65%。

维基媒体基金会强调,他们的内容是免费的,但基础设施不是,新的财政年度将着重于负责任地使用基础设施,将工程资源优先用来该基金会的各种专案、贡献者,以及人类对知识的存取,準备减少20%由机器人产生的流量,降低30%的爬虫机器人使用频宽,估计到今年第4季时,将有50%的自动化流量可归因于已知的开发人员或应用程序,提高基础设施的可持续性并防止滥用。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论