arXiv近日公布了关于AI生成内容的投稿规定,强调作者必须对论文内容承担全部责任;若投稿中出现明显未经人工核查的AI生成痕迹,相关作者可能面临一年内不得投稿的处罚。
arXiv成立于1991年,是全球重要的预印本平台,广泛应用于物理、数学、计算机科学与人工智能研究。这一规定由arXiv计算机科学领域主席Thomas Dietterich在X平台上对外说明。Dietterich为美国俄勒冈州立大学荣誉教授,长期从事机器学习与AI安全研究,也曾担任AAAI(人工智能促进协会)主席。
Dietterich表示,根据arXiv的行为准则,只要研究人员在论文上署名,无论内容是否由生成式AI协助撰写,作者都必须对所有内容负责。若AI生成了不当语言、抄袭内容、偏见信息、错误引用或误导性表述,而作者未发现并修正,责任仍由作者本人承担。
arXiv近期已明确相关处罚措施。如果投稿内容存在“无可辩驳的证据”,表明作者根本未对大型语言模型生成的结果进行核查,该论文将被视为失去可信度。相关作者将被禁止向arXiv投稿一年,禁令结束后,未来再次投稿必须先获得具有公信力的同行评审期刊或会议录用。
所谓明显未经核查的AI生成内容,包括虚构的参考文献,或AI对话提示语残留在论文中,例如“这里有一份200字摘要,你想要我再修改吗?”或“这张表格中的数据只是示例,请填入真实实验数据”等表述。
外界普遍认为,此举是arXiv加强了对“AI垃圾论文”的防范,旨在减少包含AI幻觉和虚假引用的投稿,同时遏制研究人员依赖AI代写却不加审核的行为。Dietterich向404 Media透露,作者一旦被发现,即被禁止投稿一年。
随着AI生成内容的增多,arXiv已提升投稿门槛。该平台于2025年10月底宣布,计算机科学类别的评论、综述与立场文章,须先通过期刊或会议的同行评审;2026年1月又更新推荐制度,新用户或首次投稿新类别的作者,可能需要获得已有arXiv作者的推荐。