plagiarism-incidents

关于A Roadmap for Big Models部分篇章涉嫌抄袭的讨论

事件整理

缘起

2022年4月8日,Nicholas Carlini在个人主页发表了一篇博客,指出arXiv预印论文A Roadmap for Big Model(下称Big Model论文)中部分章节抄袭了他的论文Deduplicating Training Data Makes Language Models Better,并展示了抄袭部分的文字比较(见下图),同时他指出,A Roadmap for Big Model可能同时抄袭了十余篇其他论文。

论文A Roadmap for Big Model (v1)1 论文Deduplicating Training Data Makes Language Models Better (v2) Nicholas Carlini发表的博客

Twitter热议

2022年4月12日,被抄袭论文的一作Katherine Lee在推特转发了Nicholas Carlini的博客,并表示论文中复制文字应用引号注明,并明确的引用相关论文。该推特得到了广泛的关注,并在推特引起热议。截至目前已经获得1,333点赞以及212转发。

ViT作者Lucas Beyer转发了该推特,表示希望此次事件不会以“临时工背锅”的方式潦草收尾。

滑铁卢大学教授Gautam Kanmath回复,并指出该论文在arXiv页面被管理员标注为“text overlap”(文字重复),即便如此,Big Model论文的作者也没有选择修改相关章节。

2022年4月12日下午,该事件被转发到Reddit r/MachineLearning社区,引起广泛讨论。

截图1 截图2 截图3 截图4 Reddit页面截图

知乎讨论

2022年4月22日下午,该事件在知乎上的到广泛讨论,随后以13M热度登上知乎热榜。非常多的用户对于此次事件发表了自己的看法,推荐移步知乎了解更多细节和相关讨论。

一位自称Big Model论文的junior作者在知乎匿名回应了此次事件并披露了一些成文过程中的细节,提出的一些问题值得思考。

截图1 截图2

官方回应

次日(2022/04/13),BAAI官方在知乎/Twitter/官网发布了就此次事件的调查结果,BAAI声称邀请了“第三方专家”进行独立调查,承认了改论文部分章节存在的抄袭行为。官方及时正面回复此次事件的态度值得赞赏,但遗憾的是既没有披露抄袭事件更多的细节,也没有公布对于涉事人员任何的追责惩罚。

截图1 截图2 截图3 截图4

1: 被广泛用作的抄袭调查的A Roadmap for Big Model (v2)已被从arXiv删除。