斯坦福学者揭示:GPT-4评审Nature与ICLR论文的能力令人瞩目

AIBetas消息,2023年10月7日 – 斯坦福大学的学者近日发现,人工智能模型GPT-4对Nature和ICLR的论文给出的审稿意见,竟然与人类审稿人的意见有超过50%的相似性​。这一发现展示了大型语言模型在学术评审领域的潜力,也让人们对未来AI辅助学术审稿的可能性充满期待。

最近,来自斯坦福大学等机构的研究者把数千篇来自 Nature、ICLR 等的顶会文章丢给了 GPT-4,让它生成评审意见、修改建议,然后和人类审稿人给出的意见相比较。

GPT-4评审Nature与ICLR论文的能力令人瞩目

GPT-4和人类审稿人提出的观点的重叠(自然期刊平均重叠30.85%,ICLR平均重叠39.23%)与两位人类审稿人之间的重叠相当(自然期刊平均重叠28.58%,ICLR平均重叠35.25%)。对于较弱的论文(即被拒绝的ICLR论文),GPT-4和人类审稿人之间的重叠更大;平均重叠43.80%)。

然后,对来自美国110家人工智能和计算生物学领域机构的308名研究人员进行了一项前瞻性用户研究,以了解研究人员如何看待GPT-4系统在他们自己的论文中产生的反馈。总体而言,超过一半(57.4%)的用户认为GPT-4生成的反馈有帮助/非常有帮助,82.4%的用户认为它比至少一些人类评论者的反馈更有益。虽然我们的研究结果表明,法学硕士生成的反馈可以帮助。

同时,也发现了一些局限性。例如,GPT-4倾向于关注科学反馈的某些方面(例如,“在更多数据集上添加实
验”),并且经常努力提供对方法设计的深入批评。总之,结果表明,LLM和人类反馈可以相互补充。虽然人类专
家评审是并且应该继续是严格科学过程的基础,但LLM反馈可以使研究人员受益,特别是在没有及时的专家反馈以及在同行评审之前的手稿准备的早期阶段。

GPT-4评审Nature与ICLR论文的能力令人瞩目

如论文提到的研究,GPT-4 给出了非常有建设性的意见,反馈包括四部分。这篇论文有什么缺陷?GPT-4 一针见血地指出:虽然论文提及了模态差距现象,但并没有提出缩小差距的方法,也没有证明这样做的好处。

GPT-4评审Nature与ICLR论文的能力令人瞩目

参考论文:https://arxiv.org/abs/2310.01783

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容