当前,许多学术出版平台开始借助人工智能技术来提高同行评议质量和效率,减轻评审人员的工作负担。但是,自动或半自动工具的应用也引起了伦理方面的担忧。2021年初,英国《自然》杂志刊发了英国谢菲尔德大学信息服务管理教授斯蒂芬·平菲尔德(Stephen Pinfield)、商业分析助理教授亚历山德罗·切科(Alessandro Checco)等人合作的新研究成果《人工智能辅助的同行评议》,探讨了在同行评议过程中使用人工智能协助人类决策的潜力、危险和不确定性。
未被用于直接评估论文质量
进入21世纪第二个十年,全球科研产出大幅增加。2019年12月,美国国家科学基金会发布报告称,过去10年全球科学和工程学领域经过同行评议的期刊论文和学术会议论文每年增加约4%。据同行评议平台“最小可发表单位”统计,2013—2017年全球同行评议学术期刊收到的投稿数量每年增加6.1%。此外,由于期刊间很少共享同行评议意见,而且缺少统一的“行业标准”,遭到某家期刊退回的稿件如果被投至另一期刊,通常需要再次进行同行评议。根据美国预印本平台“研究广场”对全球范围内12000份期刊进行的估算,这些期刊用于重复或不必要的同行评议的时间每年高达1500万小时。学术论文数量的显著增加,以及拒稿后的重复评议使同行评议工作压力不断上升。
切科对记者表示,当前很多基于机器学习、自然语言处理等技术的自动化学术筛查工具已被投入使用。其中,知名度较高的工具包括:用于检测心理学同行评议论文中的统计误差的Statcheck、自动检查科学文稿是否符合期刊要求的Penelope.ai、自动提取关键词以总结文稿内容的UNSILO、加拿大卫生研究院2012年引入的科研经费申请过程在线管理系统等。不过,这些工具仍处于发展初期,也受到了一些质疑和批评。
目前,人工智能工具未被用于直接评估论文质量,而是主要被用于在同行评议中帮助消灭抄袭行为、检查合规性、匹配评议员与待评议论文。切科等人希望进一步考察人工智能和大数据对同行评议过程的辅助作用,尤其是要弄清在那些冗长乏味、对智力投入和专业知识要求较低的环节中,人工智能技术将发挥何种作用。同时,与性别、语言、机构等相关的偏见可能存在于同行评议过程中,用人工智能对人类决策建模或有助于揭示并减轻这些偏见。
研究人员收集了三次国际性学术会议的资料,并将数据分为用于建立模型的训练组和用于评估模型预测能力的测试组。接下来,他们对论文进行特征提取和特征增强。这些特征被用于设计一个神经网络,它通过分析论文的词频、可读性(单词长度、句子长度、词汇复杂性等)、格式元素(可在一定程度上与研究内容分离的特征),来识别文档特征与最终的同行评议决定到底有何关联,以及这些关联有无规律可循,并据此预测一篇论文的同行评议结果。
根据平菲尔德和英国拉夫堡大学出版与信息科学教授詹妮·弗莱(Jenny Fry)等人的研究,学术出版的质量保障体系可分为同行评议前筛查、同行评议、出版后评估三个部分。第一部分检查有无抄袭、格式、元数据等,第二部分评估研究的新颖性、重要性、相关性/范围、严谨/完善程度,第三部分涉及引用率、读者评论或出版后同行评议。切科等人设计的模型包含对语言表达质量和论证质量的考察,也就是第一和第二部分的重合区域。
模型预测有助提高审稿效率
研究人员将模型预测结果与真实的同行评议决定进行对照后发现,即使只采用词语分布、可读性、格式等比较表面化的特征来训练,机器学习系统也经常能够成功预测人类评议员的决定。可能的原因主要有两点。一是表面特征与同行评议结果间的关联在一定程度上是衡量论文整体质量的标志。换言之,如果一篇论文语言不通顺、格式混乱、让人难以读懂,在其他更实质的层面上,该论文的质量也可能较低。如果是这样,表面特征可以作为有用的质量替代指标,编辑人员可采用人工智能工具筛查出疑似的低质量论文并直接拒稿,无须交给同行评议员。即使低质量稿件未被编辑直接拒绝,将它们标记出来也有助于节约同行评议员的时间和精力。二是论文的表面特征得分较低可能造成一种“第一印象偏见”——拼写、格式或语法错误等相对表面化的问题给同行评议员带来负面印象,因此遭到拒稿。如果一篇论文引用了来自科学文献代表性不足的地区的研究,或使用了曾经被拒稿的研究中的方法,也可能使同行评议员产生负面印象。在这种情况下,人工智能工具可以帮助作者在同行评议前识别并修改论文中的表面问题。
研究人员表示,此次研发的人工智能工具对同行评议员和论文作者都有益处。首先,这种工具可用于投稿前检测,第一时间提醒作者修改表面问题,以免遭到拒稿。尽管它可能将高质量但不同寻常的文字或格式选择误判为错误,但作者可以根据“警报”自行决定是否进行调整。在同行评议前消除表面问题,也能帮助同行评议员更多聚焦于论文的实质科学内容,避免因“第一印象偏见”而作出不恰当的决策。其次,人工智能工具可为经验不足的同行评议员提供参考意见,例如待评议论文的风格、语言表达、格式在多大程度上偏离了以往的研究。此外,虽然完全弄清同行评议过程中涉及的认知和决策机理是很困难的,但通过大数据分析和人工智能技术来分析人类的认知和决策过程,或可使认知和决策过程中比较表面化的部分变得清晰可见,进而揭示出表面化的因素可能造成的偏见。
考虑三个关键的伦理风险
研究人员提醒,由于训练数据来自过往,机器学习技术在本质上是保守的。使用自动工具协助未来决策时,需要预防偏见被复制或其他意外后果。例如,来自历史上科学文献代表性较低的国家的论文被拒绝的概率可能更高,因为人工智能未必能充分考虑到随着时间推移这些国家的论文质量已提高。另外,期刊编辑倾向于从高收入地区选择同行评议员。根据“最小可发表单位”2018年发布的报告,经美国学者同行评议的论文占全球论文总数的32.9%,高于美国学者发表论文的比例(25.4%)。
新研究表明,在设计和应用人工智能、决定它在决策中的作用时,需要仔细考虑三个关键的伦理风险。第一,当原始数据与它们对模型预测的影响之间的联系难以解释时,算法不透明可能导致不信任。如果同行评议决策的依据不透明,作者会不信服。应用人工智能辅助决策时应尽可能增加模型工作方式的透明性,以便对决定作出解释并证明其正当性。第二,模型是设计者遵循特定的价值观和目标而选择的设计路径的产物,这些价值观和目标将不可避免地“凝固于代码当中”。基于过往结果的机器学习模型可能传播甚至扩大学习数据中已有的文化和组织偏见。偏见还有可能源于技术限制或新兴的应用背景。第三,即使只用机器学习模型来标记有问题的论文、提供参考意见,模型对文稿的解读也可能影响同行评议员的能动性。模型将疑似问题标记出来这一行为本身,可能使这些因素在同行评议员心中的重要性上升。
切科对本报记者说,据他们观察,学术出版专业人员和同行评议员目前大多反对将人工智能应用于复杂的质量评估任务,即使只是执行较简单的步骤。反对的主要原因是人工智能工具还不能可靠地评估科学内容的质量,且透明性不足,有引入偏见的风险。我们距离使用机器学习系统评估整篇文稿的新颖性、相关性、严谨性,还有很远的距离,现有的自然语言处理工具仅能理解单一句子或段落的意思。
切科等人就未来的研究方向提出几点建议。一是要通过实验,了解同行评议员使用人工智能工具时的行为,消除模型信号给评议员制造的偏见。二是要采用完整的同行评议结果(不仅是建议接受/拒绝,还包括具体意见),来更好地训练人工智能工具。三是要扩大对“第一印象偏见”的研究范围,将更多的指标纳入考量。四是要在不同学科背景下设计和应用可执行半自动质量评估任务的人工智能工具。五是要探索如何借助人工智能技术评估科研经费申请。
来源:中国社会科学网-中国社会科学报 作者:王悠然
欢迎关注中国社会科学网微信公众号 cssn_cn,获取更多学术资讯。