加利福尼亚州大学和Google研究院的一篇新论文指出,少数“基准”机器学习数据集主要来自有影响力的西方机构并且经常来自政府组织,现在,它们正在日益主导人工智能(AI)研究领域。
研究人员得出结论,这种“默认”的高度流行的开源数据集如ImageNet的趋势带来了一些实际的、道德的甚至是政治上的担忧。
基于来自Facebook领导的社区项目Papers With Code(PWC)的核心数据,研究人员们认为,广泛使用的数据集只被少数精英机构引入,而这种“巩固”在最近几年已经增加到80%。
“(我们)发现,在全球范围内,数据集的使用越来越不平等,在我们的43140个样本中超50%的数据集使用对应的是由12个精英机构,主要是西方机构引入的数据集,”文件写道。
据悉,这些主导机构包括斯坦福大学、微软、普林斯顿、Facebook、Google、马克斯-普朗克研究所和AT&T。在前十名的数据集来源中有四个为业机构。
另外,该文件还将这些精英数据集的使用越来越多的特点描述为“科学中不平等的载体”。这是因为寻求社区认可的研究团队更有动力针对一致的数据集取得最先进的(SOTA)成果,而不是产生没有这种地位的原始数据集,这就要求同行适应新的指标而不是标准指标。
在任何情况下,正如该文件所承认的那样,对于资源不足的机构和团队来说,创建自己的数据集是一种过于昂贵的追求。
文件指出:“SOTA基准所赋予的表面上的科学有效性跟研究人员通过展示他们能够在一个广泛认可的数据集上进行竞争而获得的社会公信力相混淆,即使一个更具体的基准在技术上可能更合适。
我们认为,这些动力产生了‘马太效应’(即富者愈富,穷者愈穷),在这种情况下,成功的基准和引入这些基准的精英机构在该领域获得了超然的地位。”
这篇题为《Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research》的论文由来自加州大学洛杉矶分校的Bernard Koch和Jacob G. Foster、Google研究院的Emily Denton和Alex Hanna共同编写。
这项工作对其所记录的日益增长的合并趋势提出了一些问题,另外还在开放评审中得到了普遍的赞同。一位来自NeurIPS 2021的评论员评论称,这项工作对任何参与机器学习研究的人都非常有意义,并且他还预计它将成为大学课程的指定读物。
从必要性到腐败性
研究人员们指出,目前的“跑赢基准”文化是作为一种补救措施出现的,因为在三十多年前,在商业界对“专家系统”的新研究热情下降之后,缺乏客观的评估工具导致了对AI的兴趣和投资第二次崩溃。
文件认为,这种非正式的标准化文化的最初优势开始被当一个数据体变得强大到足以有效定义其使用条款和影响范围时自然发生的缺点所抵消。
研究人员们建议,跟最近许多行业和学术界对这个问题的想法一致,如果不能通过现有的基准数据集解决这些问题,研究界就不再能提出新的问题。
此外,他们还指出,盲目遵守这少量的“黄金”数据集会鼓励研究人员取得过度拟合的结果。
政府对计算机视觉研究的影响
根据这篇论文,计算机视觉研究受其概述的综合症的影响明显大于其他部门,研究人员们指出,自然语言处理(NLP)研究受到的影响要小得多。他们认为,这可能是因为NLP社区更协调、规模更大而且NLP数据集更容易获得、更容易整理、在数据收集方面也更小、资源密集度更低。
在计算机视觉领域,尤其是关于面部识别(FR)数据集,研究人员们认为企业、国家和私人利益经常会发生冲突。
而对于FR任务,研究人员发现,纯学术数据集的发生率跟平均值相比大幅下降。
在上图中则可以看到,相对较新的Image Generation领域在很大程度上依赖于现有的、更古老的数据集,而这些数据集并不打算用于这一用途。
事实上,这篇论文观察到数据集“迁移”的趋势变得越来越明显,从而使人怀疑它们是否适合新的或偏远的研究部门的需要以及预算限制可能在多大程度上将研究人员的雄心泛化到现有材料所提供的较窄的框架中,而这种文化又非常痴迷于每年的基准评级以至于新的数据集难以获得吸引力。
关于近年来越来越多的机器学习名人呼吁增加数据集的多样性和策划,研究人员也支持了这种观点,但他们认为这种努力即使成功也有可能被当前文化对SOTA结果和既定数据集的依赖所破坏。