a 当前位置：前瞻网 » 资讯 » 产经

MIT发现：ImageNet数据集存在系统性缺陷，用作基准数据集时与真实值不一致

分享到：

Evelyn Zhang • 2020-08-04 11:37:14　来源：前瞻网　E7360G0

麻省理工学院（MIT）的研究人员近日得出结论称，著名的ImageNet数据集其实存在“系统性注释问题”（systematic annotation issues）：当用作基准数据集时，它与真实值或直接观测值不一致。

研究人员在题为“From ImageNet to Image Classification: Contextualizing Progress on Benchmarks”的论文中写道:“我们的分析精确地指出——嘈杂的数据收集管道，是如何导致基准结果和它所代表的现实世界任务之间的系统性偏差的。”“我们相信，开发能够在保持可扩展性的同时更好地捕捉底层真相的注释管道，是未来研究的重要途径。”

2009年，当斯坦福大学视觉实验室（Stanford University Vision Lab）在计算机视觉和模式识别(CVPR)会议上介绍ImageNet时，它比许多以前存在的图像数据集要大得多。ImageNet的数据集包含了数百万张照片，是在两年多的时间里收集到的。

ImageNet将WordNet层次结构用于数据标签，并被广泛用作对象识别模型的基准。直到2017年，ImageNet的年度竞赛还在推进计算机视觉领域发挥着作用。

但在仔细检查ImageNet的“基准任务错位”（benchmark task misalignment）后，MIT团队发现ImageNet大约20%的照片包含多个物体。他们对多目标识别模型的分析显示，在一张照片中有多个目标会导致总体准确率下降10%。作者说，这些问题的核心是用于创建像ImageNet这样的大规模图像数据集的数据收集管道。

“总的来说，这个（注释）管道表明，单个ImageNet标签可能并不总是足以捕获ImageNet图像内容。然而，当我们训练和评估时，我们把这些标签当作基本事实。”报告合著者、麻省理工学院博士候选人Shibani Santurkar在一个关于机器学习(ICML)的国际会议上介绍这项工作时说。“因此，这可能导致ImageNet基准测试和现实世界物体识别任务之间的不一致，无论是在我们鼓励我们的模型去做的特征方面，还是在我们如何评估它们的性能方面。”

根据研究人员的说法，一个理想的大规模图像数据集的方法是收集世界上单个物体的图像，并让专家在精确的类别中标记它们，但这并不便宜，而且也不容易进行扩展。相反，ImageNet从搜索引擎和像Flickr这样的网站上收集图片。它会从互联网搜索引擎中抓取的图片，然后由亚马逊的Amazon Mechanical Turk等外包平台对从互联网搜索引擎收集来的图片进行分类标注。

研究人员指出，Amazon Mechanical Turk给ImageNet照片贴标签时，被引导聚焦于单一物体，而忽略其他物体或遮挡物。研究人员说，其他大规模图像数据集也遵循类似的——但可能存在问题的——管道。

为了评估ImageNet，研究人员创建了一个管道，要求人类数据标签人员从多个标签中选择一个，并选择与照片最相关的标签。然后，最频繁选择的标签被用于训练模型，以确定研究人员所说的“绝对基础事实”（absolute ground truth）。

“我们利用的关键思想是利用模型预测实际增加ImageNet标签。具体来说，我们采用了广泛的模型，并将它们的前五种预测综合起来，从而得到一组候选标签，”Santurkar说。“然后我们使用人工注释者来确定这些标签的有效性，但不是问他们单个标签是否有效，我们独立地对多个标签重复这个过程。这让我们能够确定与一张图片相关的一组标签。”

但是该团队警告说，他们的方法并不是对“绝对基础事实”的完美匹配，因为他们也使用了非专业的数据标签。他们得出的结论是，对于不是专家的人来说，在某些情况下很难准确地标注图片。比如，除非你是犬类专家，否则从24种梗类犬选择一种标签可能是很困难的。

该小组的论文在5月底首次发表后，于上个月在ICML上被接受发表。这篇论文在会议上发表之前，麻省理工学院决定从互联网上删除8000万张微型图像数据集，并要求拥有该数据集副本的研究人员删除它们。

这些措施是在研究人员提请注意数据集中的攻击性标签，比如N开头的词，以及性别歧视的术语和其他贬损标签后采取的。研究人员在审查了2006年发布的8000万小图像数据集后得出结论，这些标签是WordNet层次结构的结果。

ImageNet也使用WordNet的层次结构。在ACM FaccT会议上发表的一篇论文中，ImageNet创造者表示，他们计划删除数据集Person子树中几乎所有的约2800个类别。他们还提到了其他数据集的问题，如缺乏形象的多样性。

除了用于训练和基准测试模型的大规模图像数据集之外，大规模文本数据集的缺陷是7月初计算语言学协会(ACL)会议的一个关键主题。

翻译/前瞻经济学人APP资讯组

原文来源：https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

本文来源前瞻网，转载请注明来源。本文内容仅代表作者个人观点，本站只提供参考并不构成任何投资及应用建议。（若存在内容、版权或其它问题，请联系：service@qianzhan.com）　品牌合作与广告投放请联系：0755-33069875 或 hezuo@qianzhan.com