2017 年 7 月 26 日,CVPR 2017 研讨会“超越 ILSVRC”将正式宣布ImageNet 竞赛结束。然而,这并不代表着领域对图像识别兴趣的消退。实际上,相关的关注度正在走高。
ImageNet 竞赛对计算机视觉尤其是图像识别技术的发展起到了很大贡献,其中,拥有大规模人工标注数据集这一点十分关键。但是,收集由人工精心标注的数据用于训练成本高昂。很多实际领域,如商业、金融、医疗等,面临的问题不是缺少数据,而是数据缺乏专家标注和标注不统一。因此,越来越多的研究者开始关注利用低成本数据(比如不含人工注释的数据)来训练图像识别系统。
在不同的解决方案中,从互联网抓取数据和使用网络作为学习深度表征的监督来源在各种计算机视觉应用中都显示出了很强的实用性。
今年上半年,苏黎世联邦理工大学联合谷歌苏黎世研究院等机构发布了一个名为 WebVision的大规模 Web 图像数据集,用于视觉识别。基于此数据集,他们还举办了一个视觉理解挑战“Challenge on Visual Understanding by Learning from Web Data”,也即WebVision 竞赛。
接棒 ImageNet 的 WebVision 竞赛:难度更高,更贴近实用
WebVision 竞赛由苏黎世联邦理工(ETH)、Google Research、卡耐基梅隆大学(CMU)等共同组织,被誉为接棒 ImageNet 的竞赛。ImageNet 和 WebVision 皆专注于物体识别,使用相同的 1000 个物体类别进行识别竞赛;但两者数据的纯度和平衡度有根本差异。
WebVision 所用数据集直接从互联网爬取,没有经过人工标注,数据含有很多噪音,且数据类别的数量存在着极大不平衡,相较于 ImageNet 比赛数据都属干净数据(完全人工标注),WebVision 难度提高许多,但同时也更加贴近于实际应用中的场景。
据悉,WebVision 数据库涵盖了直接从网络收集到的 240 万张图像,包括来自谷歌搜索的 100 万张,以及来自 Flickr 的 140 万张图像。
此次WebVision数据库有极大的不平衡性
这次全球有超过 100 个团队注册参加 WebVision 竞赛,并因为参赛团队过多一度将比赛截止日期延期。一些团队在比赛后选择匿名并不公开结果,在公开提交结果的团队中,SnapChat、清华大学、上海科技大学、UCF 等来自世界各国的顶尖学术和研发机构均榜上有名。
全球有超过 100 个团队注册参加此次 WebVision 竞赛
有越来越多的观点认为,最近两届的 ImageNet 挑战赛更多比拼的是人力与机器算力,而不是算法本身。 ImageNet 的既定数据库已经很难催生突破性深度学习技术。或许,这也是 WebVision 竞赛有众多团队参与的原因之一。WebVision 更加复杂和不平衡的数据库更具有算法挑战性,也会驱动算法的创新。
冠军团队技术分享
值得一提,来自中国的初创公司团队码隆科技取得了这次 WebVision 竞赛的第一名,他们提交的五次识别结果正确率,占据了全部识别结果正确率排名的前五名,并且最佳结果(94.78%)比第二名高出2.5%,这在计算机视觉的技术竞赛领域是很大优势(去年 ImageNet 图像识别比赛第一名只比第二名高出 0.04%)。
码隆科技的算法工程师在接受新智元采访时表示,由于 WebVision 和 ImageNet 相比,主要挑战是数据没有经过人工标注,含有大量的噪音,所以他们采用了半监督学习的方式。
研究人员首先利用所有的元数据训练一个粗模型,利用这种粗模型对所有元数据提取一种特征表示。然后,引入课程学习(curriculum learning),设计了一种聚类算法,将每一个元数据类别聚成了不同层次的类别,其中有一个类别属于比较干净的类别。然后,利用这个这组干净的数据训练一个精细模型。通过逐步增加噪声数据的数量,提升模型复杂度和泛化能力。
对于获胜得到的最大启发,码隆算法团队表示:
“这个比赛最大的目的就是如何利用非人工标注的数据来训练一个更好的深度模型。在比赛初期,我们通过仔细审查的举办方的数据,发现数据里面有非常大比例的数据标注是错误的。于是,我们摸索了一种针对含有噪声数据的训练策略,该训练策略第一次将半监督学习(Semi-Supervised Learning)与课程学习(curriculum learning (2009 年由 Y. Bengio 等提出)这种学习方式引入到大规模的噪声数据训练中。
“新设计的算法策略有效地抑制错误标注的负面影响。最重要的是,这种算法能够有效地利用这些错误标签来大大提升模型的鲁棒性,同时让所训练的模型比用 ImageNet 人工标注数据所训练的模型具有更好的泛化能力,具有更强的通用性,能够更好的迁移到其他相关任务。”
WebVision 竞赛结果表明,现代深度学习技术可以不完全以人工标注数据为基础,为今后研究通用的半监督和无监督学习打开了一扇门,也为弱人工智能到强人工智能的发展迈出重要一步。
超越 ILSVRC:侧重图像学习和理解的 WebVision 竞赛
摘 要
我们提出 2017 年 WebVision 竞赛,这是一项公开的图像识别挑战赛,旨在基于网页图像进行深度学习,而无需人手工对实例进行标注。此前的计算机视觉挑战赛,如 ILSVRC、Places2 和 PASCAL VOC,通过提供大量的注释数据,用于模型设计和标准化的基准测试,为计算机视觉的发展发挥了关键作用。为了延续它们的精神,我们在本届 CVPR 2017 举办研讨会,进行一项基于大规模网络图像数据集的公开竞赛。WebVision 数据集包含从互联网上用爬虫收集的 240 多万的网络图像,方法是使用从 ILSVRC 2012 基准中的 1000 个语义概念生成的查询(query)。元信息(Meta information)也包含在内。
此外,WebVision 数据集也提供检验数据集和测试数据集,这些数据集中的数据都带有人手工标注的标签,从而便于算法的开发。2017 年 WebVision 挑战赛分为两类,一是在 WebVision 测试数据集上进行图像分类,以及在 PASCAL VOC 2012 数据集上进行迁移学习。在本文中,我们描述了数据收集和注释的细节,突出了 WebVision 数据集的特点,并介绍了相关评估指标。
(原标题:WebVision竞赛中码隆科技荣获世界第一)