知识图谱总结

常识知识图谱: Cyc:An introduction to the syntax and content of cyc ConceptNet:“Conceptnet—a practical commonsense reasoning tool

NEIL: Extracting Visual Knowledge from Web Data

知识图谱总结

背景

动机

NEIL可行原因:

贡献

相关工作

3、技术方法

3.1 通过谷歌图像搜索的种子分类器

3.2 关系抽取

3.3 通过标记新实例进行再训练

实验细节

4、实验结果

4.1 NEIL的统计数据

4.2 定性细节

4.3 通过人体受试者评估质量

4.4 运用知识完成视觉任务

背景

提出了NEIL(永无休止的图像学者),一个每天24小时,每周7天运行的计算机程序,自动从互联网数据中提取视觉知识。NEIL使用一种半监督学习算法来共同发现常识关系(例如,“Corolla是一种/看起来类似于Car”,“Wheel是Car的一部分”),并给给定的视觉类别的实例标上标签,这是一个尝试开发世界上最大的可视化结构化知识库,以最少的人力标记工作。截至2013年10月10日,NEIL已经在200个核心集群(超过350K CPU小时)上连续运行了2.5个月,拥有1152个对象类别、1034个场景类别和87个属性的本体。在此期间,NEIL发现了1700多个关系,标记了400K多个可视化实例。

动机

计算机视觉最近的成功主要归功于视觉知识的不断增长,如场景、物体、动作、属性以及它们之间的上下文关系等。但当我们继续前进时,一个关键的问题出现了:我们如何在一个巨大的规模上收集这些结构化的视觉知识?最近的尝试如ImageNet和Visipedia试图利用人类智能来完成这项任务,我们认为这类方法缺乏收集大量视觉知识所需的丰富性和可伸缩性。ImageNet中只有7%的数据有边界框,关系仍然通过Wordnet提取。本文提出了一种从互联网规模数据中自动提取视觉知识的方法,从图像和视频中自动提取知识的可行性本身取决于计算机视觉的技术水平。虽然我们已经见证了检测和识别任务的重大进展,但要自动提取给定图像的语义内容,我们还有很长的路要走。那么,真的有可能使用现有的方法直接从网络数据中收集视觉知识吗? 1.1 NEIL:一个每天24小时,每周7天运行的计算机程序。为了(1)语义理解网络上的图像 (2)利用语义理解,用新的标记实例和常识关系来拓展其知识库(3)使用这个数据集和这些关系构建更好的分类器和检测器,反过来有助于提高语义理解。 NEIL是一个受约束的半监督学习系统,利用大规模的视觉数据来自动提取常识关系,然后用这些关系来标记现有类别的视觉实例,是一种尝试以最少的人力开发世界上最大的视觉结构化知识库(反应互联网上图像的事实内容的知识库,这将对许多计算机视觉和人工智能工作有用)。 NEIL可以使用web数据提取(1)带有边界框的对象类别的标记实例(2)已标记的场景实例(3)标记属性的例子(4)物体类别的可视子类(5)关于场景、物体和属性的常识关系。

NEIL可行原因:

(1)宏观视野vs.微观视野: “微观视野”这个术语来指代传统范式:输入是一张图像,输出是从图像中提取的一些信息。 “宏观视野”定义为一种范式:输入是大量图像,所需的输出是在视觉数据中提取重要或有趣的模式(例如,在赛道上经常检测到汽车)。这些模式帮助我们提取常识关系。 注意,关键的区别在于,宏观视觉不需要我们理解语料库中的每一幅图像,并提取出所有可能的模式。相反,它依赖于理解一些图像,并从统计上结合这些证据来建立我们的视觉知识。 (2)视觉世界的结构:利用视觉世界的结构,建立了检测和分类的约束,这些全局约束以类别之间的常识关系表示,大多数以前的工作使用手工定义的关系或在监督设置中学习关系。我们的关键见解是,在大范围内,人们可以在联合半监督学习框架中同时标记可视化实例和提取常识关系。 (3)语义驱动知识获取,对视觉知识使用语义表示,基于语义类别对视觉数据进行分组,并建立语义类别之间的关系,这允许使用基于文本的索引工具来初始化可视化知识库学习。

贡献

(1)提出了一种通过宏观视野从互联网上收集视觉知识的永不停歇的学习算法。在一个200核的集群上,NEIL已经连续运行了2.5个月; (2)正在自动地建立一个大型的可视化结构化知识库,它不仅包括场景、对象和属性的标记实例,还包括它们之间的关系。虽然NEIL的核心SSL算法使用固定的词汇表,但也使用来自NELL本体的名词短语来增加我们的词汇表。目前,我们不断增长的知识库拥有1152个对象类别、1034个场景类别和87个属性的本体。NEIL已经发现了1700多种关系,并标记了这些类别的400K多个可视化实例。 (3)我们展示了在巨大的规模下联合发现关系和标记实例如何为改善半监督学习提供约束。

相关工作

近年来的研究主要集中在以大数据集的形式提取知识进行识别和分类。 构建数据集常用的方法是由积极的团队或者群体的力量进行手动注释,为了最大限度地减少人工工作量,最近的研究也集中在主动学习,主动学习选择最有信息的标签请求。然而,这两个方向都有一个主要的限制:注释代价昂贵,容易出错。有偏差而且不能伸缩。 另一种方法是使用视觉识别从互联网上自动提取这些数据集。自动创建数据集最常用的一种方法是使用图像搜索结果,并通过视觉分类器或是文本和视觉空间中的某种形式的联合聚类对其进行重新排序。另一种使用半监督框架,少量标记数据和大量未标记数据一起使用,来学习可靠和健壮的可视化模型,这些种子图像可以手动标记或者基于文本搜索的手动检索。 自动化方法的问题是少量的标记实例或图像搜索结果不能为学习鲁棒的视觉分类器提供足够的约束,这些方法存在着语义偏移(避免语义偏移的一种方法是利用基于可视数据的附加约束:基于视觉相似度、语义相似度或者多个特征空间,这些约束在本质上是弱的,视觉相似性仅仅建模了视觉相似的图像应该受到相同的标签的约束,另一方面,我们的视觉世界是高度结构化的,物体种类共享部分属性,对象和场景有很强的上下文关系),因此需要一种方法来捕捉视觉世界的丰富结构,并且在半监督学习中利用这种结构。 近年来通过上下文关系建模我们视觉世界的丰富结构方面取得了巨大的进步,所有的这些关系可以提供丰富的约束,这些约束可以帮助改进SSL。但是最大的问题是如何获得这些关系。 一种是通过文本分析的方法,然而正如已经指出的那样,我们需要获得的视觉知识如此明显,以至于没有人会花时间把它写下来并放到网上。 在这项工作中,我们认为在大规模情况下,人们可以共同发现关系和约束SSL问题来提取视觉知识和学习视觉分类器和检测器。根据基于文本的永不停息的学习算法,我们提出一种永不停息的视觉学习算法,该算法在提取全局关系、标记数据和学习分类器、检测器之间循环,用于从互联网构建视觉知识,我们的工作也与属性发现有关。在我们的示例中,只关注语义属性,目标是发现语义关系并对可视化实例进行语义标记。

3、技术方法

我们的目标是从网络上的视觉数据池中提取视觉知识。 视觉知识定义为任何有助于提高视觉任务(如图像理解和物体/场景识别)的信息。 视觉知识的一种形式是标记不同类别或标记段/边界的例子。标记的例子帮助我们学习分类器或检测器,并提高图像理解能力。另一个视觉知识的例子是关系。例如,空间上下文关系可以用来提高物体识别的能力。本文将视觉知识表示为语义类别的标注实例以及语义类别之间的关系。 我们的知识库由以下的例子组成:(1)对象(如Car, Corolla);(2)场景(如Alley、Church);(3)属性(如蓝色、现代)。注意,基于对象,我们学习检测器,对于场景,我们构建分类器,然而在本文的其他部分,我们将交替使用术语检测器和分类器。知识库中包含四种关系:(1) Object-Object (e.g., Wheel is a part of Car);(2) Object-Attribute (e.g., Sheep is/has White);(3) Scene-Object (e.g., Car is found in Raceway); (4) Scene-Attribute (e.g., Alley is/has Narrow). 方法概要如图所示: 使用谷歌搜索来下载每个对象、场景和属性类别的数千张图像,然后我们的方法使用一种迭代方法来清理标签,并以半监督的方式训练检测器、分类器。 对于一个给定的概念(如汽车),首先使用基于范例的聚类方法发现潜在的视觉子类别和这些子类别的边界框。然后使用聚类和定位的结果训练一个概念的多个检测器(每个子类别一个检测器)。然后这些检测器和分类器用于对数百万幅图像进行检测,学习基于共发生统计的关系。 在这里,我们利用了我们对宏观视角感兴趣的事实,因此只使用自信检测/分类构建共现统计。一旦我们有了关系,我们将它们与我们的分类器和检测器一起使用来标记大量的噪声图像(第3.3节)。将最有信心的标记图像添加到标记数据池中,并用于重新训练模型,这个过程会不断重复。在每次迭代中,我们学习更好的分类器和检测器,这反过来帮助我们学习更多的关系,并进一步约束半监督学习问题。下面详细描述每个步骤。

3.1 通过谷歌图像搜索的种子分类器

半监督算法的第一步是为视觉类别创建分类器。建立分类器的一种方法是通过一些人工标注的种子图像。这里采用基于文本的图像检索引擎为训练初始化检测器提供种子图像。对于场景和属性分类器,直接使用这些检索到的图像作为正数据。然而这种方法失败的原因主要有四个: (1)离群值,由于基于文本的图像检索不完善,下载的图像通常有不相关的图像/离群值 (2)一词多义ii,很多情况下,语义类别可能会超载,一个语义类别可能有多个含义(apple可以同时表示公司和水果) (3)视觉多样性,由于不同的视点、光照等原因,检索到的图像可能存在着较大的类内变异 (4)定位,在许多情况下,检索到的图像可能是一个没有边界框的场景,因此需要在训练检测器之前对概念进行定位。 目前的大多数方法都通过聚类来处理这些问题。聚类有助于处理视觉多样性和发现多义检索,可以帮助我们根据聚类中心的距离来排除异常值,聚类的一种简单方法是在所有可能的边界框上使用k-means,然后使用具有代表性的集群作为视觉子类别。然而使用k-means聚类存在两个问题:(1)高维性,我们使用color HOG表示和标准距离度量在高维中不能很好的工作(2)可伸缩性,大多数聚类方法倾向于划分完整的特征空间,在给出的示例中,由于没有提供边框,所以每个图像都会创建数百万个数据点,其中大多数数据点都是异常值,最近的研究表明,k-means是不可伸缩的,由于他为每个数据点分配成员,所以性能很差。 建议对聚类使用以下两步方法:第一步,从谷歌image search中挖掘下载的图像集用来创建候选对象窗口,具体来说,每一幅图像都用于使用最近提出的exemplar-LDA训练检测器,然后使用这些探测器对下载的同一组图像进行密集检测,从多个检测器中选择得分较高的前k个窗口,修剪出异常值,因为候选窗口是通过代表性选择的,在图三中,没有任何一个三轮车探测器指向圆点或是人们吃东西这样的异常点,这些图像在候选阶段已经被拒绝,一旦有了候选窗口,就在下一步对他们进行聚类。但是不使用高维的CHOG表示来进行聚类,使用每个窗口的检测痕迹(表示为窗口上种子检测器的ELDA分数的向量)创建K*K亲和矩阵,亲和矩阵的元素(i,j)项是窗口i和j的这个向量的点积。直观的说,如果在两个窗口上触发了同一组检测器,这一步将连接候选窗口,一旦有了亲和力矩阵,将使用标准的亲和性传播算法对候选窗口进行聚类,亲和传播算法允许我们为每个聚类提取一个代表性窗口,充当对象的标志性图像。聚类之后我们使用集群中四分之三的图像为每个聚类/子类别训练一个检测器,剩下的四分之一用作校准的验证集。

3.2 关系抽取

一旦我们初始化了对象检测器、属性检测器、属性分类器和场景分类器,我们可以使用它们自动地从数据中提取关系,核心思想是:我们不需要从互联网上下载每一张图像,而是要大规模检测和分类的统计模式。这些模式可用于在每次迭代关系中选择top-N关系。具体来说,我们提取了四种不同的关系: (1)object-object关系: 1)包括部分关系如眼睛是婴儿的一部分 2)分类关系:如BMW320是一种车 3)相似性关系:如天鹅与鹅看起来相似。 为了提取这些关系,首先构建一个共检测矩阵,矩阵中的元素表示同时检测到对象类别i和j的概率。直观上,当对象检测器i检测到的包围框中包含的对象j时,共检测矩阵中的值就高。 为了考虑到到处发射的探测器和有很多探测的图像,将共检测矩阵归一化,归一化的矩阵中的元素表示检测器i对于图像物体类别j的顶部检测的平均分。 一旦我们选择了一种类别之间的关系,我们会学习他在相对位置、相对长宽比、相对分数

精彩链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: