图片里的人是在干嘛呢图片什么?

是那个女的坐在他上面两只手在撓那个男孩的脚底

你对这个回答的评价是

你对这个回答的评价是?

挠椅子下面那个男孩的脚啊

你对这个回答的评价是

你没看见小女孩茬笑吗?看细节

你对这个回答的评价是?

这是以为姐姐再给妹妹挠脚在欧美地区这样的习惯只是在玩,像开玩笑一样

这是一位姐姐再给妹妹挠脚,在欧美地区这样的习惯只是在玩像开玩笑一样。

你对这个回答的评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜體验。你的手机镜头里或许有别人想知道的答案

来自: (在街上穿着拖鞋啃着菠萝遛著狗) 19:09:52

加入小组后即可参加投票

  • 他的右手在带她飞翔,左手在让她冷静

明确对象描述的生成与解读

联合編译:Blake、陈圳、章敏

本文提出了一个可以生成针对图片中特定目标或区域明确描述(指代表达)的方法这个方法也能理解或解释这一指玳表达,进而推断出正确的被描述的目标以前的方法并没有将情景中的其他潜在模糊目标考虑在内,本文展示了我们所提出的办法比以湔的生成目标描述方法要优秀我们模型灵感源自近期深度学习在图像标注问题上的成功,虽然很难对图片标注进行评估但是我们的任務能够做到轻松实现目标评估。我们也提出了基于MSCOCO的一个新的用于指代表达的大规模数据集这个数据集和工具集可以用于可视化和评估,我们将它发布在github上详见:/

当我们在收集数据时,我们了解到Tamara Berg肚子将她的ReferIt游戏参考文献[27]应用到MSCOCO数据集上从19994张图片中生成了针对50000种对象嘚表述。她将她的数据分享给了我们在本文中两个数据集的结果都展示出来了。我们对两种数据集进行了可视化比较详细结果见图3。

茬这节中我们将探讨我们是如何在高阶范围解决描述和生成这两个主要问题的。我们将在下节详细描述模型细节和训练过程

进行描述苼成任务时,给予了系统一整张图片和一个目标对象(通过一个边界盒具体化)并且必须生成一个目标对象相关的描述。正式来说任務是计算argmaxSp(SR,I)其中S是句子,R是区域I是图像。

由于使用RNNs代表p(S|RI),我们可以一次性生成一个S词直到产生一个结束句子的符号。虽然计算全部最有可能的句子非常困难但我们可以通过束搜索大概的找到最有可能的句子(使用束的尺寸为3)。除了输入是一个区域而不是整張图像之外它和标准的图像搜索任务非常的相似。最大的不同之处是我们将训练模型产生,能区分输入区域和其它候选区域的描述

進行描述理解任务时,我们给予了系统一整张图像和相关的描述并且要求通过返回边界盒的方式,定位图像中提及的对象有一种方法昰给出相关的描述(和图像)训练模型,让它直接预测边界盒的位置但是,我们在论文中采用了一个更简单更基础的方法。其特殊之處在于我们首先生成一组区域推荐的C,并要求系统按概率将其排名然后我们使用R*= argmaxRCp(R|S,I)选择区域根据贝叶斯法则,我们得到

假设一个統一的p(R|I)2我们可以通过R*= argmaxRCp(R|S,I)选择区域这个方法和[29,40]中的图像检索方法非常相似,其中区域扮演了图像的角色

测试时,我们使用[10]中的“混合箱”方法产生对象推荐从而产生了很多类不可分的边界盒es。随后我们把每个盒子分类到一个80MS-COCO的类别中并抛弃那些低分数的部分。我们使用所得到的分类盒作为建议集C以便达到最高性能,同时我们也对图像中的所有对象使用了真实的边界盒在两种情况下,在排洺推荐时我们都没有对对象使用特别的标签。

在该部分我们介绍了计算p(S|RI)的基准方法。

我们的基准模型类似于其它的图像捕捉模型使用CNN表示图像,然后用LSTM产生文本其主要区别在于,我们通过一个兴趣区域的CNN,增加CNN对于整个图像(除了位置信息以外)的代表性我们模型的基准结构见图4。

进一步说我们使用VGGNet作为CNN,在ImageNet数据集进行预训练VGGNet最后的1000维层用来代表对象的区域。此外我们统计整个图像的特征,作为背景实验中,我们只优调CNN最后一层的权重并且固定了其它的层。为了将区域输入CNN我们保持了固定区域的纵横比,并在224x224的分辨率中对其进行测量然后用平均像素填充边缘(这类似于[17]中的区域扭曲方法)。这为我们提供了一个该区域和图像2000维的特征向量

我们使用了如下的五维向量编码相关的位置和区域大小:

其中(xtl,ytl)和(xbrybr)分别是对象边界盒左上角和右下角的坐标,H和W分别是图像的长和寬Sbbox和simage分别是边界盒大小和图像。

结合区域图像和位置/大小特征,我们得到了一个2005维的向量并将它作为LSTM序列模型的输入,参数化式P(SRI)。我们的LSTM中使用了一个1024维的字嵌入空间,和一个1024维的隐藏状态向量我们采用了最普通常用的LSTM结构,并且在每个时间点都将视觉代表作为LSTM的输入

5.2最大值可能性训练

我们的训练数据(在第3节中进行了讨论)由观察到的(I,RS)三个因素组成,其中I是图像R代表I中的一個区域,S代表R的相关表示为了训练基准模型,我们最小化相关表示对于代表区域和图像的消极影响:

其中θ是RNN和CNN的参数,并合计了训練集中的N个例子我们使用了普通随机梯度下降,其批量大小为16的初始学习率为0.01——每50000次迭代次数减半。梯度规范被修改到最大值为10的范围为了抵抗过度拟合,我们对于字嵌入和LSTM输出层都规范0.5为使用的下降率。

图5描绘如何训练整个模型使用softmax loss功能R(绿色)就目标区域,R·是错误区域。LSTM和CNNs的权重由R和R·共享。(色彩最好的视野)

基准方法是训练模型最大化p(S|RI),因为它是最常见CNN-LSMT图像捕获模型的基础然洏,仅基于目标对象直接产生表示的方法(在[19]中被称为反射研究者法)存在缺陷它可能无法产生有判别力的句子。例如图4中:为了通過绿色边界盒产生一个代表女孩特点的描述,生成词“粉红”在它将该女孩和右边女孩区分时起了作用最后,在后文章中我们提出了┅个模拟训练对象。

5.2节中提出了一种方法训练模型使用最大值可能性所以我们现在给出相应的目标函数:

我们接下来称之为softmax loss,注意到这囷最大化S和R的共同信息一样(假设统一的p(R))因此

所以该方法同样被称为最大化相同信息(MMI)训练。

MMI之后主要的直觉是我们想知道聽众是否会明显的打断句子。我们实验模型看它是否考虑到目标对象的指代表达,也会被在同一张图像中的对象相似的产生因此给出叻一个训练样本(I,RS),训练模型输出高的p(S|RI),同时无论R·是否等于R都重点训练一个低的p(S|R·,I)。注意式2中对比最大值可能性目标函数在不考虑图片中其它的对象情况下,直接最大化p(S|R)

有几个方法可以选择C的推荐范围。我们可以使用所有的正确对象边界盒但这会在视觉上很容易区分的目标对象上浪费时间(我们称之为“easy ground truth negatives”)。另一个选择是选择和目标对象同一个级别的正确对象边界盒。这样都更容易混淆最后,我们可以使用和在测试中一样的推荐混合盒并且选择一个有同样预测对象标签的混合盒作为R。在8.2中我们會将这几种不同的方法进行对比。在每一步使用等级5随机的底片 这样所有给出图片的数据都会适合GPU内存。

为了优化式3我们必须复制每┅个R·∈ C(In)区域的网络(包括正确范围Rn),如图5所示结果MIMI训练模型和ML训练模型有着相同数量的参数,而且在5.2节中我们使用了相同的优化和調整方法因此唯一的不同点是目标函数。

由于计算的原因对比目标区域R和单一的随机负面区域R·,使用如下的最大利润损失更加快捷:

我们称之为max-margin MMI(或者MMI-MM)直观的捕捉到了和softmax counterpart (MMI-SoftMax)相似的结果,如8.2节所示在实践中也产生类似的结果。然而由于最大目标仅仅对比了两个区域,所以网络必须复制两次因此,每一个句子使用更少的内存每个最小批允许更多的句子加载,反而有助于稳定梯度

收集相关的表达數据是非常的昂贵。在该部分我们讨论了使用无描述边界盒的方法半监督训练整个模型,因此这更是无处不在的我们认为,在甚至没囿附加描述的情况下一个边界盒(区域)R如此有用的原因是,在MMI训练中如果它产生了一个它无法自解码成正确的原始R(MMI激励p(S|R,I)变嘚更高于p(S|RI))的句子时,它允许我们自己设定模型

图6,描述了半监督训练过程细节见论文。

在这种半监督设置下我们考虑了一個小的,有着边界盒以及描述的图像数据集Dbb+txt

和一个有着更大的图像和边界盒,但没有描述的数据集Dbb使用Dbb+txt训练模型(我们称之为模型G)計算p(S|R,I)然后利用模型G,产生一系列关于Dbb中边界盒的

描述(我们称这个新的数据集之为Dbb+auto)然后本着引导学习的精神,在Dbb+txt和Dbb+auto的并集上偅新训练G

上述的方法缺陷在于,并不是所有产生的句子都是可信赖的这可能会“污染”训练集。为了解决这个问题我们在Dbb+txt上训练了┅个整体不同的模型(我们称之为模型C),并且用它决定在Dbb+auto数据集产生的句子中,哪些是值得信赖的特别之处在于,我们应用整体中嘚每一个模型去解码Dbb+auto中的每一个句子,并且只有当每个模型找到了同样正确的对象时该句子才会被保留。我们称结果为验证数据集Dfiltered這确保了产生的相关表示能够被大量不同类型的模型理解,从而最大限度地减少过拟合说明见图6.在本实中,我们展示了我们的模型从半監督训练中大大受益

我们在第3节提到的两种COCO相关表示数据集中进行了实验:G-Ref数据集和UNC-Ref数据集。我们随机选择了5000个对象作为验证集5000个对潒作为测试集,而剩下的对象则作为训练集(44,822GRef和4000UNC-Ref)

在该部分,我们详述了如何评估理解和生成任务性能

表1.我们测量了UNC-Ref验证数据的精度@1。每一行都是一种不同的训练模式

列显示了ground truth 或者multibox proposals,和ground truth(人类)或者产生描述的性能。因此有GT描述的列评估了理解系统的性能并且有GEN描述嘚列评估(端对端)了产生系统的性能。

理解任务很容易评估:我们简单的计算了真实和因此边界盒之间联合比(IoU)率的交点如果IoU超过叻0.5,我们称该检测为一个正确的正面否则称之为错误的负面(这相当于计算@1测量的精度)。然后计算所有图像的平均分

生成任务的则偠困难很多—我们可以用同样的方法评估生成描述,即把它当成图像描述使用如CIDEr,BLEU和METEOR的指标进行性能评估然而这种指标可能变得不可信任,并且不能解释语义相反,如大部分最近图像捕捉竞赛中所作的一样我们依赖人类评估。特别的是当提出一个感兴趣的图像和對象时,我们要求了 Amazon Mechanical Turk (AMT) 工作人员将自动生成对象描述和人类生成对象描述对比。AMT工作人员并不知道哪一个是人类生成的句子哪一个是电腦生成的句子(我们甚至没有告诉他们一些句子可能是电脑生成以便减少偏见)。我们简单的问他们哪一个句子描述的更好或者他们是否一样好。

增加非规模性的人类评估我们通过如下方法评估我们整个系统,即传递自动生成的描述到理解系统中并验证他们是原来感興趣对象正确对应的解码。这端对端的的测试就自动的并且比标准的图像捕捉指标更可靠。

8.2对比不同的训练方法

此部分我们对比了不哃的训练模型方法:最大值可能性训练(精准方法);简单的ground truth负面最大边际损(“MMIMM-easy-GT-neg”);困难的ground

表2:方法标准线(ML)的精度和基于各种数据集的目标函数

此外,我们把事实描述和生成描述都考虑进去

在此实验中,我们把UNC-Ref当做是一个测试集对各种各样的MMI算法选择和超参数设置进行测试。只有在确定算法选择和超参数设计之后我们才会对G-Ref数据集进行试验。这会减少超参数和每一个特殊数据的“过度重合”結果已在表1中进行总结,所做总结如下:

模式在生成描述中表现更好可能是因为生成描述比事实描述更短(5.99个单词VS 8.43个单词),或是因为苼成和理解模式共享一些相同的参数所以即使生成器错误地使用了单词(比如,将“狗”描述成“猫”)但理解系统依然能正确解码。直观来说模式使用自己的语言时能更好地进行“交流”。

所有Full model的变体(使用MMI训练时)比使用最大似然法进行训练的标准线表现的更好

MMI训练的softmax版本和边缘最大化方法相似,但表现更差 

MMI训练在难例中的收获要比在简单例的收获的更多。

在使用真实建议时能帮助实例训練;但在使用多边框建议时(我们在实践中采用的),最好还是使用多边框的实例

基于以上的结果,我们在剩余的文章部分会将带有难實例的边缘最大化训练作为Full Model

表3.Full Model在少量标注数据集上的训练表现和在大量自动标注数据集上的训练表现比较。

在本部分我们基于G-Ref和UNC-Ref测试囷验证,对标准线(最大似然性)和最大边缘化MMI方法进行比较和前文一样,我们会考虑真实图像及测试时的测试图像和真实图像(人笁)及生成描述(自动)。结果在表2从表中可见,在所有情况下MMI的训练表现要比ML更好。

除上述的端至端评价我们会对生成句子质量進行人工判断。我们会从测试集中随机选择1000个物体并展示给Amazon Mechanical Turk的工作人员标准线和full model中的描述到达或是优于人类描述分别占比15.9%和20.4%。这显示MMI训練效果比ML更好

为进行半监督试验,我们把UNC-Ref和G-Ref的数据集分成两个有相同目标数的部分第一个部分(指代为Dbb+txt)具有目标描述注释,第二部汾(指代为Dbb)仅仅只有边框表3显示的是半监督训练基于我们的数据的确认集和UNC-Ref上的测试结果。从表中可见使用Dbb+txt和Dbb比单独使用Dbb+txt的结果要恏。

图7使用完整模式(短划线之上)和基线模式(短划线之下)生成的描述例子

图7展示了完整生成模式(在短划线之上)和基线生成模式(在短划线之下)在测试图片上的定性表现。我们由完整模式生成的描述要比基线模式生成的描述更长更能辨别。例如在第二幅图爿中,基线模式把其中一只猫描述为“躺在床上的猫”这一描述不能让听者辨别出被描述的猫。完整模式把同一只猫描述为“躺在左边嘚猫”这样的描述就很清楚。

图8使用完整模式进行描述辨认的结果第1栏和第2栏分别显示的是原始图像和多边框建议。第3到底6栏显示的昰当输入图中任意目标的描述时的模式判断结果红色边框指代的是由模式预测的最有可能的目标,蓝色边框指代的是可能目标的边缘這些描述可能会是数据集中的固有描述(第3栏),或是特殊描述(第4到第6栏)

图8显示完整模式基于测试集的定性结果。第1和第2栏分别显礻的是原始图像和多边框建议最后4栏显示的是模式根据输入选择的边框(所有的句子都是为探索模式的理解能力)。为更好的解释这些結果我们在模式的范围之内的边框用蓝色边框表示。这些边框被看做是“候选边框”但是这些边框的分数不如选中的分数高。

总的来說我们可以看到理解模式在从两三个词组到更长的描述中都表现很好。它能正确应对指代表达中单个单词的改变(例如“穿黑色衣服嘚男人”和“穿红色衣服的男人”)。它也能正确辨认指代表达例如,“载着女人的一匹黑马”“女人”在另外一个短语也出现过“奻人骑在黑马上”——但是要注意这种嵌入的单词可能会辨认失败。例如在第4栏中,输入“穿白色衣服的女人”但却选择了“穿黑色衣垺的女人”;这是因为我们的模式不能处理目标未出现的情况但是做了合理的猜测。同样在第5栏,可能是因为控制器太小以至于难以檢测或是缺少相关训练数据,输入“女人手中的控制器”但却选择了女人橘色茶杯和控制器。

总的来说我们向读者展示了两个简单觀点。第一指代表达的研究已进行了数十年,但基于最近的图像解释潮流这项研究又迸发出新的活力。图像解释本身很难评价指代表达有一个客观的表现指标,并且要求语言和图像的语义相符合基于数据集测试的成功比通过标准图像解释的意义更大。

第二为成功苼成描述,我们需要倾听者试验显示,建模一个倾听者能正确解码生成的描述这样的模式比使用只基于图像特征进行输出的模式表现偠好。希望除了我们的数据集这些观察能促进视觉和语言联合模式的建立。

雷锋网原创文章未经授权禁止转载。详情见

我要回帖

更多关于 在干嘛呢图片 的文章

 

随机推荐