干货 | Multi-modal Deep Learning 初窥

原创小S 程序媛的日常

先来一个【号外】：我们前几天申请了原创声明，以后（从今天开始）的文章下方都可以评论了哟。第一次使用这个功能，我们希望可以通过这个方式增进和大家的互动。所以大家可以试一下给我们今天的文章发评论！

再进入今天的主题。前两天 ACML 在 HK 举办，请来了

Ruslan Salakhutdinov 教授。他给的 talk 就是 《Multi-modal Deep Learning》。Ruslan Salakhutdinov 教授过去的多篇 publication 都 focus 在这一方向。今天小S 就趁热，稍微分享一下我对这边工作的了解。如有纰漏，还请大家指出！今天会涵盖的论文如下：

1. 《From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions》TACL 2014

2. 《Generating Images From Captions With Attention》In submission to ICLR 2016

3. 《Order-Embeddings Of Images And Language》In submission to ICLR 2016

4. 《DRAW: A Recurrent Neural Network For Image》arXiv preprint 2015

5. 《Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books》ICCV 2015

6. 《Deep Compositional Captioning: : Describing Novel Object Categories without Paired Training Data》arXiv preprint 2015

7. 《Exploring Models and Data for Image Question Answering》NIPS 2015

Multi-modal Deep Learning 的工作，现在最火热的恐怕就是 image caption generation。其实 image caption generation 的思想和大家熟悉的 Machine Tranlsation 非常相似。MT 是从 source language “translate”到另一种 target language；而 image caption generation 可以看成从 image “translate”到 caption text/description。因此，现在在 MT 中大热的 attention alignment models，也自然成为了 caption generation 的首选。

但是，image caption 当然是有和 MT 的不同之处的。比如 granularity 的问题，粒度。一图胜雄辩：

一图没看懂？再来二图：

这两张图介绍的都是 P. Young, A. Lai, M. Hodosh, J. Hockenmaier 的 TACL 2014 工作《From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions》。

image caption 和 image description 中，对于粒度的把握，也应该是建模的考虑因素之一。除此以外，这篇论文，还介绍了 image caption training data collection 的工作，很值得一看。

介绍完 multi-modal deep learning 的背景，我们来看下这方面近期工作的论文。先来一篇最新的，《Generating Images From Captions With Attention》，Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba & Ruslan Salakhutdinov，In submission to ICLR 2016。

这篇论文结合和扩展了两种 generative NN model，一个是 DRAW（不知道 DRAW 的同学请往下看到第二篇论文介绍）的 differential soft attention mechanism，还有一个是 post-processing deterministic Laplacian pyramid adversarial network (GAN)。在此基础上，这篇工作的另一个创新之处在于，把 image -> generate caption (text) 的过程反过来了，用 caption 去 generate image。

如果把上述三点分别展开来说，那么：

1）这个工作中对于 DRAW 的改进是，使得 generation 时，变成了 conditional 的，也就是变成了一种 conditional generative model，参加见 Figure 2 中，最右上方的 p(x|y, Z_{1:T})。这个 conditional 的改变，对于 performance 提升很有帮助。具体来说，

2）对于 GAN 几乎可以说没有改进，只是将其与 DRAW 结合在一起，替代了 inference 的 part，用来 sharpen generated images (scenes)，使得图像看起来更“清晰”。但从现在的 generate sample 来看，这样做并不具备改变图片的”语义“的功能，感觉只是单纯的”锐化“……

3）从 caption (text) -> generate image 的过程，应该来说是更加困难的。在这个过程中，attention mechanism 作为了一种 hint，当 attention 分配在 caption 中的某些强语义 words 时，图片中就会有非常 clear 的 image object 对应；但如果 attention “失败”了，则 image 中完全不会出现这个 object。作者也在实验分析中，进行了各种 image 元素的替换对比，用于揭示这个 conditional align attention model 的优势。比如其中之一就是，在此基础上，可以通过轻松替换正确被 attention 的 words，generate 出训练集中完全没有出现过的反生活的图像组合。

当然，就像之前说的，caption -> image generation 的过程还是比较难的。比如尽管 Deep Learning ”号称“已经可以区分 cat 和 dog，但是在这样 multi-modal 的情况下，按照 caption 生成准确的 dog or cat，看起来还是非常困难的。小S 认为，除了 image 本身的复杂性，还有现有 multi-modal framework 的复杂性的因素，因为尽管一边是 differential 的，一边是 deterministic 的，依然很 complex……

但是，总的来说，这篇论文作为今天的第一篇推荐，它写的很清晰，即使没有看过 attention model，没有看过 image caption generation 文章的人，也可以以此入门了解 framework。

从上面介绍的第一篇论文，可以引申讨论一下 Ruslan Salakhutdinov 教授这次 talk 《Multi-modal Deep Learning》中引起强势围观的一页 slide 内容，Multimodal linguistic regularities。linguistic regularity？是不是听起来很耳熟？记不记得点燃 word embedding 的例子来着？king - man + woman = queen——这个就是 linguistic regularity 的一种。那 multimodal linguistic regularity 也就很容易迁移理解了，比如下图：

这个是怎么做到的？从上面第一篇论文的讨论就可以看出一种实现方式。那就是把 attention 强烈关注到的 word，进行替换，在保证 attention （alpha）几乎不变的情况下，就可以替换成新的“按需定制”的 image 呢。是不是没那么神奇啦？再来看看在论文中讨论到的，multimodal linguistic regularity 之 color 篇：

其实从第一篇论文里的分析可以得知，color 是 image 相关任务中最简单的，所以能做到这步可以说，也不是那么 amazing。那么有没有更有趣的，让我们继续看看其他例子：

是不是这一组例子就觉得更 arresting 啦！这几组 slides 都来自于 Ruslan Salakhutdinov 教授的学生，Ryan Kiros 的工作汇报《Generating image captions with neural networks》。在上面，小S 说，attention 是实现这样 regularity 的方式之一，但这个方法可以想到，并不那么 powerful。真正想做到更 general，更 strong 的结果，要对图片中 object 之间的 structure/relation 也有很好的识别才行。所以这方面的工作，依然是 remain open!

继续刚才的话题，怎么能进行 object 之间的 structure/relation 建模呢？大家很容易想到过去三年中很火的 relation embedding。但是 relation embedding 过去主要致力于在 single-model 上，并且很多是 symmetric or binary 的。基于些出发点，依然是 Ryan Kiros 和他的小伙伴们，开展了相关工作，已经 arXiv preprint 并 in submission at ICLR 2016（今天要介绍的论文基本都来自这个组……= =）。这篇工作就是《Order-Embeddings Of Images And Language》，作者 Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun。

作者指出，在 image 中的 objects, caption 中的 words 和 sentences，都有 hierarchical relation 存在。这种 relation 被作者成为 visual-semantic hierarchy。比如举个例子来说，

下面几幅图和上面相关的 caption 和 caption 中的 words and phrases，就可以构成上面这样的 partial ordered hierarchy. 而这篇工作的目的就是在保留这种 partial order 的前提下，去学习 caption representation and image representation。上面这幅图，其实反映了本文提到的两个问题，一个就是 image-caption 与 MT 的不同之处——granularity，一个是 multi-modal linguistic regularity 中的 structure/relation understanding 的问题。从这个角度来讲，这篇工作也算是他们在这两个问题上找到的很好的结合点。

在具体实现时，最大的 novelty 就是定义了 partial order 和其 space，并用一个 asymmetric penalty 去实现这样 partial order learning 的学习。那么这样的 asymmetric penaly 能学出什么样的 realtion 呢？这种 relation 比以前的 symmetric 和 binary relation 学到的信息丰富在哪里呢？可以看下图，

因此，这个 penalty 使得他们的工作能学出比以前 relation embedding 更多的信息（非对称，且有 hierarchy），从而在 hypernym prediction, image caption retrieval 和 natural language inference 上都表现不俗。

这篇论文在最后的讨论中，同样给出了一些 intuition，指出了这种 partial order 解决了 granularity 带来的一些困难，所以取得了进展。

来看第三篇，第三篇是上文（第一篇论文）提到的 DRAW 的工作。之前介绍过的，来自 Google DeepMind 团队，arXiv 文章《DRAW：A Recurrent Neural Network For Image》。开源！有代码！

文章简直写的不能再好，强烈推荐，强烈推荐，强烈推荐！文章开篇就用短短三行解释了 motivation：

A person asked to draw, paint or otherwise recreate a visual scene will naturally do so in a sequential, iterative fashion, reassessing their handiwork after each modification. Rough outlines are gradually replaced by precise forms, lines are sharpened, darkened or erased, shapes are altered, and the final picture emerges.

啥意思，我们人类画画不是一次到位的！要不断的修正，一遍遍的完善细节啊等等。所以呢，为啥我们要求 NN 一步到位的给我们 generate 出一幅完整（entire）的图？这！不！科！学！（汗，画风不太对了，我严谨一点）于是乎，作者就想模拟这个一遍遍的过程。每次我们只画一丢丢，只着重于某一个 part——然后大家就说了，你这个不新鲜啊，attention mechanism 不是也这个意思么，但是 attention model 是啥呢，是在 decode 的过程中，最后的过程中，再去决定，而不是在反复画的过程中：

The main challenge faced by sequential attention models is learning where to look, which can be addressed with reinforcement learning techniques such as policy gradients (Mnih et al. , 2014 ). The attention model in DRAW, however, is fully differentiable, making it possible to train with standard backpropagation. In this sense it resembles the selective read and write operations developed
for the Neural Turing Machine.

所以他们就提出了这个 DRAW——Deep Recurrent Attentive Writer 的 model。recurrent 表示一遍遍去“修正”完善，attentive 表示每次只着重于某个 part。而且文章不仅配图丰富（在许多个图像数据集如 MINST 上做了实验），还有视频套餐（地址见论文）。视频中可以动态的看出，这个 DRAW 是如何把一个个 digit “写”出来的。

第四篇介绍的工作也相当有难度，因为不再是一张 image 和一句 caption 的 align 了，而是变成了多幅 image 和一个 dialogue 的 align——book-movie align。这篇工作就是，来自 Yukun Zhu, Ryan Kiros, Richard Zemel 等人的 ICCV 2015 工作《Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books》。

上面就是这个工作 project 页面给出的 example，来自去年大火的《消失的爱人》。这部电影中，女主角会自己写日记，在电影中也用日记作为了旁白。所以很符合电影和书的 align 设定。在这篇论文的工作中，他们用电影的多幅截图（shots）当做 movie units，并用相对应的字幕（subtitles）作为 dialogue。值得一提的是，这篇工作因为用到的是 sentence level 的 similarity，所以需要 sentence embedding，而 sentence embedding 就是用到的他们自己组内的 Skip-Thought Vectors 的工作。

那么这样的 alignment 能用来做什么呢？可以反过来利用呢，就是给出 shot，我用书里的一些话，作为 shot（image）caption。比如这样：

第五篇要介绍的工作也比较新，‍《Deep Compositional Captioning: : Describing Novel Object Categories without Paired Training Data》，前几天的 arXiv pre-print 文章。这篇文章的 motivation，和本文介绍的第一篇论文有点类似，就是要解决 caption generation generalization 的问题——相比于已经可以分类的很好的 dog or cat 的 Image Object Recognition/Classification （比如 ImageNet 任务）大训练集，现在 image-caption 这种 paired 训练集相对很小，涵盖的 object 也比较小——有没有可能将 ImageNet 这种，可以 seperate 训练好的 object recognition 的“知识”和 image-caption 任何结合起来，使得能学出 image-caption pair 中没有的、但是 ImageNet 中有的 object？比如下图这样：

本来，image-caption 训练集里，只标注了 dog，所以用以前的只基于 image-caption trained 的 captioning model，就容易错误识别这张图。于是乎，本文的工作就是想解决这个问题。具体方法就是，在单独训练的 image object recognition 和 language model 中间，加上一个 intermediate level（multi-modal level），进行“transfer learning”。

从而可以实现上图中的“otter”。很 straightforward 的思想。但是可想而知，scalability 会是瓶颈。期待后续工作！

再来一篇终极任务初试的工作，依然来自 Toronto 大学的 NIPS 2015 文章，《Exploring Models and Data for Image Question Answering》。为什么说这是终极任务初试呢？因为对于 image-text multimodal 的工作，终极任务就是理解语言！什么算理解语言呢？图像里在说什么，完全搞懂！语义不能错，语法不能错，语用也不用能错噢。那么怎么证明懂了呢？NLP 里有 language comprehension，Multi-modal 当然也可以搞这个！于是自从 2014 年来，就有许多人在 image QA 上展开了工作，建立评测集，尝试初步的方法。这篇论文也是其中一个。

比起纯 NLP 的 reading comprehension 的工作，这篇 image QA 中的方法要相对简单许多，QA 的问题难度也比较小。评测集中，只有三类问题：what type of objects, how many objects, what colors。这三个问题可以算是反映了 image understanding 中最 basic 的方面，识别颜色，认出 object。但是尽管如此，有些问题还是 require model 去识别 image 之间的 relation/structure：

有兴趣的同学可以看看这篇论文的 related work 部分，写的很简明扼要。了解一下当前进展。

最后，其实 multi-modal 的工作，不只是局限在 image-text 之间，还有 video (frame)-text，speech-text (speaker adaption) 等等。大家可以发散思维，开疆扩土，毕竟不同属性的 information 都有自己的 special 之处，通过 special observation，也可以反馈成对于 model 和 method 的思考。加油！

最后的最后，不要忘记试试评论功能哟！~\(≧▽≦)/~

相关文章，请回复橘色代码查看，如【GH021】。

GH021 Applied Attention-Based Models in NLP

GH022 Applied Attention-Based Models（二）

GH029 关于 Sentence Vector 的一些进展

继续滑动看下一个