CVPR 2016 有什么值得关注的亮点？

Question

CVPR 2016 有什么值得关注的亮点？

关注者

1,891

被浏览

74,357

17 个回答

花了几天时间，看了绝大部分的oral论文和部分的spotlight论文。总结如下。个人是CG方面出身，CV有做过，但是还在深度学习。有不对的地方，请诸位大神斧正。

cvpr 16在研究方法上，仍然是以深度学习为主比如cnn\rnn\lstm，几乎所有的论文都有用到，同时也和其他传统的人工智能方法或计算机视觉方法相结合，比如svm，决策树，基于贝叶斯的推论，或者人工选择的特征点或者光流法。比如论文《Learning to Assign Orientations to Feature Points》用cnn来辅助sift特征点中的orientation的判断，从而在视角变化大的情况下，仍然可以得到较多的匹配点；论文《The Global Patch Collider》是用决策树的方法来做dense下的patch匹配；论文《Joint Probabilistic Matching Using m-Best Solutions》引入了传统计算机视觉方法中联合概率分布匹配的方法取得全局下的整体的最优匹配，而不是各个特征点或patch的匹配；论文《Layered Scene Decomposition via the Occlusion-CRF》使用了condition random field的方法处理遮挡问题或者预测被遮挡处的图像；论文《Three-Dimensional Object Detection and Layout Prediction Using Clouds of Oriented Gradients》结合了传统的svm的方法；论文《Contour detection in unstructured 3D point clouds》结合了传统的MRF方法；论文《Learning to Select Pre-trained Deep Representations with Bayesian Evidence Framework》使用Bayesian的方法。

还有一些论文是采用了和CG技术结合的方法。比如，论文《Learning Dense Correspondence via 3D-guided Cycle Consistency》使用CAD模型和dense方法来做feature点的匹配，在模型存在较大的光线和视角变化时，仍然得到较好的匹配，同样，论文《Face Alignment Across Large Poses: A 3D Solution》也构建了脸部模型，从而在人头部侧过去，只有半边面的时候，仍然可以进行匹配跟踪。《Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences for Action Recognition》则利用了mocap库中的骨骼的三维位置信息。《End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human Pose Estimation》考虑到了身体各个部分之间的限制。论文《Pairwise Decomposition of Image Sequences for Active Multi-View Recognition》使用了三维模型的多角度的渲染图像。

从研究方向来看，包括image的cnn或深度学习方法、图像的segmentation、识别或标记、三维重建、边缘检测、语义分析、优质训练集生成、视频中动作的语义分析和预测、attribute（属性）或zero-shot（根据之前训练过的属性标记通过语言描述来识别新的物体）问题、图像去噪或去模糊、图像或深度信息的新的获取方法，以及一些新的研究或应用方向。下面逐个概括介绍。

针对深度学习方面本身，最重要的论文恐怕非《Deep Residual Learning for Image Recognition》莫属，它使用真实数据和拟合数据之间的差异，而非直接拟合，从而解决了cnn方法中随着层数增加到一定程度后，再增加层数，反而误差增大的问题，从而收敛速度更快、精度更高。另一篇重要论文是《Deeply-Recursive Convolutional Network for Image Super-Resolution》，它使用recursive-supervision和skip-connection来避免DRCN中会出现的梯度消失或爆炸问题。《Learning to Select Pre-trained Deep Representations with Bayesian Evidence Framework》使用Bayesian和least squares SVM的方法来从预先训练的cnn模型中挑选适合的模型，或者混合使用多个cnn模型。论文《Neural module networks》，用一个语义解析器（natural language parser）来动态的决定和组合CNN网络。论文《Stacked Attention Networks for Image Question Answering》是逐层推进，一步一步剔除不相关区域，最终获得全局的最优解

图像segmentation方面，也有新的进展。论文《Hierarchically Gated Deep Networks for Semantic Segmentation》在上一层的节点上，设置memory state，来记住周边的背景信息，在从下层到上层的信息传导中仅让具有相似背景的信息通过，从而获得更加精细的segmentation。论文《Instance-Aware Semantic Segmentation》精确到像素或patch级别的类别划分，可以对存在多个同类物体的图像进行处理。对于数据集的cluster方面，《Closed-Form Training of Mahalanobis Distance for Supervised Clustering》通过训练的方式获得predict函数，然后利用k-means的方法来处理cluster问题。

在物体识别方面，论文《You Only Look Once: Unified, Real-Time Object Detection》取得的效率同样令人惊叹，改进了faster r-cnn方法，它的增强版本使用GPU跑到45fps，简化版也可以达到155fps的识别速度。论文《LocNet: Improving Localization Accuracy for Object Detection》则提高了识别的位置的精确度，通过在bounding box内部对patch或者superpixel计算类别标签的概率。论文《Sketch Me That Shoe》以人的手绘结构图作为输入，从中提取信息，来匹配或查询真实照片中的物体，不再是识别中常用的物体名或属性名。论文《Three-Dimensional Object Detection and Layout Prediction Using Clouds of Oriented Gradients》使用cloud of oriented gradient (COG) 特征来描述三维物体，不同于HOG特征，它是viewport invariant（视角不变）的，最后用svm来获得物体的bbox，方向，大小等信息，可以得到物体在照片中的三维位置信息。

三维重建方面，《SVBRDF-Invariant Shape and Reflectance Estimation from Light-Field Cameras》使用光场相机，利用diffuse加一个lobe的space variant BRDF的模型，建立normal和深度之间的关系，从一张含有高光反射物体的照片中获得物体的深度信息和BRDF模型。《Structured Prediction of Unobserved Voxels From a Single Depth Image》认为物体是有简单的几何形状组合而成的，以此来进行训练，可以根据单张深度图片来推测不可见部分。《Efficient 3D Room Shape Recovery From a Single Panorama》则将图像中的线或superpixels作为顶点，他们之间的几何关联作为边，然后利用constraint graph的方法来进行三维重建。《High-quality Depth from Uncalibrated Small Motion Clip》主要是解决了之前微小摄像机姿态变化下深度估计误差大的问题，使用harris corner作为feature点，使用KLT方法在连续帧之间进行跟踪，然后倒数方式表示深度信息，利用bundle adjustment方法估计相机的内部参数，最后利用plane sweeping的方法来估计深度信息，并做了去噪优化，最后从一个短的变化较小的视频中得到较为精确的场景的三维深度信息，缺陷是没有考虑遮挡问题，这个方法也可以用来对图片重新聚焦。

边缘检测领域。论文《Contour detection in unstructured 3D point clouds》利用相邻区域的特征来预测边缘的概率，然后利用二元分类器在MRF基础上选择最优的连续的边缘，从而能够从从unstructed的点云中发现边缘。论文《Unsupervised Learning of Edges》用光流法得到motion edges，使用非监督方法和semi-dense匹配来训练edge探测器，再将探测结果反馈回光流法，以此循环得到较好的边缘。

在对图像的语义分析方面，论文《Deep Structured Scene Parsing by learningning with Image Descriptions》使用cnn分析图像的特征以便分类，然后用rnn分析各类物体之间语义关系，最终得到对图像的语义描述，例如一个男孩坐在椅子上，拿着一本书。论文《DenseCap: Fully Convolutional Localization Networks for Dense Captioning》更进一步，利用cnn来识别，然后利用类似faster r-cnn的方法对图像中的物体进行分类，最后利用rnn训练的语言模型进行描述，在单张图片中得到多个物体之间关系的详尽描述。论文《CNN-RNN: A Unified Framework for Multi-label Image Classification》也同样采用了cnn结合rnn的网络结构，用来处理对图像的多个标记问题。论文《Natural Language Object Retrieval》以人类语言作为输入，通过cnn和rnn在图像中查询要找的物体。

关于训练集方面，论文《Training Region-Based Object Detectors With Online Hard Example Mining》发明了一种选择器，来挑选faster r-cnn方法中的那些比较难识别的对象，以此来获得比如mini-batch或SGD更好的训练结果和收敛速度。

通过视频对人类动作进行捕捉或分析是一个大方向。论文《Personalizing Human Video Pose Estimation》假设在视频中的人不会变换穿着，使用图像特征匹配对间隔多帧的图像进行匹配跟踪，使用光流法来对连续帧进行跟踪，并对图像中的遮挡问题进行了处理，从而对一段视频中的单个人的骨骼骨骼进行稳定的捕捉，跟踪的结果相当不错。《End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human Pose Estimation》考虑到了身体各个部分之间的限制，训练中在各个节点之间传送信息，从而得到更准确的节点（各个关节)的位置，结果也相当不错。《Deep Hand: How to Train a CNN on 1 Million Hand Images When Your Data Is Continuous and Weakly Labelled》所获得手部动作也非常棒。《Temporally Coherent 4D Reconstruction of Complex Dynamic Scenes》使用多个普通摄像机（5个左右）录制的视频，分析sparse特征点，在不同视角之间进行wide-baseline的匹配，以及时间相关性的匹配，最后利用一种新的融合方法，以特征点为中心获得准确的dense模型，并在随后的时间里不断对dense模型进行精细化或者添加之前被遮挡的部分，效果可以非常不错的跟踪，而且允许人物有穿戴帽子裙子，且不需要事先对环境进行扫描。《Face2Face: Real-Time Face Capture and Reenactment of RGB Videos》是另外一篇明星论文，可以做到实时的人物面部捕捉，和对视频中目标人物的动画替换。论文《3D Action Recognition from Novel Viewpoints》利用k-means方法从mocap库得到的339个姿态，然后将多个深度摄像头的图像用cnn处理后结合Fourier Temporal Pyramid方法来解析动作，与mocap库得到姿态库进行对比，获得view-invariant的姿态识别。论文《Dense Human Body Correspondences Using Convolutional Networks》使用cnn网络得到learned discriptor（训练特征，非人工选择的特征），为了解决空间上靠近的特征点在特征空间中距离较远的问题，使用了multi-segmentation，邻近区域交叉联合训练的方法，能够允许人物戴帽子或者穿裙子。《Regularizing Long Short Term Memory with 3D Human-Skeleton Sequences for Action Recognition》利用mocap中的骨骼运动数据解决视频录像分析时存在的摄像机移动、无时间信息或没有label和训练集少等问题，通过分别对视频和骨骼做lstm分析，然后两个互相对照来给运动加标记。

另一类视频中的动作分析，是对动作进行语义分析或者预测。《Unsupervised Learning from Narrated Instruction Videos》利用给文字和视频图像聚类的方法，通过训练，可以自动在教学视频中，找到关键步骤并匹配文字。《Anticipating Visual Representations with Unlabeled Video》使用非标记的视频来预测人类动作的目的或含义以及下一时刻的动作，但仍然有很长的路要走。《Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks》利用rnn从单帧画面生成句子，然后利用另一个rnn网络从连续帧中生成描述性的段落。《Jointly Modeling Embedding and Translation to Bridge Video and Language》利用cnn进行图像分析，然后加入相关性和一致性分析，从视频中获得正确的句子，可以取得30-40%的成功率，比如一开始是一个女的在骑马，后来画面中出现了一个男的，然后男的又从画面中消失，可以得出是女士在骑马，而不是男人在骑马。《Structural-RNN: Deep Learning on Spatio-Temporal Graphs》则是结合Spatio-Temporal Graphs方法和rnn的方法来预测人体的运动等时序事件。

研究attribute的论文有《One-Shot Learning of Scene Locations via Feature Trajectory Transfer》，将属性进行了分类，是否是短暂或临时的等，比如阴天环境下的帽子，阴天就是一个暂时性的属性。论文《Learning Attributes Equals Multi-Source Domain Generalization》则认为存在一些属性在多个标签类之间是共通的，比如毛茸茸，对于鸟和猫都是，所以他们采用了Multi-Source Domain Generalization方法来学习这种类别之间共通的属性。

关于从模糊图片得到更清晰更大图片，论文《Accurate Image Super-Resolution Using Very Deep Convolutional Networks》尝试了深度学习。

还有一些论文是关于新的探测方法或者处理方法，与硬件结合紧密。例如，论文《HyperDepth: Learning Depth from Structured Light Without Matching》可以用在对realsense或者Kinect的深度信息进行处理，并行化高效去除alias或噪点；论文《Simultaneous Optical Flow and Intensity Estimation from an Event Camera》使用了event camera得到的亮度信息变化作为视频采集信息，进行光流法或者而不是传统的逐帧的RGB图像，一方面降低了码率，另一方面可以得到不错的光流结果，尤其在快速运动存在运动模糊的情况下。论文《Macroscopic Interferometry: Rethinking Depth Estimation With Frequency-Domain Time-Of-Flight》的方法更神奇，通过分析光的频率变化来获得场景中的深度信息。论文《ASP Vision: Optically Computing the First Layer of Convolutional Neural Networks Using Angle Sensitive Pixels》使用仿生学的方法，用Angle Sensitive Pixels (ASPs)作为cnn中的输入，减少了图像采集的能耗，降低了图像传感器到cpu的带宽需求。再比如论文《Dynamic Image Networks for Action Recognition》对视频中的RGB图像进行rank pooling处理，以此作为cnn的输入。另外，《SVBRDF-Invariant Shape and Reflectance Estimation from Light-Field Cameras》也尝试了光场相机进行深度信息的捕捉。

除了以上各个类别外，也出现了一些新的研究方向或应用，比如论文《Walk and Learn: Facial Attribute Representation Learning From Egocentric Video and Contextual Data》用cnn来分析行人的自拍视频，预测天气或者穿戴等特征；《Self-Adaptive Matrix Completion for Heart Rate Estimation From Face Videos Under Realistic Conditions》通过面部录像分析心跳速率；论文《Recurrent Face Aging》可以预测一个人在不同年龄时的相貌。《Pairwise Decomposition of Image Sequences for Active Multi-View Recognition》使用三维模型的不同视角下渲染的图片，将相近的视角的渲染图片作为一组，进行cnn训练，再将多组训练的结果与虚拟摄像机的旋转角度结合做cnn训练，不仅能识别不同视角下的物体，而且可以得到优化的摄像机轨迹。《Egocentric Future Localization》利用立体图像，感知周围的环境，通过深度学习的方法对行进中第一视角拍摄的视频进行分析，学习避开障碍物和其他物体，比如旁边走动的人，规划未来的行走路线。《Learning Online Smooth Predictors for Realtime Camera Planning》可以预测摄像机的运动轨迹，从而使焦点角色始终在画框中央，可以用在实时的赛事转播中。

总而言之，论文数量众多，但是接近实际应用的，稳定准确的方法并不多，不过部分论文的效果非常震撼，比如对人动作的捕捉，深度信息的捕获，以及稳定的人手的姿态，和实时的脸部置换。

发布于 2016-12-13 18:29

taokongcn 深度学习（Deep Learning）话题下的优秀答主 · Accepted Answer

最后更新

欢迎移步我的知乎专栏：

知乎专栏

，在专栏里对今年会议中目标检测的工作进行了更详细的总结和论述。

更新2

CNN遍地开花，传统方法很冷清

CNN RNN结合的文章越来多，但如何联合训练仍然有待进一步解决

有人在致力于挖新坑，老坑越来越难填

Face2face很酷炫

创业公司很多，到处是华人身影

拉斯维加斯很适合出来玩

伙食太差，吃不饱

在CVPR会场更新

ResNet获得了best paper.

这个题目被邀请真是受宠若惊。我关注的方向是2D图像检测和识别，其实这个方向更新比较快，很多文章在早就在Arxiv上挂出来了。说亮点的话还是等开完会吧。

说几个感觉比较好的工作（排名不分前后），随时更新。。。

1. Deep Residual Learning for Image Recognition

这是kaiming组那篇影响力很大的文章，不用说了

2. You Only Look Once: Unified, Real-Time Object Detection

YOLO用纯CNN来做检测，可以达到实时的效果，虽然今年SSD的效果做的好很多，但YOLO确实起到了先驱的作用。另，一作貌似是一个传奇人物。

3. Training Region-Based Object Detectors With Online Hard Example Mining

这个工作比较新，他提供了在F-RCNN的框架下，在训练过程中如何对样本进行选择的一种解决方案。而且确实work。

4. Accurate Image Super-Resolution Using Very Deep Convolutional Networks

这是做超分辨率重建的一篇文章，主要的创新点在于在网络的最后用原图来辅助重建，有点残差网的意思，当然效果也很好。

5. Inside-Outside Net: Detecting Objects in Context With Skip Pooling and Recurrent Neural Networks

在F-RCNN的框架下如何对特征进行增强，文章主要考虑了multi-layer fusion和context信息。

6. HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

通过对CNN的多层特征进行融合提高定位准确性，利用类似于Faster-RCNN的方式进行目标检测

7. Exploit All the Layers: Fast and Accurate CNN Object Detector With Scale Dependent Pooling and Cascaded Rejection Classifiers.

通过在CNN的多层建立级联分类器来抑制负样本（在目标检测中对负样本进行合理抑制起到了关键作用）

编辑于 2016-07-13 20:14