背景

视频天生就能提供很好的数据增强(同一个物体在不同时间会发生位移,形变等),但是早期视频动作识别采用从视频中抽取关键帧依次通过卷积网络或者先堆叠关键帧再进行整体训练.
采用单卷积对帧进行训练并不能很好的学到视频包含的运动信息,所以作者利用光流提出双流网络.
Spatial stream ConvNet负责学习空间信息.Temporal stream ConvNet负责学习时序信息.在最后进行fusion.

光流是一种很有效的获取动作信息的特征表示.

  1. 相邻几帧背景可以认为未发生移动
  2. 运动越明显的地方颜色越显眼.
    但缺点也很明显,生成光流需要耗费很多时间以及极大的空间进行存储.

主要贡献

  1. 提出双流网络
  2. 证明即使在小数据集上通过光流也能获得很好的效果
  3. 通过在两个不同的数据集上训练骨干网络,模型效果得到了提升.

架构

Spatial stream ConvNet

  • 可以单独数据集(比如ImageNet进行预训练)
  • 通常来说在对某些场景只要识别到特定物品(弓箭,电脑等)就可以判定该行为了,效果确实也很好

Optical flow ConvNets

作者堆叠多帧光流进行预测,并采取了不同形式.

  1. 不同帧的相同位置堆叠
  2. 沿着光流轨迹进行堆叠
    按道理来说第二种更合理并且效果也应当更好,但事实恰恰相反.王利民老师在随后的一篇论文中进行了论证.

下图为数据