当前位置：移动技术网 > IT编程>开发语言>Java > 论文笔记：SlowFast Networks for Video Recognition

论文笔记：SlowFast Networks for Video Recognition

2020年07月19日 | 移动技术网IT编程 | 我要评论

论文发表于ICCV2019,何凯明大神也在作者中，这里先放上论文链接：添加链接描述

文章针对视频行为识别提出了一种新颖的网络结构SlowFast Networks，受启发于人类的视觉神经系统：80%的视觉细胞通常用于捕获空间特征，对时序动作响应不明显。15%~20%的视觉细胞用于捕获动作特征，用于处理高时间分辨率的动作特征。基于此，文章提出了两条支路用于处理视频信息Slow-pathway和Fast-pathway。Slow-pathway主要用于提取空间特征（其输入为稀疏的视频帧）；Fast-pathway用于提取变化的动作特征（其输入为密集的视频帧），并且这一支路足够轻量（通过减少通道数来实现），轻量级的Fast-pathway旨在尽量少的提取空间特征并将网络聚焦在时序动作上。

SlowFast Network

Slow-pathway
Slow-pathway的输入为稀疏的视频帧。输入该支路的视频帧数为T，两帧之间的时间跨度为τ，则原始视频片段的总长度=T×τ帧。
Fast-pathway
Fast-pathway的输入为密集的视频帧。两帧之间的时间跨度为τ/α （α>1），输入该支路的视频帧数=αT。两支网络均采用相同的网络架构，考虑到Fast支路轻量级的考虑，Fast支路的通道数是Slow支路相应位置通道数的β倍（β<1）。为了保证时域上的准确性，Fast支路每一层所输出的特征向量在时间尺度上的分辨率始终保持不变（即时间尺度长度始终=αT）
这样，在Slow-pathway中的tensor维数可表示为（N,C,T,H,W）,Fast-pathway中的tensor维数可表示为（N,βC,αT,H,W)。论文中默认设置T=4，τ=16，α=8，β=1/8
Lateral-connections
为了融合两支网络的时空信息，采用单向侧连的结构，即将Fast支路的信息融合至Slow支路。

同时为了保证数据维数的匹配问题（βC,αT,H,W）with (C,T,H,W)?提出了以下的融合策略：
1.Time-to-channel:将时间维度切片到通道维数，这种方式可以保证两个特征向量的维数相同，可以考虑使用summation或者concatenation进行融合。
2.Time-strided-sampling:对（βC,αT,H,W）在时间维度上进行采样变成（βC,T,H,W），然后与Slow支路的特征向量进行concatenation。
3.Time-strided-convolution:使用kernel=(5×1×1)，stride=(α×1×1)，输出通道数为2βC的3D卷积。将Fast支路的特征维数由（βC,αT,H,W）变成（2βC,T,H,W）,然后进行concatenation。
两支支路分别提取出各自的特征向量，将其进行拼接后作为最后分类全连接层的输入。
最后放一张采用默认设置的网络结构图：

训练策略

训练阶段

原始视频中随机抽取连续的T×τ帧，Slow支路的输入为T帧，Fast支路的输入为αT帧。
将视频的短边随机放缩至[256,320]，然后随机裁剪出224×224。并加入随机水平翻转。

测试阶段
从原始视频中沿时间维度均匀的抽取10段（每段长度均为T×τ帧）。对于每段视频，将其短边放缩至256，再随机裁剪出3组256×256。这样对于每个原始视频，均有30views用于遍历时间空间方向。对所有views的softmax得分进行平均作为最后的分类预测结果。

本文地址：https://blog.csdn.net/weixin_45738220/article/details/107423834

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Test_集合_HashSet

一、查找重复的字符串 [阅读全文]
SpringBoot集成dubbo，使用zookeeper作为服务中心

搭建简单的spring cloud项目1.创建maven项目父工程（不使用idea的spring Initial... [阅读全文]
java中打印一个数组名或者对象名，出来一个地址是怎么回事？

相信大家在学java的过程中，一定打印过对象名：下面直接看这个例子：public class Student {... [阅读全文]
【中软国际实习】Day 1：JDBC+Servlet+Tomcat 实现：登入，并访问数据库数据

今天是开始中软国际实习的第一天，有点期待已久的小激动。线上实习的模式固然少了许多乐趣，但学习任务与质量并无所差，... [阅读全文]
使用tomcat启动SpringBoot项目

springboot默认内嵌tomcat服务器，也默认使用main函数启动整个项目。<dependency... [阅读全文]
从源码层面谈谈 ThreadLocal 线程私有实现方式

前言ThreadLocal 是一个用于存取线程本地变量的类，通过其实例的 get/set 方法进行数据的存取，数... [阅读全文]
创建型模式（四）：原型模式

一、模式的定义与特点原型（Prototype）模式：用一个已经创建的实例作为原型，通过复制该原型对象来创建一个和... [阅读全文]
JVM的核心内容

1.JVM对于java程序员的重要性可以用一下两句话来概述1.1 关于任何java的技术问题都可以追溯到java... [阅读全文]
java方法与方法重载

一.定义带参数的方法1.带参数方法的结构: 方括号代表可以不写[访问修饰符] 返回值类型方法名([形式参数列... [阅读全文]
原生SSM整合WebSocket

实现了消息的单发和群发，**Tomcat8**及以上版本才可使用，看清楚**util**工具类的格式，可以重新定... [阅读全文]

网友评论


验证码：