当前位置: 移动技术网 > IT编程>开发语言>Java > 3DV(读书笔记)3DV: 3D Dynamic Voxel for Action Recognition in Depth Video

3DV(读书笔记)3DV: 3D Dynamic Voxel for Action Recognition in Depth Video

2020年07月13日  | 移动技术网IT编程  | 我要评论

3DV: 3D Dynamic Voxel for Action Recognition in Depth Video(读书笔记)

标题:3DV: 3D Dynamic Voxel for Action Recognition in Depth Video
#CVPR 2020# 深度视频中的动作识别 3D Dynamic Voxel 方法
作者: Yancheng Wang, Yang Xiao, Fu Xiong, Wenxiang Jiang, Zhiguo Cao, Joey Tianyi Zhou, Junsong Yuan
单位 : 华科、旷视等
论文https://arxiv.org/abs/2005.05501v1
代码https://github.com/3huo/3DV-Actio
注:本文为pdf截图。因为懒

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
前的表示可能会丢失动作数据的运动模式特征或者是空间特征,并且不同的方法可能丢失的程度不同,大大影响了识别的准确率。因为待识别的数据都已经丧失了准确性,识别的方法已经不重要了。
而这篇文章通过自己建立了一个可以表示三维动作的模型。他将三维运动数据的运动特征和空间结构特征分开表示。原本的点云数据已经可以表示部分空间结构特征,但是具有无序性,可能会影响空间特征的表示。作者使用了时间秩池将点云数据建模成有序的3DV体素,利用其表示空间结构特征;并且又使用时间秩池来建立运动值模型表示了运动特征。最后通过双流的思想将两种特征结合起来。所建立的这种3DV体素模型对比之前的方法,就已经可以很好的表示三维空间结构特征;在建立了3DV point模型,将运动特征也通过运动值的方式融入模型中。我认为这种3DV point模型的建立是本文方法的结果如此优异的主要原因。

6.2时间切片(temporal split)有效性

整个深度视频是由多个连续的有序帧构成,本身自带一些时间顺序信息。应用时间秩池可能会使一些较好的时间顺序信息消失。作者使用时间切片可以更好的保存运动细节。实验也证明了该方法的有效性。

6.3多流框架有效性

在6.1中已经叙述了3D运动数据的组成有空间结构特征和运动特征,通过运动流和外观流将两种特征结合起来作为综合动作识别的评分标准。

6.4 PointNet++应用在3DV有效性

首先PointNet++是PointNet的升级版,这是一个基于点云的网络。他可以解决点云内部的无序性,而且可以通过局部到全局的层次学习捕获数据的细粒度特征。与3D CNN相比,PointNet++一般模型更轻,运行速度更快,而且往往更容易训练。适合应用于3DV。

本文地址:https://blog.csdn.net/qq_38959366/article/details/107282241

如对本文有疑问, 点击进行留言回复!!

相关文章:

验证码:
移动技术网