系统仿真学报 ›› 2018, Vol. 30 ›› Issue (7): 2787-2793.doi: 10.16182/j.issn1004731x.joss.201807044

• 短文 • 上一篇    下一篇

基于片段关键帧的视频行为识别方法

李鸣晓, 庚琦川, 莫红, 吴威, 周忠   

  1. 北京航空航天大学虚拟现实技术与系统国家重点实验室,北京 100191
  • 收稿日期:2017-07-30 出版日期:2018-07-10 发布日期:2019-01-08
  • 作者简介:李鸣晓(1993-), 男,山东,硕士, 研究方向为深度学习、行为识别;庚琦川(1989-), 男, 黑龙江,博士,研究方向为图像语义理解。
  • 基金资助:
    国家自然科学基金(61572061,61472020),国家“863”高技术研究发展计划(2015AA016403)

Video Action Recognition Based on Key-frame

Li Mingxiao, Geng Qichuan, Mo Hong, Wu Wei, Zhou Zhong   

  1. State Key Laboratory of Virtual Reality Technology and Systems, Beihang University, Beijing 100191, China
  • Received:2017-07-30 Online:2018-07-10 Published:2019-01-08

摘要: 视频行为识别是智能视频分析的重要组成部分。深度学习方法在该领域有了显著的进步,目前得到最佳效果的方法都使用了双流卷积神经网络。在长视频识别中,现有的行为识别方法大多以均匀分段固定采样得到的视频帧作为输入,这可能损失采样间隔中的重要信息。通过定义视频的信息量,提出了一种用于视频行为识别的片段划分和关键帧提取方法,使用多时间尺度双流网络提取视频特征,设计了视频行为识别系统,在UCF101数据集split1上达到了目前最高的94.2%准确率。

关键词: 深度学习, 行为识别, 视频片段划分, 关键帧提取

Abstract: Video action recognition is an important part of intelligent video analysis. In recent years, deep learning methods, especially the two-stream convolutional neural network achieved the state-of-the-art performance. However, most methods simply use uniform sampling to get frames, which may cause the loss of information in sampling interval. We propose a segmentation method and a key-frame extraction method for video action recognition, and combine them with a multi-temporal-scale two-stream network. Our framework achieves a 94.2% accuracy at UCF101 split1, which is the same as the state-of-the-art method’s performance.

Key words: deep learning, action recognition, video segment, key-frame extraction

中图分类号: