南京大学计算机软件新技术国家重点实验室
摘
要:
视频理解已经成为计算机视觉领域一个基础与热点研究方向,其中人体动作识别已经成为视频理解领域的关键技术之一,在监控、人机交互、检索等领域有重要的应用。时序运动表征是目前视频动作识别的关键难点,主流方法主要通过光流输入或者时序卷积来捕捉视频的运动信息,计算代价昂贵且建模缺乏灵活性。在本报告中,首先对视频动作识别进行简要介绍,包括问题定义,问题难点,已有技术等等。然后将重点介绍我们团队(MCG)在视频运动表征和行为识别方面的最新研究成果,主要从短时运动建模和长时运动建模两个方面展开。针对短时运动建模,基于2D
CNN架构,提出了高效和动态的时序建模模块(TEINet和TAM),在速度效率和建模精度方面取得较好的效果;针对长时运动建模,基于TSN框架,提出了4D
CNN架构
(V4D) 和时序差分网络(TDN),实现视频级别时空特征学习,提升识别效果。最后将总结视频行为识别方法和潜在研究方向。
报告人简介:
王利民,南京大学教授,博导。2011年在南京大学获得学士学位,2015在香港中文大学获得博士学位,2015年至2018在苏黎世联邦理工学院(ETH
Zurich)从事博士后研究工作。研究方向为计算机视觉与深度学习,具体关注视频理解和动作识别。在国际重要期刊(IJCV/T-PAMI等)和会议(CVPR/ICCV等)发表学术论文30余篇,根据Google
Scholar统计,论文被引用7000余次,H-index 33,一作论文单篇最高引用1600余次。提出的时序分段网络(TSN)获得2016
ActivityNet比赛冠军,该技术已经成为动作识别领域的基准方法。研究成果获得奖励:江苏省优秀本科毕设团队奖(2012)、吴文俊人工智能科技进步二等奖(2019)、广东省技术发明一等奖(2019)、世界人工智能大会青年优秀论文奖(2020)等。
时间:10月22日(星期四)12:30
地点:计算机科学技术楼111室
腾讯会议平台ID:964 313 230
|