南京大学计算机科学与技术系
软件新技术与产业化协同创新中心
摘
要:
联合视觉与语言的多模态学习,已经逐步成为业界的研究热点。结合文本信息,可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展,主要集中于描述生成和视频定位。对于视频描述生成,提出编码器-解码器-重构器的框架,充分利用视频到文本和文本到视频双向信息,进而提升视频描述生成的能力。对于密集视频描述生成,不仅需要对视频进行定位,还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型,同时完成视频的定位和描述生成。对于视频的定位,构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求,提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。
报告人简介:
马林,现任美团AI平台部视觉智能中心研究员,曾任腾讯AI
Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位,分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉,视频分析与理解等,尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊,如TPAMI,CVPR,ECCV,ICCV,NIPS,ICML,ACL,EMNLP等发表多篇论文,迄今google
scholar引用超过3500+次。马林曾入围2012年香港科学协会青年科学家,曾于2011年获得微软亚洲研究院fellowship,并且获得国际会议
Pacific-Rim Conference on Multimedia (PCM) 2008最佳论文奖。
时间:10月16日(星期五)15:30
腾讯会议平台ID:103 664 087
|