技术创新论坛《Vision + Language: From Captioning to Grounding》-通知公告-新闻中心-江苏省计算机学会

欢迎访问江苏省计算机学会网站！

设为首页 | 收藏本站

当前位置：首页 > 新闻中心 > 通知公告

新闻中心

通知公告

技术创新论坛《Vision + Language: From Captioning to Grounding》

发布时间：2020-10-15

南京大学计算机科学与技术系

软件新技术与产业化协同创新中心

摘要：

联合视觉与语言的多模态学习，已经逐步成为业界的研究热点。结合文本信息，可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展，主要集中于描述生成和视频定位。对于视频描述生成，提出编码器-解码器-重构器的框架，充分利用视频到文本和文本到视频双向信息，进而提升视频描述生成的能力。对于密集视频描述生成，不仅需要对视频进行定位，还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型，同时完成视频的定位和描述生成。对于视频的定位，构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求，提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。

报告人简介:

马林，现任美团AI平台部视觉智能中心研究员，曾任腾讯AI Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位，分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉，视频分析与理解等，尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊，如TPAMI，CVPR，ECCV，ICCV，NIPS，ICML，ACL，EMNLP等发表多篇论文，迄今google scholar引用超过3500+次。马林曾入围2012年香港科学协会青年科学家，曾于2011年获得微软亚洲研究院fellowship，并且获得国际会议 Pacific-Rim Conference on Multimedia (PCM) 2008最佳论文奖。

时间：10月16日(星期五)15:30

腾讯会议平台ID：103 664 087

上一篇：学术报告《Neural Modeling and Rendering: A Paradigm Shift in Computer Vision and Graphics》
下一篇：关于举办《区块链技术与应用》高等院校师资培训的通知

友情链接：

江苏省科学技术协会中国计算机学会南京大学南京大学计算机科技与技术系南京大学软件学院东南大学计算机科学与工程学院江苏经贸职业技术学院南京信息职业技术学院南京工业职业技术学院江苏海事职业技术学院常州信息职业技术学院国网电力科学研究院电子科技集团第28研究所江南计算技术研究所

Copyright (c) 版权所有江苏省计算机学会   南京网站建设公司
秘书处办公室地址：江苏省南京市仙林大道163号邮编：210023   电话/传真：025-89680909
秘书处市内联络点地址：江苏省南京市汉口路22号邮编：210093 电话/传真：025-86635622
电子邮箱：jscs@nju.edu.cn 网址：www.jscs.org.cn 技术支持：南京成旭通信息技术有限公司

网站备案号：苏ICP备14049275号-1 公安备案号：苏公网安备32011302323110号

您是本站第90314384位来客！

在线客服