欢迎访问江苏省计算机学会网站!    设为首页  |  收藏本站
江苏省计算机学会
  •  当前位置首页 > 新闻中心 > 通知公告
    新闻中心  
    党建工作
    学会动态
    政策法规
    行业新闻
    图片新闻
    通知公告
    学会通讯
     
    通知公告
    技术创新论坛《Vision + Language: From Captioning to Grounding》
    发布时间:2020-10-15 17:04:38

    南京大学计算机科学与技术系

    软件新技术与产业化协同创新中心



    摘 要:

    联合视觉与语言的多模态学习,已经逐步成为业界的研究热点。结合文本信息,可以更深度的理解图像/视频等视觉信号。本演讲将介绍视觉与语言结合上的一些新的研究进展,主要集中于描述生成和视频定位。对于视频描述生成,提出编码器-解码器-重构器的框架,充分利用视频到文本和文本到视频双向信息,进而提升视频描述生成的能力。对于密集视频描述生成,不仅需要对视频进行定位,还需要为每一个定位的片段生成文本描述。构建了一个新的端到端的深度网络模型,同时完成视频的定位和描述生成。对于视频的定位,构建了新的时域定位网络用于快速的定位自然语句对应的视频片段。同时为了降低人工标注的数据需求,提出通过弱监督的方式定位与自然语句语义相关的是空域视频片段。


    报告人简介:

    马林,现任美团AI平台部视觉智能中心研究员,曾任腾讯AI Lab专家研究员。他于2013年在香港中文大学电子工程系获得博士学位,分别于2006和2008年在哈尔滨工业大学计算机学院获得本科与硕士学位。他现在主要从事深度学习、计算机视觉,视频分析与理解等,尤其是视觉与语言的多模态深度学习方面的研究。在领域顶级会议和期刊,如TPAMI,CVPR,ECCV,ICCV,NIPS,ICML,ACL,EMNLP等发表多篇论文,迄今google scholar引用超过3500+次。马林曾入围2012年香港科学协会青年科学家,曾于2011年获得微软亚洲研究院fellowship,并且获得国际会议 Pacific-Rim Conference on Multimedia (PCM) 2008最佳论文奖。

    时间:10月16日(星期五)15:30

    腾讯会议平台ID:103 664 087


    上一篇:学术报告《Neural Modeling and Rendering: A Paradigm Shift in Computer Vision and Graphics》
    下一篇:关于举办《区块链技术与应用》高等院校师资培训的通知
    友情链接:
    江苏省科学技术协会 中国计算机学会 南京大学 南京大学计算机科技与技术系 南京大学软件学院 东南大学计算机科学与工程学院 江苏经贸职业技术学院 南京信息职业技术学院 南京工业职业技术学院 江苏海事职业技术学院 常州信息职业技术学院 国网电力科学研究院 电子科技集团第28研究所 江南计算技术研究所 
       
     

    Copyright (c) 版权所有 江苏省计算机学会          南京网站建设公司
    秘书处办公室       地址: 江苏省南京市仙林大道163号  邮编:210023   电话/传真:025-89680909   
    秘书处市内联络点   地址: 江苏省南京市汉口路22号     邮编:210093   电话/传真:025-86635622
    电子邮箱:jscs@nju.edu.cn   网址:www.jscs.org.cn    技术支持:南京成旭通信息技术有限公司  

    网站备案号:苏ICP备14049275号-1

    您是本站第32054104位来客!