为了推动我省大数据技术研究和应用发展,促进大数据技术和学术交流,江苏省计算机学会大数据专家委员会于2021年6月27日在江苏徐州成功召开了第九届江苏省大数据技术学术年会暨第二十届南京大数据Meetup 技术交流会。会议到会的院校师生和企业界代表共计100多人,听取了10位专家学者的学术技术报告。
本次会议由江苏省计算机学会主办,由江苏省计算机学会大数据专家委员会与中国矿业大学计算机科学与工程学院联合承办,江苏软件新技术与产业化协同创新中心协办,同时中国计算机学会大数据专家委员会是本次活动的指导单位。大会赞助单位是江苏鸿程大数据技术与应用研究院。
会议于2021年6月27 日上午9点开幕,开幕式由中国计算机学会大数据专家委员会副主任、江苏省计算机学会大数据专家委员会主任、南京大学黄宜华教授主持,江苏省计算机学会秘书长金莹代表学会致开幕词。
会议开幕后,便开始了为期一天的大数据学术技术主题报告。本次年会邀请了来自中国矿业大学、微软亚洲研究院、南京大学、中国科技大学、中科院软件所、阿里巴巴、华为、南京航空航天大学、江苏鸿程大数据技术与应用研究院的多位学者与专家,做了一系列精彩的大数据并行处理与智能分析相关的学术和技术报告。上午的学术报告会由专委会主任黄宜华教授、专委会副主任何洁月教授主持,下午的学术报告会由专委会副主任李云教授、专委会秘书长顾荣副研究员主持。
中国矿业大学计算机科学与技术学院王志晓教授作了“大规模社交网络关键节点识别研究”的学术报告。关键节点识别是社交网络分析领域的热点方向。该报告主要介绍了节点重要性排序、影响力最大化和网络拆解三类典型任务中的关键节点识别的主要方法。首先,介绍节点重要性排序、影响力最大化和网络拆解三类任务的目标,然后,总结每类任务中的关键节点具有的一般特征,最后,从多个角度详细分析了每类任务中关键节点集合间的区别与联系。
微软亚洲研究院首席研究员边江博士作了题为“AI技术研究与行业智能化应用实践”的学术报告,该报告主要介绍了微软亚洲研究院通过与各个行业的龙头企业以及科研机构合作,通过深入理解AI技术在行业智能化实践中的新挑战,开发了一系列先进的机器学习算法来解决上述这些挑战,包括利用对偶学习的方法解决数据不足的问题、利用元学习解决样布不平衡的问题、提出多智能体强化学习方法,来解决效率和成本困境等。
南京大学计算机科学与技术系李武军教授作了题为“大数据机器学习”的学术报告。近年来人工智能发展的重要推动因素之一是大数据。大数据机器学习研究面向大数据的机器学习技术,可以为人工智能提供核心的理论和技术支撑。李武军老师报告介绍其研究组在大数据机器学习领域最新的研究成果,包括面向模型高效推断的哈希学习和面向模型高效训练的并行与分布式学习,以及这些学习技术在视觉、语音和语言中的应用。
中国科学技术大学大数据学院执行院长陈恩红教授作了“教育大数据分析研究与应用实践”的学术报告。智能教育是未来发展趋势。陈恩红教授的报告重点了介绍其团队在教育大数据分析与挖掘领域开展的工作,包括学习资源分析、学习能力评估和个性化推荐等关键技术。此外,报告还简要介绍了他们将相关技术应用于在智慧医疗方面的若干实践,包括病症智能诊断、并发症分析和个性化药品推荐等问题。
上午的最后一个报告,由中科院软件所副研究员刘杰博士进行。报告题目为“地球大数据挖掘分析云服务系统的关键技术研究”。刘杰老师具体介绍团队在中科院A类先导专项“地球大数据科学工程”项目支持下研发地球大数据挖掘分析云服务系统(EarthDataMiner),该系统能够降低科学家利用云平台、大数据、前沿AI算法开展大规模数据分析的难度。报告重点介绍探索解决的以下三个关键问题:(1)面向领域设计一套函数库,支持科学家按照习惯的单机版算法开发模式,开发可在大数据平台分布式执行的算法。(2)基于Serverless架构支持科学家函数式开发大数据分析的算法。(3)支持领域科学家进行多语言多平台算法的共享和集成。
下午会议的第一个学术报告,由南京大学PASA大数据实验室副研究员顾荣博士进行,题目为“Fluid:云原生环境下大数据与AI应用的高效支撑平台”。云原生在资源弹性扩展方面的优势吸引了大量应用运行在其上。然而,数据密集型应用运行在云上存在数据访问延时高、多源联合分析难、数据使用过程复杂等痛点。本报告介绍为了顾荣博士等人为了解决这些问题,发起的开源云上大数据编排与加速项目Fluid,现已入选成为云原生基金会(CNCF,隶属于Linux Foundation)官方沙箱项目,报告重点阐述了Fluid在云原生应用与数据的协同编排、调度优化、数据缓存等几方面提出一系列技术创新,及其在阿里巴巴、微博等众多大厂的落地应用。
阿里巴巴高级技术专家曹龙先生作了题为“云原生数据湖的技术探索、实践与机遇”的报告。云计算是数据库和大数据发展的新机遇,基于云原生体系的数据湖技术探索和产品创新开始兴起,本报告介绍了阿里云在数据湖领域的整体体系架构、元数据发现和管理、Lakehouse、执行引擎、Serverless上的技术探索和业务实践,并分享了未来的关键技术规划和展望。
华为大数据高级技术专家蔡浩然博士作了题为“面向电信行业的大数据近似查询技术研究”的报告。网络运维和用户体验提升是运营商实现数字化转型的基础业务。如何在满足查询精度的前提下,提升查询速度,是当前面临的关键挑战。本报告介绍了华为运营商BG在大数据查询技术领域的研究进展,结合真实的业务数据,面对电信数据不均匀分布等特点,提出多种高效的近似查询算法,突破高精度下的快速查询难题。
南京航空航天大学计算机科学与技术学院王肇康博士作了题为“面向大规模图查询的分布式子图枚举算法研究”的学术报告。子图枚举是图数据库中图模式匹配查询的基础,被广泛使用于欺诈检测、motif挖掘、图结构分析等应用中。本报告首先回顾了分布式子图枚举算法研究现状,然后在此基础上介绍了近年发表在ICDE/TPDS等国际前沿会议/期刊的基于数据图交换的新兴分布式子图枚举算法的情况,并展望该问题未来可能的研究方向。
最后,江苏鸿程大数据技术与应用研究院技术总监郭晨作了题为“面向数据综合治理与智能分析的数据中台架构实践”的报告。数字经济时代,使用数据中台统一支撑大数据和人工智能业务成为共识,但日趋多样复杂的应用场景为数据中台的架构提出了更高的要求。本报告分享探讨了鸿程大数据众多行业应用场景中,基于当下相关技术综合利用数据湖、AutoML、FaaS等技术构建面向数据综合治理与智能分析的数据中台的一系列研究与工程实践。
|