个人简介:Ruili Wang教授,博士生导师,新西兰工程院院士,国家级高层次人才,毕业于华中科技大学(学士)、东北大学(硕士)、都柏林城市大学(博士),新西兰梅西大学数学与计算科学学院科研副院长。目前从事的研究包括人工智能、机器学习、机器视觉、语音处理和自然语言处理等多个方面。曾获得多个新西兰国家级重大和重点项目的资助,进入2021-2025斯坦福大学"全球前2%学者"。担任多个SCI期刊的编委,包括IEEE Transactions on Multimedia(TMM),IEEE Transactions On Circuits and Systems for Video Technology (TCSVT) (2026-), IEEE Computational Intelligence Magazine (2026-), IEEE Transactions on Emerging Topics in Computational Intelligence (TETCI), ACM Transactions on Multimedia Computing,Communications, and Applications (TOMM), Knowledge and Information Systems(Springer), Applied Soft Computing (Elsevier), Neurocomputing (Elsevier).
报告摘要:本次讲座将聚焦视频语义理解、红外与可见光图像融合两个技术方向的研究成果,主要报告内容信息如下:
主题l: Knowledge Enhancement and Disentanglement Learning for Video Captioning.视频字幕生成作为连接计算机视觉与自然语言处理的桥梁,在视频流媒体时代对各类知识驱动系统至关重要。现有基于知识图谱的方法存在复杂关系推理能力受限、时空上下文感知缺失及图谱构建复杂等问题,提出一种视频字幕生成知识增强与解耦表征学习方法,可弥补语义信息不足并促进视觉-文本模态的有效对齐。
主 题 2 : Entity-Guided Multi-Task Learning for Infrared and Visible Image Fusion.针对现有文本驱动红外与可见光图像融合方法依赖句子级文本信息、易产生语义嗓声且未能充分挖掘文本深层语义价值的问题,提出实体引导的多任务学习融合方法,该方法通过提取实体级文本信息、构建并行多任务学习架构及设计实体引导跨模态交互模块,实现视觉与实体级文本特征的细粒度交互,提升融合图像的质量与语义密度,优化特征表征能力。