学术讲座—面向视觉-语义关联学习的多模态预训练模型知识增强

发布者：科研处更新日期： 2025-01-04 访问次数： 273

讲座题目	面向视觉-语义关联学习的多模态预训练模型知识增强
主办单位	电子电气与物理学院
联合主办单位
讲座人	李泽超	讲座人职称	正高	主持人	罗堪
讲座类型	自然科学	讲座对象	全校师生	时间	2025-01-05 09:30
地点	至诚楼C1-206会议室
讲座人简介	李泽超，南京理工大学计算机科学与工程学院/人工智能学院/软件学院教授、副院长，研究兴趣主要是多模态智能分析、计算机视觉等，主持国家杰出青年科学基金，新一代人工智能国家科技重大专项课题、国家自然科学基金联合基金重点项目、江苏省攀登项目、江苏省杰青项目等；入选国家“万人计划”青年拔尖人才；发表CCF A类期刊和会议论文70余篇；获得江苏省科学技术一等奖2项、中国电子学会自然科学一等奖1项；获得ACM MM Asia 2020和2024两年度最佳论文奖等；担任IEEE TPAMI, TNNLS, TCSVT等期刊编委。
讲座主要内容	近年来，在探索通用人工智能的可能发展方向中，多模态大模型已成为当前备受关注的重要方向，受到了学术界和工业界的广泛关注。多模态大模型通过整合文本、图像、音频等多种类型的数据，利用深度学习技术构建大规模神经网络进行训练。该模型能够从不同模态的数据中提取特征，并通过融合机制将这些特征结合起来，实现跨模态的信息理解和推理。在训练过程中，模型通过不断优化参数，提高对不同模态数据的处理能力。最终，多模态大模型能够实现对多种类型信息的综合理解和应用，从而为人工智能技术的发展开辟新的道路。多模态大模型的研究任务涵盖多模态问答和推理、图文生成、图像理解与推理等各个多个方面的内容。本报告着重介绍了研究团队在面向视觉-语义关联学习的多模态预训练模型知识增强方面的研究工作，围绕外部知识和内部知识两个方面开展了多模态预训练大模型与下游视觉-语义关联学习任务的适配问题研究，重点介绍基于多模态预训练大模型的小样本识别、图像理解、视觉问答、语义分割、图像检索、视觉定位等下游任务的适配工作，最后介绍在实际业务上的应用情况。