基于多模态大模型的视觉内容理解与生成学术报告

发布时间：2025年07月21日作者：彭宇新浏览次数：

报告题目：基于多模态大模型的视觉内容理解与生成

报告时间：7月23日上午10点

报告地点：民主楼313

报告摘要：多模态大模型在视觉内容理解与生成的协同进化上展现出巨大潜力，也面临关键挑战。在视觉内容理解上，真实世界的细粒度和多模态特性对大模型提出挑战；在视觉内容生成上，如何生成内容真实、逻辑合理且语义一致的视觉内容是需要研究的关键问题。围绕上述难题，本团队在细粒度多模态大模型、AIGC等方面进行了相关研究，推动多模态大模型赋能视觉内容的理解与生成。

报告人简介：彭宇新，北京大学二级教授、博雅特聘教授，CAAI/CIE/CSIG Fellow，2019年国家杰出青年科学基金获得者，2025年青年科学基金项目（A类）延续资助计划获得者，2019年国家万人计划科技创新领军人才，2018年科技部中青年科技创新领军人才，863项目首席专家，中国工程院“人工智能2.0”规划专家委员会专家，中国人工智能产业创新联盟专家委员会主任，中国图象图形学学会副秘书长、提名与奖励委员会副主任，北京图象图形学学会副理事长。主要研究方向为多媒体分析、计算机视觉、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然基金重点、北京自然基金联合基金重点、发改委专项等40多个项目。发表TPAMI、IJCV、CVPR、NeurIPS、ICML等ACM/IEEE Trans.和CCF A类论文150多篇，获最佳论文奖2次。10次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频搜索比赛，均获第一名。成果应用于国家网信办、公安部、国家广播电视总局等重要单位以及华为、腾讯、快手、蔚来、美团、中国电信、中国铁塔等头部企业。IEEE TCSVT高级领域编委、IEEE TMM等期刊编委，培养博士生获中国计算机学会、中国电子学会等优博。