北京大学王选计算机研究所多媒体信息处理研究室MIPL(负责人彭宇新教授)

  研究室介绍

  多媒体信息处理研究室 ( Multimedia Information Processing Lab, 简称 MIPL ) ?是北京大学王选计算机研究所下属的专业研究室,负责人是彭宇新教授。

  MIPL 主要以图像处理、视频处理、机器学习、人工智能等为基础,对互联网上的图像、视频等多模态数据进行采集、分析、识别和挖掘,为构建新一代的跨媒体分析与搜索系统提供关键技术支撑。

  MIPL 的研究方向主要有:跨媒体分析与推理;图像视频理解与检索;计算机视觉;机器学习与人工智能。

  MIPL 继承和发扬王选院士提倡的 " 顶天立地 " 传统,既强调在基础研究及基础应用研究上作出一流的研究成果,为北京大学创建世界一流大学作出应有贡献;也强调在应用研究上实现研究成果的推广应用,以更好地服务于国家的重大战略需求。

  研究室正处于发展期,迫切需要各种人才。如果您希望申请北大教职、博士后、研发工程师(北大合同编制)、国内访问学者,或是希望考博、申请保研(直博生和硕士生)、实习、外校访问学生,请与彭宇新教授 ( pengyuxin@pku.edu.cn ) 联系。

  研究室网址 :

  研究室负责人

  彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863 项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院 " 人工智能 2.0" 规划专家委员会专家、中国电子学会会士、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任、北京图象图形学学会副理事长。

  主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获 2016 年北京市科学技术奖一等奖和 2020 年中国电子学会科技进步一等奖,2008 年获北京大学宝钢奖教金优秀奖,2017 年获北京大学教学优秀奖。主持了 863、国家自然科学基金重点等 30 多个项目,发表论文 180 多篇,包括 ACM/IEEE Trans 和 CCF A 类论文 80 多篇。多次参加由美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任 IEEE TMM、TCSVT、《电子与信息学报》等期刊编委。

  研究室成员

  何相腾,北京大学王选计算机研究所助理研究员,2022 年入选中国科协青年人才托举工程项目、2020 年入选 CCF 优博。2014 年本科毕业于南开大学计算机与控制工程学院,2020 年博士毕业于北京大学王选计算机研究所(导师:彭宇新教授)。主要研究方向为跨媒体分析、细粒度图像分类、计算机视觉和人工智能。主持国家自然科学基金面上、腾讯微信犀牛鸟专项等项目,已发表论文 20 余篇,包括 IEEE Trans. 和 CCF A 类论文 17 篇,其中 IEEE TIP 2018 入选 ESI 高被引论文。多次参加由美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频语义搜索比赛,均获第一名。研究成果已经应用于央视、人民日报、新华社等单位。获 2018 年百度奖学金(全球 10 名获奖者),2020 年北京大学优秀博士学位论文奖,2020 年北京大学优秀毕业生、2020 年北京市普通高等学校优秀毕业生。担任国际会议 ICME 2023 领域主席、IJCAI 2021 高级程序委员(SPC)、CVPR 2022/2023 细粒度视觉分类 Workshop 共同组织者。

  周嘉欢,北京大学王选计算机研究所助理教授、研究员、博士生导师,国家级人才计划青年项目(海外)入选者,北京大学博雅青年学者。2013 年本科毕业于清华大学自动化系,2018 年博士毕业于美国西北大学 EECS 系(导师:Ying Wu 教授),2019 年 2 月至 2022 年 2 月在美国西北大学 ECE 系计算视觉实验室从事博士后和研究助理教授(Research AssistantProfessor)。主要研究方向为计算机视觉、机器学习、深度学习等,已发表国际论文 20 余篇,包括 IEEE TPAMI、IEEE TIP、CVPR、ICCV、ECCV 等。担任 CCF 计算机视觉专委会执行委员,国际会议 CVPR 2023、ICME 2020/2021/2023、ICPR 2022 领域主席,AAAI 程序委员会委员。常年担任 IEEE TPAMI、IJCV 以及 CVPR、ICCV、ECCV、NeurIPS、ICML 等多个重要国际期刊和会议的审稿人。

  刘洋,北京大学王选计算机研究所助理教授、研究员,博士生导师。在此之前,其博士毕业于英国剑桥大学计算机科学专业,而后曾任英国牛津大学 VGG 小组博士后研究员。研究方向是跨媒体智能,即运用人工智能算法处理跨模态信息分析与智能融合的相关问题,具体围绕多模态信息表征,跨模态对齐与智能融合,面向开放动态环境的跨模态分析三个方面展开。研究成果发表在计算机视觉、机器学习会议上(CVPR, ICCV, AAAI 等)30 余篇,获国际专利授权,五项国际竞赛获奖,部分创新性研究成果及其关键技术已在学术及产业界得到了应用。

  研究方向包括但不限于:

  1. 细粒度视觉分析:对粗粒度的大类进行细粒度的子类划分,例如将鸟分为大冠蝇霸鹟、阿卡迪亚霸鹟、蓝鹀等,将飞机分为波音 737、747、777 等。

  2. ? 视觉内容识别:使计算机能够 " 看懂 " 图像视频等视觉内容,自动识别其中的内容。

  3. ? 跨时空对象关联演化分析:以跨时空的对象关联为基础,研究跨时空知识图谱构建方法,进一步建模并分析对象的运动规律,并预测对象运动轨迹和行为模式。

  4. ? 细粒度视频检索:从大规模视频数据库中查找给定细粒度事件视频的副本,包括细粒度重复场景、互补场景、同事件场景的视频。

  5. ?面向远距离小目标的超分辨率重建:高位视频监控中远距离小目标区域进行细节重建,得到小目标区域细节、场景细节丰富的高清图像。

  6.跨媒体检索:以任意媒体数据检索相关的各种媒体数据,实现图像、文本、视频等不同媒体数据之间的语义关联和交叉检索。

  7. ? 文本到视觉内容生成(AIGC):指根据用户给定的自然语言文本进行 " 联想 " 与 " 创造 ",从无到有地自动生成图像、视频等视觉内容。

  8. ?跨媒体知识图谱:将通用或特定领域的文本知识图谱拓展为包含图像、文本、视频、音频等跨媒体信息的知识图谱,提供实体的跨媒体属性及关联关系等知识。

  9. ?跨媒体推理:以视觉信息和文本信息作为推理线索,经过挖掘实体、场景之间的深层关系,结合常识进行推理并回答问题。

  10. ?多模态大模型:通过在大规模无标注 / 弱标注数据上进行自监督学习,实现对多模态信息的提取和融合,学习通用知识表征并在少量标注数据上微调,提高模型在多种下游任务上的性能。

  本文来源:MIPL 实验室,欢迎关注实验室微信订阅号: