北京大学王选计算机研究所多媒体信息处理研究室MIPL(负责人彭宇新教授)

时间：2023-04-23

　　研究室介绍

　　多媒体信息处理研究室 ( Multimedia Information Processing Lab, 简称 MIPL ) ?是北京大学王选计算机研究所下属的专业研究室，负责人是彭宇新教授。

　　MIPL 主要以图像处理、视频处理、机器学习、人工智能等为基础，对互联网上的图像、视频等多模态数据进行采集、分析、识别和挖掘，为构建新一代的跨媒体分析与搜索系统提供关键技术支撑。

　　MIPL 的研究方向主要有：跨媒体分析与推理；图像视频理解与检索；计算机视觉；机器学习与人工智能。

　　MIPL 继承和发扬王选院士提倡的 " 顶天立地 " 传统，既强调在基础研究及基础应用研究上作出一流的研究成果，为北京大学创建世界一流大学作出应有贡献；也强调在应用研究上实现研究成果的推广应用，以更好地服务于国家的重大战略需求。

　　研究室正处于发展期，迫切需要各种人才。如果您希望申请北大教职、博士后、研发工程师（北大合同编制）、国内访问学者，或是希望考博、申请保研（直博生和硕士生）、实习、外校访问学生，请与彭宇新教授 ( pengyuxin@pku.edu.cn ) 联系。

　　研究室网址 :

　　研究室负责人

　　彭宇新，北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863 项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院 " 人工智能 2.0" 规划专家委员会专家、中国电子学会会士、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任、北京图象图形学学会副理事长。

　　主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获 2016 年北京市科学技术奖一等奖和 2020 年中国电子学会科技进步一等奖，2008 年获北京大学宝钢奖教金优秀奖，2017 年获北京大学教学优秀奖。主持了 863、国家自然科学基金重点等 30 多个项目，发表论文 180 多篇，包括 ACM/IEEE Trans 和 CCF A 类论文 80 多篇。多次参加由美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任 IEEE TMM、TCSVT、《电子与信息学报》等期刊编委。

　　研究室成员

　　何相腾，北京大学王选计算机研究所助理研究员，2022 年入选中国科协青年人才托举工程项目、2020 年入选 CCF 优博。2014 年本科毕业于南开大学计算机与控制工程学院，2020 年博士毕业于北京大学王选计算机研究所（导师：彭宇新教授）。主要研究方向为跨媒体分析、细粒度图像分类、计算机视觉和人工智能。主持国家自然科学基金面上、腾讯微信犀牛鸟专项等项目，已发表论文 20 余篇，包括 IEEE Trans. 和 CCF A 类论文 17 篇，其中 IEEE TIP 2018 入选 ESI 高被引论文。多次参加由美国国家标准技术局 NIST 举办的国际评测 TRECVID 视频语义搜索比赛，均获第一名。研究成果已经应用于央视、人民日报、新华社等单位。获 2018 年百度奖学金（全球 10 名获奖者），2020 年北京大学优秀博士学位论文奖，2020 年北京大学优秀毕业生、2020 年北京市普通高等学校优秀毕业生。担任国际会议 ICME 2023 领域主席、IJCAI 2021 高级程序委员（SPC）、CVPR 2022/2023 细粒度视觉分类 Workshop 共同组织者。

　　周嘉欢，北京大学王选计算机研究所助理教授、研究员、博士生导师，国家级人才计划青年项目（海外）入选者，北京大学博雅青年学者。2013 年本科毕业于清华大学自动化系，2018 年博士毕业于美国西北大学 EECS 系（导师：Ying Wu 教授），2019 年 2 月至 2022 年 2 月在美国西北大学 ECE 系计算视觉实验室从事博士后和研究助理教授（Research AssistantProfessor）。主要研究方向为计算机视觉、机器学习、深度学习等，已发表国际论文 20 余篇，包括 IEEE TPAMI、IEEE TIP、CVPR、ICCV、ECCV 等。担任 CCF 计算机视觉专委会执行委员，国际会议 CVPR 2023、ICME 2020/2021/2023、ICPR 2022 领域主席，AAAI 程序委员会委员。常年担任 IEEE TPAMI、IJCV 以及 CVPR、ICCV、ECCV、NeurIPS、ICML 等多个重要国际期刊和会议的审稿人。

　　刘洋，北京大学王选计算机研究所助理教授、研究员，博士生导师。在此之前，其博士毕业于英国剑桥大学计算机科学专业，而后曾任英国牛津大学 VGG 小组博士后研究员。研究方向是跨媒体智能，即运用人工智能算法处理跨模态信息分析与智能融合的相关问题，具体围绕多模态信息表征，跨模态对齐与智能融合，面向开放动态环境的跨模态分析三个方面展开。研究成果发表在计算机视觉、机器学习会议上（CVPR, ICCV, AAAI 等）30 余篇，获国际专利授权，五项国际竞赛获奖，部分创新性研究成果及其关键技术已在学术及产业界得到了应用。

　　研究方向包括但不限于：

　　1. 细粒度视觉分析：对粗粒度的大类进行细粒度的子类划分，例如将鸟分为大冠蝇霸鹟、阿卡迪亚霸鹟、蓝鹀等，将飞机分为波音 737、747、777 等。

　　2. ? 视觉内容识别：使计算机能够 " 看懂 " 图像视频等视觉内容，自动识别其中的内容。

　　3. ? 跨时空对象关联演化分析：以跨时空的对象关联为基础，研究跨时空知识图谱构建方法，进一步建模并分析对象的运动规律，并预测对象运动轨迹和行为模式。

　　4. ? 细粒度视频检索：从大规模视频数据库中查找给定细粒度事件视频的副本，包括细粒度重复场景、互补场景、同事件场景的视频。

　　5. ?面向远距离小目标的超分辨率重建：高位视频监控中远距离小目标区域进行细节重建，得到小目标区域细节、场景细节丰富的高清图像。

　　6.跨媒体检索：以任意媒体数据检索相关的各种媒体数据，实现图像、文本、视频等不同媒体数据之间的语义关联和交叉检索。

　　7. ? 文本到视觉内容生成（AIGC）：指根据用户给定的自然语言文本进行 " 联想 " 与 " 创造 "，从无到有地自动生成图像、视频等视觉内容。

　　8. ?跨媒体知识图谱：将通用或特定领域的文本知识图谱拓展为包含图像、文本、视频、音频等跨媒体信息的知识图谱，提供实体的跨媒体属性及关联关系等知识。

　　9. ?跨媒体推理：以视觉信息和文本信息作为推理线索，经过挖掘实体、场景之间的深层关系，结合常识进行推理并回答问题。

　　10. ?多模态大模型：通过在大规模无标注 / 弱标注数据上进行自监督学习，实现对多模态信息的提取和融合，学习通用知识表征并在少量标注数据上微调，提高模型在多种下游任务上的性能。

　　本文来源：MIPL 实验室，欢迎关注实验室微信订阅号：