旷视提出SAM-IQA：分割一切模型可以提高图像质量评估吗？

时间：2023-07-16

　　谢谢几个邀请，没想到这个问题能上热榜。

　　相关事实在我的两篇文章中已经说得很清楚了，其中第一篇主要讲了我们怎么做、结果怎么样，第二篇主要讲了我们得到的认可。

　　华为云提出盘古气象大模型：中长期气象预报精度首次超过传统数值方法，速度提升10000倍以上登上Nature正刊、欧洲气象中心背书、轻量级方案发布：盘古气象大模型后续进展综述由于还在上班，我想晚上再回来补充回答些信息和轶事吧。

　　如约来补充一些内容。

　　首先，我们要感谢向我们提出建议的气象学家们。他们的建议，对我们审视自己的成果、摆正工作的位置、明确未来的方向，都非常有价值。我们尤其要感谢中国气象局的同僚们，他们与我们一起研讨这个工作的价值，与我们一起探索模型的落地应用。

　　因为大部分信息在前两篇文章里已经充分阐述，这里就以自问自答的形式，回答一些大家可能关心的问题。

　　问：为什么要用AI做气象？

　　答：AI是否适合某个场景，主要有两个判断标准。第一，人类经验是否已经难以继续演进；第二，训练数据是否充足。气象预报精准符合这两个标准：人类经验构建起来的偏微分方程组受到各种误差和近似的影响，因而传统数值预报在近十年的演进速度很慢；欧洲气象中心也公开了ERA5数据集，包含了超过80年的全球再分析数据。

　　问：AI气象预报会快速取代传统方法吗？

　　答：不会。AI气象预报还存在诸多缺陷，例如还未做同化、还高度依赖于再分析数据、极端天气估计偏弱，等。至少在未来的一段时间，AI气象预报方法和传统气象预报方法会结合起来，形成一种hybrid预报系统。两种方法会发挥各自的优势，如传统方法的可解释性和AI方法的高效性。在一段时间（至少5年）以后，如果两者统一起来，我看好类似于PINN[1]那样，结合了物理规律的深度神经网络算法。当然，在此之前，同化和后处理等过程，都要在数据开放的情况下，被各自的AI方法解决才可以。

　　问：AI气象预报还有哪些可以做的课题？

　　答：我们认为，这两年AI气象预报将会迅速发展。我们的模型（以及未来更多的模型）已经开源开放，而且我们也发布了轻量级的训练方案，这使得更多的研究者可以以相对较低的代价，开展这方面的研究。在这些研究过程中，气象学家将发挥重要的作用：他们可以发挥专业知识，更好地利用这些训练好的模型。以下，我设想几个可能的研究课题。

　　【AI】训练4D神经网络，更好地捕捉时序信息，进一步提升AI方法的预报精度。【气象】基于AI模型的高效推理能力，设计更好的集成预报方法，使得集成预报的精度更高、概率分布更有意义。【AI+气象】在更高时空分辨率的数据上做预报。ECMWF称，他们将在2026年发布ERA6数据集，空间分辨率将提升8倍。在这样的条件下，数据组织和模型训练都会面临新挑战。【AI+气象】重新审视当前的评价指标，包括RMSE和ACC等。我在报告中多次提到，当预报时长超过7天以后，RMSE和ACC将具有一定的欺骗性，让更平滑的AI模型受益，但这并没有太大的意义。问：完成这篇文章的过程如何？

　　答：首先，这篇文章90%以上的工作量是一作毕恺峰同学完成的。

　　恺峰从2020年底开始涉足AI科学计算领域，2021年上半年调研了许多科学计算的课题（包括生物、地质、物理等），与2021年下半年选定了气象预报，并且开始准备。他花费了大半年的时间，从欧洲气象中心下载了超过200TB的再分析数据，并且利用早期的10年数据，逐步搭建起AI气象预报的训练框架。有了一定的调参经验后，2022年年中，他开始在40年数据上做实验。期间，遇到了GPU集群数据通信等瓶颈，他与华为云的平台技术人员多次沟通，最终解决了问题。最终跑的4个模型，都是一次成功（每个模型需要192块V100跑16天，我们也没有更多的预算）。为了支撑这些模型的训练，团队的其他同学中止了正在运行的程序，让出了GPU资源，最终确保实验顺利完成。同时，恺峰还完成了集成预报和台风路径预报两组实验。去年10月上旬，恺峰完成了论文的初稿；我刷新一遍后，上传到arXiv。

　　问：投稿Nature的过程如何？

　　答：我们原本没有明确的投稿打算。田老师希望我们投Nature，但是我们心里都没底，我本想投个机器学习的顶会（比如ICLR或者ICML）。耽误了一个多月后，12月底，我们看到了Google的GraphCast，发现他们的精度比我们还要高。这个时候我有些灰心了，心想Google说不定已经投稿Nature，那我们确实就没希望了。不过我们读了GraphCast以后，发现他们承认了我们的工作在前（我们自己臆测，Google可能没想这么快放出来，看到我们放在arXiv上的工作，才急忙赶出了一个版本）。于是，我们抱着不投白不投的心态，鼓起勇气，把arXiv版本精简以后投到Nature。

　　投稿的过程还挺顺利的。编辑先是承认了我们的贡献，决定送审（我这次投稿才知道：Nature最难的在于送审，送审比例只有15%-20%，而送审后接收率大概有25%-30%）。随后三个审稿人也几乎没有质疑我们的贡献和创新，问的大多是写作、训练细节、开源开放方面的问题。

　　我还是想吐槽一波Nature。作为英国杂志，它完美地体现了“传统”两个字。从投稿没有LaTeX模板（要求用Word写，而且也没有模板，大致看得过去就行），到不甚友好的投稿系统（上传附件和调整顺序很麻烦），再到最终文件提交的各种奇葩规定（比如矢量图不能交PDF格式，只能交EPS格式），无不透出一股二十年前的古早味道。

　　想到有趣的事情，我再补充吧。

　　本文中，Cheems搭建了一个区域级的感知和推理的端到端多模态对话系统GPT4RoI，支持用户通过自然语言与在线画框的交互方式与模型进行关于图像中选定区域的问答。

　　Paper: GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

　　Code: https://github.com/jshilong/GPT4RoI

　　Demo: http://139.196.83.164:7000/

　　Cheems是一只弱小贫穷的CVer，但它有一个梦想：成为一只强大的Buff Doge.Cheems最近在努力学习各种GPT-4相关的paper和开源项目，惊叹于各路大佬在复现GPT-4这条道路上的不懈努力。开源项目中，通过自然语言的交互方式完成图片级的感知和推理任务已经做的很好了，但是现有的开源模型在理解图片中特定物体或者区域时的表现并不能令人满意，主要体现在:

　　（1）MiniGPT-4, LLaVa等仅支持自然语言交互，但在区域级理解的任务中仅用自然语言无法准确描述需求

　　（2）MM-REACT, InternGPT等通过多模型拼接的方式实现了区域级理解，模型间的传输媒介是文本，这显然是一种暂时性的方案，以feature作为传输媒介的端到端的多模态模型会有更高的上限

　　（3）VisionLLM等端到端的网络只实现了区域级感知的功能，还不能支持区域级逻辑推断

　　于是，一个想法在Cheems的狗头中诞生了：支持自然语言与在线画框的交互，端到端的，区域级感知和推理的多模态对话系统。

　　2.1 Language Instruction and Spatial Instruction

　　端到端多模态模型的基本框架为: 以Large Language Model (LLM)作为通用接口，将vision encoder提供的image token和language instruction token拼接后送进LLM，得到language response。这一框架中，整张图片的信息被无差别地压缩进image token中，用户如果对图片中某一特定区域感兴趣，只能通过自然语言描述需求，这在很多场景中的沟通效率较低，如图(a)中的the woman in the upper left corner of the picture。而一种更显式的描述需求的方式是综合自然语言与空间指代的方式(interleaved language instruction and spatial instruction)。以用户在线画框为例，用户在图像中框选出感兴趣的区域，记为<region1>，并使用自然语言提问，如，what is <region1> doing?

　　在同时支持自然语言与在线画框的多模态系统中，LLM的输入不再是image token和language instruction token的简单拼接，而是将language instruction token中的<region> 替换为对应的region token，其中region token可以通过RoI-Align的方式从image feature map中直接抠取，也可以通过deformable decoder的方式与image feature map进行attention交互获取。这种interleaved language instruction and spatial instruction的拼接方式允许多个区域输入，如，what was <region1> doing before <region3> touched him? 这使得多模态系统既可以实现单区域的理解，也可以实现多区域的理解。这种多区域的理解激发出了一些非常有趣的应用，例如，对区域描述的粒度控制和多区域间的关系推理。

　　2.2 Spatial Instruction Tuning on Region-Text Pairs

　　基于LLM的开源多模态大模型的训练方法一般是在image-text pairs数据上instruction tuning预训练好的LLM和vision encoder (CLIP)，从而对齐特征空间。这种图片级对齐的模型没有显式对齐文本片段与图片区域，在处理区域级任务时对图片特定区域的理解能力较差。因此，面向区域级理解的多模态大模型需要在region-text pairs数据上建立LLM和vision encoder的区域级对齐。幸运的是，开源数据集中已经有一些region-text pairs数据，虽然数量上远小于image-text pairs数据，但是对提高多模态模型的区域级理解和推理能力有很大帮助。在具体训练时，region-text pairs需要转化为用于spatial instruction tuning的格式，具体做法是，物体框标注作为spatial instruction，文本标注转化成一组language instruction和language response。image-text pairs也可以转化为用于spatial instruction tuning的训练数据，具体做法是，通过一个预训练的通用物体检测器从图像中提取多个物体框作为spatial instruction，将spatial instruction提取的region token直接拼接在LLM原有的输入上。我们将这些转化后的数据根据language response的长度分为两类，分别用于模型的两阶段训练：第一阶段训练：冻结CLIP和LLM，只训练从vision encoder到LLM的 region 级别的 feature projection layer，具体则包括一个multi-level的encoder与一个RoI head。这一阶段的训练主要是为了对齐region级别视觉特征和语言模型，response的文本长度较短，包括COCO， RefCOCO，RefCOCO+。第二阶段训练：冻结CLIP，联合训练feature projection layer和LLM。这一阶段的训练主要是为了让LLM输出更符合人类习惯的回答，response的文本长度较长，包括VG, Flickr30k entities，RefCOCOg，Visual Commonsense Reasoning(VCR)，LLaVa 150k。

　　3.1 单区域理解

　　GPT4RoI能感知用户框选区域内的物体的种类，颜色，动作等一系列属性。更进一步，GPT4RoI具有推理能力：在左图的例子中，推理出男孩一边过马路一边看杂志是一种危险的行为；在右图的例子中，推理出谁是图中跑的最快的人。

　　3.2 多区域理解

　　当用户框选多个区域时，GPT4RoI能够感知每个区域内的物体。更重要的是，GPT4RoI能够推理出多个区域间的关系：在左图的例子中，推理出<region2>和<region3>是情侣或夫妻；在右图的例子中，推理出<region2>在与<region3>的搏击中占据上风。

　　模型架构的改进：基于CLIP(VIT-Huge)的vision encoder在处理大分辨率图像时，消耗巨大的计算资源，但是区域级理解恰恰需要大分辨的图片。而更高效的架构，如基于CNN或者sliding window attention的架构没有强大如CLIP的开源模型。训练数据的改进：在region-text pair数据上的训练对提高模型的区域级理解和推理能力有很大帮助，但是开源的region-text pair数据并不多，尤其是包含推理任务的数据。如果将来能收集和标注更多的region-level caption和region-level commonsense reasoning数据集，有希望进一步提高模型能力。Region级别 instruction 的改进：GPT4RoI主要依靠现有的region-text pair标注构造用户instruction，触发特定功能依旧需要特定的问句，难以理解更多样化的用户指令，希望下一步能收集和构造出更多样的region级别的instruction，提升用户体验。交互方式的改进：GPT4RoI目前仅支持自然语言和在线画框的交互方式，增加point，scribble，以图搜物等更开放的交互方式也能进一步提升用户体验。

　　我们组织了Cheems Seminar社区，欢迎大家加入，一起交流学习。 Cheems !

　　1. 引言

　　自从2022年开始，以Stable Diffusion, ChatGPT为代表的生成式AI席卷了整个AI社区，AI大模型也走进了公众的视野。本文将介绍商汤大模型团队提出的文生图大模型RAPHAEL（体验链接见第五节），可以生成具有高度艺术风格或者摄影风格的图片，而且生成速度极快，并且在各项测试上击败了Stable Diffusion XL，DALL-E 2，DeepFloyd等模型。

　　2. 方案介绍

　　本文共提出了三个组件: Space-MoE, Time-MoE, 以及Edge-supervised learning模块。Space-MoE找出了文本中每一个token在图片中对应的区域，用不同的expert来处理不同的区域，最后再融合；Time-MoE模块使得模型能够在不同的timestep上选择不同的expert；这些MoE事实上组成了一系列的diffusion path，用来画某一类名词，动词，或者形容词。这些词的diffusion path都可以被XGBoost算法分开，证明了每一个path负责一个词。Edge-supervised learning模块则帮助模型更好的学习到图片的结构信息。我们也做了充分的消融实验来验证这三个模块的效果，具体可见论文的正文部分。我们使用了清洗后的LAION-5B以及一些内部数据集来训练RAPHAEL，超参数文中都有提供。实验也遇到了很多血泪史，以后有机会的话再和大家分享。具体的网络结构见下图：

　　3. 实验指标

　　3.1. 我们首先在FID上进行了测试，FID是一个衡量图片生成质量和多样性的指标，常常被用于评测生成模型的能力，我们在这一项指标上击败了所有写了论文的模型，比如Stable Diffusion，DALL-E 2等，达到6.61。

　　3.2. 我们同时也基于人类评估给出了一些指标，结论发现RAPHAEL在图文匹配度以及生成质量上均超过了Stable Diffusion XL，DeepFloyd, DALL-E 2，如下图所示

　　4. 放图环节

　　接下来就是大家喜闻乐见的秀图环节啦，在做过大量的测试后，可以认为RAPHAEL效果优于Stable Diffusion XL, DALL-E 2，DeepFloyd等模型。由于篇幅的限制，没办法放更多了，而且为了方便浏览压缩了清晰度，大家可以自己上手玩，一试便知~

　　5. 体验链接

　　我们提供了将RAPHAEL作为基座的artist v0.3.0 beta模型的在线试玩链接，可以在https://miaohua.sensetime.com/zh-CN/中免费试玩（注意不要选错模型了），相信这是世界上最一流的免费体验的文生图大模型之一。同时，我们也设置了反馈按钮（在生成图的旁边）来帮我们不断优化，希望大家可以积极体验反馈，也帮忙和亲朋好友宣传一下，多多支持我们国产大模型~

　　6. 一些tips

　　可能绝大部分同学没有学习过怎么写文生图的prompt，于是我们也提供了描述词优化功能，可以将简单的prompt扩展成能得到优秀效果的prompt。当然，一些国外的网站也提供了一些优秀的prompt库：

　　https://lexica.art/

　　https://www.midjourney.com/app/feed/

　　https://app.prompthub.studio/

　　同时建议大家把步数拉到100，图片质量会更佳。

　　7. 论文引用

　　https://arxiv.org/abs/2305.18295

　　@article{xue2023raphael,

　　title={Raphael: Text-to-image generation via large mixture of diffusion paths},

　　author={Xue, Zeyue and Song, Guanglu and Guo, Qiushan and Liu, Boxiao and Zong, Zhuofan and Liu, Yu and Luo, Ping},

　　journal={arXiv preprint arXiv:2305.18295},

　　year={2023}

　　}

　　首篇综述！20页，共计270篇文献！本文对Open Vocabulary学习进行全面调研，总结和分析了该领域的最新发展，重点放在分割、检测和视觉-语言中几个密切相关的任务，包括长尾、少样本和零样本。

　　点击进入—>【多模态和Transformer】交流群

　　最近大火的Open Vocabulary 方向第一篇综述！北京大学、南洋理工大学等联合发表最新的Open Vocabulary 综述。综述涵盖多种任务（检测、分割、视频、3D）的百多种不同的Open Vocabulary方法，最新模型截止至今年6月！同时，综述还首次在统一数据集上公平对比了目前的代表性方法，并讨论了几个具有广阔前景的未来研究方向！

　　在CVer公众号后台回复：开放词汇综述，即可下载本文综述PDF和项目

　　在视觉场景理解领域，深度神经网络在分割、跟踪和检测等各种核心任务中取得了令人印象深刻的进步。然而，大多数方法都基于闭集假设，这意味着模型只能识别训练集中存在的预定义类别。最近，由于视觉语言预训练（VLM）的快速进展，开放词汇（Open Vocabulary）设置被提出。这些新方法寻求识别和定位带注释的标签之外的类别。与弱监督（Weak Supervision）和零样本（Zero-Shot）设置相比，开放词汇方法更通用、更实用、更有效。作者对开放词汇学习进行了全面回顾，总结和分析了该领域的最新发展。作者首先将其与零样本学习、开集识别和分布外检测等相关概念进行比较。然后回顾了分割和检测中几个密切相关的任务，包括长尾问题、少样本和零样本设置。对于方法综述，作者首先介绍检测和分割的基本知识作为初步知识。接下来，作者划定了使用开放词汇学习的各种场景，然后比较常用数据集和基准（Benchmark）中最新的检测和分割方法。最后，作者总结了关于未来研究方向的见解、问题和讨论。

　　论文题目：Towards Open Vocabulary Learning: A Survey

　　发表单位：北京大学，南洋理工大学等

　　论文地址：https://arxiv.org/abs/2306.15880

　　项目地址：

　　https://github.com/jianzongwu/Awesome-Open-Vocabulary

　　提交时间：2023年6月28日

　　在CVer公众号后台回复：开放词汇综述，即可下载本文综述PDF和项目

　　新热点，大众瞩目的方向：

　　图 1 Open Vocabulary近期代表性工作如图所示，从2021年第一篇提出Open Vocabulary Object Detection的工作开始，Open Vocabulary的工作数量逐年增加，逐渐成为计算机视觉+自然语言处理，多模态领域的新热点。在过去的两中，针对不同任务的Open Vocabulary工作提出了总计有一百多种方法。

　　图 2 Open Vocabulary和其他setting的区别本文是聚焦于Open Vocabulary领域的第一篇综述。

　　1，为了明确定义，作者对Open Vocabulary和其他setting做了详细的区分和定义。具体来说，Open-Set/Open World/OOD 不对novel类别进行分类，Zero-Shot对novel类别进行分类，Open Vocabulary不仅对novel类别进行分类，它还可以使用和图像相关的文本数据进行弱监督训练，而Zero-Shot中，训练数据是严格不能和novel类别重合的。

　　2，本综述也会系统地回顾下近些年来在闭集的一些分割检测方法的进展，作为预备的知识，方便新人也能很快了解闭集以及open-vocabulary之间的关系。同时综述还回顾了几个相关领域，比如zero-shot segmentation/detection，long-tail segmentation/detection。

　　3，本综述是从具体的技术细节对现有的分割检测以及3D任务进行细粒度的一个分类，确保读者对整个领域方法有个大致系统性的认知。

　　4，本综述详细地对比了多个不同open vocabulary setting下的方法性能，确保

　　图 3 Open Vocabulary典型算法框架本文以一张图总结了Open Vocabulary领域检测/分割的一个典型通用算法框架。图片首先输入一个Image Encoder，再将Encoder得出的特征输入到检测/分割头中，得到bounding box/object mask，以及每个物体的visual embedding。和传统分割算法不同的是，open vocabulary领域将物体的分类器权重换成了由VLM-text生成的base和novel类别的text embedding。通过计算visual embedding和text embedding的相似度，最终可以得出每个物体的类别。目前使用最多的VLM-text模型是CLIP。

　　4.1 知识蒸馏方法。

　　这些技术的目标是将视觉语言模型（VLMs）的知识提炼到封闭集检测器中。由于VLMs的知识要比封闭集检测器的知识更为丰富，将新类别的知识提炼到基于已训练检测器的类别中是一个直观的想法，为此最早的工作都是在探索如何更好地去做知识蒸馏。

　　4.2 联合视觉特征与文本的预训练策略。

　　Open Vocabulary学习的另一个假设是大规模图像文本对数据的可用性以及可获取性质。由于这些对包含足够丰富的知识，可以覆盖检测和分割中最新颖或未见过的数据集。区域文本对齐的学习将视觉特征和文本特征的新类别映射到一个对齐的特征空间中。

　　4.3 使用更平衡的数据进行训练。

　　图像分类数据集中常常存在罕见和未知的数据，为此可以使用这些数据集和Open-Vocabulary数据集联合训练来解决novel class缺失问题。这些方法的核心思想是通过利用更平衡的数据，包括图像分类数据集、图像-文本数据的伪标签或额外相关的检测数据来解决这个问题。

　　4.4 视觉区域特征与文本对齐的策略。

　　一些方法主要是设计更好的对齐策略，来提升VLMs蒸馏效果。这些方法主要是探究如何把box对应的区域性质的VLMs视觉特征与VLMs的语言特征进行对齐。

　　图 4 Open Vocabulary检测和分割代表性方法梳理此外，本文对两年来open vocabulary在检测和分割领域的代表性方法用一张表格做了梳理。表格中包含方法的简称，针对的任务，文本训练数据，视觉训练数据，使用的文本模型，视觉模型，以及一句话概括式描述，如图4所示。

　　5.1 使用VLM的大规模语料分类性能

　　视觉语言模型（VLM）通常在大规模图片-文本对上进行训练，比如LAION-5B数据集，在这些数据集上训练出的VLM本质上见过包括base类和novel类在内的各种类别，天然具备识别novel类的能力。然而VLM通常是用图像级别的对比学习进行预训练的，没有处理像素级别任务的能力，例如语义分割。在open vocabulary semantic segmentation领域，一种自然的想法就是提取利用VLM的知识，用VLM的文本特征代替原本的闭集分类器，让分割模型能够识别出novel类别。

　　5.2 从图像标题数据中学习

　　除了利用VLM在大规模数据上训练得出的分类性能之外，还有一种广泛存在且易获得的数据类型，即图像标题（image captions）。和预定义好的类别不同，标题中描述的物体可能会形容一些novel类，这就给了模型在训练过程中接触novel类弱标注的机会，这也是open vocabulary区别于zero-shot的核心不同点。数篇文章提出不同的方法，以更好的利用caption data来提取其中的novel类别，帮助扩展模型在novel类上的识别能力。

　　5.3 不使用像素级别的数据进行训练

　　在大多数open vocabulary工作中，尽管模型不需要novel类别的像素级别标注进行训练（如mask，bounding box），但仍需要base类别的像素级别标注，这仍然导致了需要人工标注，增加数据困难的问题。为了彻底解决这一问题，有研究提出了仅使用image caption进行训练的方法，只需要caption这一弱标注，就可以训练出能够不限语义空间的检测器/分类器。例如GroupViT提出了基于group机制的分割方法，通过图像-标题的对比损失函数进行训练，摆脱了分割模型对于mask标注的依赖。

　　5.4 同时学习多个任务

　　图像分割的任务主要包括语义分割，实例分割，以及全景分割，在open vocabulary segmentation领域，这些任务之间能否彼此促进，以及来自不同任务的数据集能否通过共同训练促进彼此任务的性能提升，是一个值得探究的问题。数个工作提出了universal的模型，它们通常以一个Transformer架构产生隶属于不同任务的输出，可以同时在多个任务的数据集上进行训练。OpenSeed构建了一个可以同时在open vocabulary detection和segmentation数据集上训练的框架，他们发现将隶属于两个任务的数据联合起来训练，可以分别提升两方面数据单独训练时的detection/segmentation性能。

　　5.5 使用生成式扩散模型

　　近期，生成式扩散模型（Generative Diffusion Models, DM）在图像生成领域取得了巨大的成就。两篇文章就如何利用DM来帮助提升open vocabulary任务的性能提出了各自的方案。其一是利用DM能够生成逼真且高度差异化的图像的能力，来生成大量属于novel类别的伪图片，并将这些伪图片作为样本（prototypes）保存。在inference时，输入图片和各类别的prototypes进行比对，相似度最高的类别即为预测类别。另一篇文章指出，DM能够生成高质量图片，说明其模型中间层的特征已经建立了丰富的文本-语义联系的知识，如果能把这种知识提取出来，用为分割模型的分类器，将能够达到VLM一样甚至更好的效果。实验结果证明了他们结论的正确性。

　　表 1 OVOD在COCO上的结果表 2 OVOD在LVIS上的结果表 3 OVSS在self-evaluation setting上的结果表 4 OVSS在cross-evaluation上的结果表 5 OVIS的结果表 6 OVPS在ADE20K上的结果表 7 OVPS在COCO上的结果本文首次对open vocabulary各任务，各方法做了一个公平与系统性的比较，open vocabulary任务包括在目标检测，语义分割，实例分割，全景分割。验证数据集包括COCO，ADE20K，LVIS，PASCAL VOC，PASCAL Context。

　　1) 探索时间维度的信息

　　在实际应用中，视频数据容易获得并且使用更加频繁。准确地分割和跟踪novel类别的对象值得关注，这对于短视频剪辑和自动驾驶汽车等广泛的现实场景十分必要。然而，只有少数工作探索视频中检测和跟踪的开放词汇学习。因此，需要一个更加动态、更具挑战性的视频数据集来充分探索视觉语言模型在开放词汇学习中的潜力。

　　2) 3D open vocabulary场景理解

　　与图像和视频相比，点云数据的标注成本更高，特别是对于密集的预测任务。因此，3D open vocabulary场景理解的研究需求更加迫切。当前的 3D open vocabulary场景理解解决方案侧重于设计投影功能，以更好地使用2D VLM。将 2D VLM的知识整合到 3D数据将是未来的方向。

　　3）探索针对特定任务的视觉基础模型的适配模块（adapter）

　　视觉基础模型（Vision foundation models）可以在多个标准分类和分割数据集上实现良好的zero-shot性能。然而，对于一些特定的任务，例如医学图像分析和航空图像，仍然存在许多极端情况。因此，需要为这些特定任务设计特定于任务的适配器（adapters）。此类适配器可以充分利用预先训练的基础模型的知识，达到提升下游任务性能的效果。、

　　4）在目标数据集上的有效训练

　　如表4所示，大多数最先进的方法需要大量数据进行预训练才能获得良好的性能。然而，这样造成的结果是成本昂贵，大多数研究小组无法效仿。因此，借助VLM，设计更高效的数据学习pipeline或学习方法更加实用且经济。一种可能的解决方案是采用in-context learninig来充分探索或连接VLM和LLM的知识

　　5）base类别过拟合问题

　　大多数方法通过从base类的标注中学习检测和分割novel类别的对象。因此，novel类别的对象和base类的对象之间的形状和语义信息曝光程度存在天然差距。VLM 模型可以通过预先训练的视觉文本知识来弥补这种差距。然而，当两个novel类具有相似的形状和语义时，大多数检测器仍然很容易过度拟合到base类，因为这些类是以更高的置信度分数进行训练的。将来的工作需要更细粒度的特征判别建模（包括细节或属性）来处理这些问题。

　　6）和持续学习（incremental learning）相结合

　　在实际场景中，数据标注通常是开放而容易改变的，其中新的类可能会持续地增加。然而，直接把现有的open vocabulary方法应用到incremental learning上可能会导致灾难性遗忘的问题。如何在一个框架中同时处理灾难性遗忘问题和新类别检测是未来值得探索的。

　　这个项目的开源地址在https://github.com/jianzongwu/Awesome-Open-Vocabulary，如果有缺失的paper，欢迎相关同行提PR，本项目会持续更新。

　　在CVer公众号后台回复：开放词汇综述，即可下载本文综述PDF和项目

　　点击进入—>【多模态和Transformer】交流群

　　建了CVer-多模态交流群！想要进多模态交流群的同学，可以直接加微信号：CVer333。加的时候备注一下：多模态+学校/公司+昵称+知乎，即可。然后就可以拉你进群了。

　　建了CVer-Transformer交流群！想要进Transformer交流群的同学，可以直接加微信号：CVer333。加的时候备注一下：Transformer+学校/公司+昵称+知乎，即可。然后就可以拉你进群了。

　　上海交大&上海AI Lab提出胸部X-ray疾病诊断基础模型，成果入选Nature子刊！

　　?中科大和腾讯发布首篇《多模态大语言模型综述》

　　医学人工智能的重大进展！Nature子刊：基于多模态人工智能的临床疾病诊断

　　VISION缺陷检测新数据集：基于视觉的工业检测基准

　　CVer计算机视觉：NVIDIA提出FasterViT：具有分层注意力的快速视觉Transforme

　　识别一切：一个强大的图像Tagging模型

　　SAM3D：在 3D 场景中分割一切

　　第一篇综述！分割一切模型(SAM)的全面调研

　　超越YOLOv8！YOLO-NAS：下一代目标检测基础模型

　　MedSAM：分割医学图像中的一切

　　分割一切模型(SAM)在医学图像分割任务中的准确性

　　RT-DETR：DETR在实时目标检测中击败YOLO家族

　　nnU-Net团队新作MultiTalent：医学图像分割的多数据集方法

　　23年的AI绕不开的问题就是大模型，最近私下以及在几个workshop上反复和各种同学讨论相关的问题。借这个机会也整理一下几点个人的看法和大家分享讨论~

　　Q1: 究竟什么是大模型？参数量或计算量大就叫大模型吗？Large Model or Foundation Model？

　　A1: 其实在讨论所有关于大模型的问题之前，都需要明确这个问题。大模型（Large Model）这个名词其实是一个非常误解的名字，其实更准确的应该是基石模型（Foundation Model）。经常发现和很多人聊了很久，观点针锋相对，最后发现双方根本讨论的不是一个东西。。。就目前而言，我认为的大模型至少要有两个要素：1) 跨任务的通用性 2) 跨域的通用性。参数量和计算量的scale up只是大模型的一个必要而不充分条件。以GPT为代表的NLP大模型，通过prompt来统一了不同任务，也通过利用了基本上所有可用的文本数据将所有NLP问题变成了域内问题。

　　如果我们以这个标准来讨论，就会发现其实现在很多所谓的大模型，都不能叫做大模型。去讨论这样的模型到底能做什么，边界在哪里自然就是一个没有意义的事情。如果能理解这点，很多所谓的行业大模型本身就会成为一个伪命题，只能叫做通用大模型在垂直行业的一个应用（当然这件事情本身很多时候也是有商业价值的）。而反过来讲，想只靠某些垂直领域的数据去训练一个所谓的行业大模型不如叫做小模型或者专业模型变大，这和大家在讨论的Foundation Model就是完全不同的两个东西。

　　Q2: 目前视觉领域存在这样的大模型吗？如果没有可能的原因是什么？

　　A2: 很遗憾，虽然这方面已经有了很多如CLIP或DINO之类的尝试和进展，但是目前对于CV而言，还远未到达ChatGPT时刻。究其原因，本质还是视觉信息与语言信息这两者在信息密度上的巨大差异。语言只需要考虑一维上（前后文）的context，然而视觉需要考虑在三维（2D图像的x y和时间）的context。这会使得context信息密度的急剧下降，对于需要的数据量和计算量有指数级的上升。说到底，语言毕竟还是人的逻辑思考的产物，而图像或者视频则完全是自然的展现。具体到技术层面上来说，也有若干没有确定答案的open问题：

　　什么是最合适的监督形式？年初SAM带火了一波视觉大模型，但其实本质上仍然是监督学习的范式。做的事情也是在工程上推到极致，通过这样的方式继续scale up的难度是非常大的。而现在视觉自监督最常见的两种范式Contrastive Learning和Masked Autoencoder也遇到了继续scale的难题：似乎视觉模型随着参数量和计算量的增加并没有出现语言模型的Grokking现象，甚至随着规模的scale up性能出现了一定程度的饱和。这和在NLP里面的大力出奇迹的表现非常不同，究竟是规模还不够大，还是因为这样的监督方式就有问题，目前还不得而知。

　　多任务的表示形式怎么统一？这一点其实是在一次的panel上 @代季峰老师提到的。在NLP中我们可以通过prompt的形式把基本上所有的NLP任务统一成text to text的形式，但是CV中呢？naive地类比成image to image translation显然会存在很多的问题。没有统一的表示使得多任务很难共享同样的网络，仍然需要单独训练不同任务的head，使得模型的泛化性大大降低。

　　不敢妄言视觉大模型正确的思路是什么，但是可以分享一些我认为的视觉大模型该考虑到的一些点或者说具有的一些性质：以自监督为范式，时序和3D为基础，能预测物理世界。第一点是scale up的基础，无需多言。第二三点其实我认为是目前所有视觉预训练模型都没有解决的一个核心问题，也是打通low level vision与high level vision的一个关键的桥梁。现有的视觉预训练数据基本都来自于单帧的web data，这和在自然物理世界中会遇到的数据分布其实是有巨大的差异的。而CV和NLP我认为最大的区别就在于，CV的大模型最终极的目标是能和这个物理世界产生互动，能够理解这个物理世界中的常识。为了达到这个目标，只使用单帧的web data是显然不行的。在这个方向上，SFMLearner是一个很好的尝试，解决了low level vision自监督中的一些问题，但是仍然没有向上去解决high level的语义问题。希望在这个角度上，能看到更多有意义的尝试。

　　Q3: 现在有很多大语言模型在机器人领域的尝试，这是否意味着传统的规划控制会被全数据驱动的方法取代？

　　A3: Of course no! 以有限的对LLM for robotics的了解，现在的工作大致可以分为两类：1) 用LLM作为一个更好的环境理解与人机交互的接口。 2) 用LLM + Neural Symbolic的方法去做task planning。在这两个方向上确实LLM取得了很好的进展，但是这就是规划和控制的全部吗？分享一些我能看到的问题：

　　1) 更底层的运动控制与规划是一个被well solved的问题吗？目前还没看到有什么证据表明LLM可以直接去控制一些复杂的被控目标。和执行器打交道的更底层控制，仍然需要对被控对象进行精细的建模。我也不相信Boston Dynamic这样的公司真的会去用大模型去解决这些复杂的底层控制问题。

　　2) 现在看到的应用中基本上都是对于静态环境与静态的agent交互。对于更复杂的POMDP，目前并没看到有什么相关的尝试。这恰恰算是在规划控制问题中一类常见的问题，例如无人车的规划，竞技类的棋牌游戏亦或是星际争霸。这样的一些任务中，状态空间巨大，也需要对不确定性进行很好的建模。目前也没看到LLM能够通过一些prompt的形式实现这样的功能。

　　所以总结一下，LLM for robotics确实有很多有价值的应用，尤其是在任务理解和规划层面，但是想完全取代也是不现实的。

　　Q4: 端到端自动驾驶算不算大模型？都拿了CVPR best paper了，你们L4为什么不跟进？

　　A4: Well，如果以Q1中的定义的话确实不算。除了实际的一些工程问题之外，其实在L4中不去这样做的一个核心问题还是在于可靠性。在很多场合我都表达过追求全系统的端到端对于L2来说是可行的，但是对于L4是不适合的。L2系统很多时候可以在效率与安全之间tradeoff，但是L4系统的设计目标则是在保证worst case安全的前提下来优化效率。显然，任何一个纯数据驱动的feedforward系统是不会有这样保证的。为了达到这样的安全目标，我们必然要去在系统设计层面设计足够多的算法冗余，这就会打破端到端的模式。更详细的阐述见我之前写的这篇文章：

　　Naiyan Wang：海量数据就是高级别自动驾驶的银弹吗？最后，为了防杠，想补充的一点是，上下游协同设计和优化的这个思想我认为是非常正确和有意义的，只不过在部署端一定会存在模块化的冗余。在这一点上，还是有很多有意义的方向可以尝试，除了常见一些模块之间的表示与接口有很大的优化空间，就算在端到端方向也有一些有意义的问题：第一，怎样把一些行为有保障的planner（一般会是一个非凸的优化问题） formulate成对输入可导的形式，从而指导上游模块的学习？这样系统就不是一个纯feedforward了，从而可以加入各种约束和保证。我们之前在多目标追踪方向上做过这样的一些尝试，但是这个问题中的优化形式相比于planner还是过于toy了。第二，如何评测一个端到端训练的系统输出以便可以比较？在端到端的系统中，传统的感知评测的metric都已经不再适用。期待在这些问题上能有一些突破性的进展。

　　Q5: 那大模型在自动驾驶中可能有哪些应用？有没有实际落地的场景呢？

　　A5: 在车端而言，我确实没看到有什么去做部署的可能。一方面是实际算力的问题，一方面是并没看到一个特别清晰的杀手锏应用，也就是说没看到什么现在车端小模型一定解决不了但是大模型可以解决的问题。换句话说，如果给一台8卡A100在车上跑，L4自动驾驶就做出来了吗？答案显然不是的。但是在离线场景中，确实大有可为。这面最典型的应用可能就是数据集和corner case的检索与扩充。这个在 @王井东老师在Apollo Day上有详细的介绍，我们做过一些类似的尝试，也取得了很不错的效果。除此之外，在预标注和自动标注方向也有很多的应用，也可以用更直接的model distill的方法来辅助在线模型的训练。总结下来，核心思想都是通过无论是数据还是特征的方式，将大模型更强的表征能力赋予在线的模型。也期待后续能有一些更新的范式出现，解决在线场景中的一些棘手的问题。但所有这些的前提都是大模型真的可以可靠解决小模型解决不了的问题。

　　在2023.7这个时间点来mark一下现在的认知，可能随着技术的发展有很多东西都要被打脸，也欢迎大家评论区理性讨论，观点碰撞~

　　这项工作代表了在 SA-1B、通用和part分割数据集上联合训练模型的首次尝试。实验结果和可视化表明模型成功实现了语义感知和粒度丰富，代码将开源！

　　点击进入—>【图像分割和Transformer】交流群

　　Semantic-SAM: Segment and Recognize Anything at Any Granularity

　　单位：港科大, 微软, IDEA, 港大, UW-Madison, 清华

　　论文（PDF已上传至CVer星球，可一键下载）：https://arxiv.org/abs/2307.04767

　　Semantic-SAM：一种通用图像分割模型，可以以任何所需的粒度分割和识别一切。

　　该模型提供了两个关键优势：语义感知和粒度丰富。为了实现语义感知，我们跨三个粒度整合多个数据集，并引入对象和零件的解耦分类。

　　这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力，我们在训练期间提出了一种多选择学习方案，使每次点击都能生成与多个真实掩模相对应的多个级别的掩码。值得注意的是，这项工作代表了在 SA-1B、通用和part分割数据集上联合训练模型的首次尝试。

　　实验结果和可视化表明我们的模型成功实现了语义感知和粒度丰富。此外，将 SA-1B 训练与其他分割任务（例如全景和part分割）相结合，可以提高性能。我们将提供代码和演示以供进一步探索和评估。

　　注：（PDF已上传至CVer星球，可一键下载）

　　CVer计算机视觉星球点击进入—>【图像分割和Transformer】交流群

　　建了CVer-图像分割交流群！想要进图像分割交流群的同学，可以直接加微信号：CVer333。加的时候备注一下：图像分割+学校/公司+昵称+知乎，即可。然后就可以拉你进群了。

　　首篇综述！北大等提出Open Vocabulary学习综述：全面调研

　　上海交大&上海AI Lab提出胸部X-ray疾病诊断基础模型，成果入选Nature子刊！

　　?中科大和腾讯发布首篇《多模态大语言模型综述》

　　医学人工智能的重大进展！Nature子刊：基于多模态人工智能的临床疾病诊断

　　VISION缺陷检测新数据集：基于视觉的工业检测基准

　　CVer计算机视觉：NVIDIA提出FasterViT：具有分层注意力的快速视觉Transforme

　　识别一切：一个强大的图像Tagging模型

　　SAM3D：在 3D 场景中分割一切

　　第一篇综述！分割一切模型(SAM)的全面调研

　　超越YOLOv8！YOLO-NAS：下一代目标检测基础模型

　　MedSAM：分割医学图像中的一切

　　分割一切模型(SAM)在医学图像分割任务中的准确性

　　RT-DETR：DETR在实时目标检测中击败YOLO家族

　　nnU-Net团队新作MultiTalent：医学图像分割的多数据集方法

　　本文用SAM的编码器进行特征提取，在四个代表性IQA数据集上，无论是定性还是定量均表现SOTA！证实了SAM强大的特征提取能力，并强调了在IQA任务中结合空间域和频域特征的价值。代码即将开源！

　　点击进入—>【图像分割和Transformer】交流群

　　SAM-IQA: Can Segment Anything Boost Image Quality Assessment?

　　单位：旷视科技, 电子科技大学

　　论文下载链接（PDF已上传至CVer星球，可一键下载）：https://arxiv.org/abs/2307.04455

　　图像质量评估（IQA）是一项具有挑战性的任务，需要在大量数据集上进行训练以实现准确的预测。然而，由于缺乏IQA数据，基于深度学习的IQA方法通常依赖于在海量数据集上训练的预训练网络作为特征提取器来增强其泛化能力，例如在ImageNet上训练的ResNet网络。

　　在本文中，我们利用SAM的编码器进行高级语义特征提取，Segment Anything是最近提出的一种在海量数据集上训练的分割模型。大多数IQA方法仅限于提取空间域特征，而频域特征已被证明可以更好地表示噪声和模糊。因此，我们通过分别对提取的特征应用傅立叶和标准卷积来利用空间域和频域特征。

　　主要贡献

　　实验结果

　　进行了大量的实验来证明所有提出的组件的有效性，结果表明，我们的方法在四个具有代表性的数据集中，无论是定性还是定量，都优于最先进的（SOTA）。我们的实验证实了Segment Anything强大的特征提取能力，并强调了在IQA任务中结合空间域和频域特征的价值。

　　注：（PDF已上传至CVer星球，可一键下载）

　　CVer计算机视觉星球点击进入—>【图像分割和Transformer】交流群

　　Semantic-SAM：以任何粒度分割和识别一切

　　首篇综述！北大等提出Open Vocabulary学习综述：全面调研

　　上海交大&上海AI Lab提出胸部X-ray疾病诊断基础模型，成果入选Nature子刊！

　　?中科大和腾讯发布首篇《多模态大语言模型综述》

　　医学人工智能的重大进展！Nature子刊：基于多模态人工智能的临床疾病诊断

　　VISION缺陷检测新数据集：基于视觉的工业检测基准

　　CVer计算机视觉：NVIDIA提出FasterViT：具有分层注意力的快速视觉Transforme

　　识别一切：一个强大的图像Tagging模型

　　SAM3D：在 3D 场景中分割一切

　　第一篇综述！分割一切模型(SAM)的全面调研

　　超越YOLOv8！YOLO-NAS：下一代目标检测基础模型

　　MedSAM：分割医学图像中的一切

　　分割一切模型(SAM)在医学图像分割任务中的准确性

　　RT-DETR：DETR在实时目标检测中击败YOLO家族

　　nnU-Net团队新作MultiTalent：医学图像分割的多数据集方法