多模态

  

  2022年比较新一点的survey了。整体上没有第二篇讲的全面,虽然第二篇是17年的老paper了。懒得改了,就这样吧

  (1)不同模态之间是异构的,因此不同模态中的信息通常表现出不同的质量、结构,例如文本,图像,音频,视频,时间序列,面板数据,图数据等等;

  (2)模态是相互关联的,对于下游任务而言,它们通常相互存在关联、共享某些共性或具有复杂的相互作用,从而产生新的信息。

  表示、对齐、推理、生成、迁移和量化(见下图)。(写英文太麻烦了,下面就用中文来表示这些名词好了,一个一个改费劲死了)

  这些构成了传统单模机器学习中研究不足的核心多模技术挑战,需要解决这些挑战,以推动该领域的发展:图1:多模态学习的核心研究挑战:(1)表征:研究如何表示和总结多模态数据,以反映各个模态元素之间的异质性和相互联系。(2) 对齐:旨在识别所有元素之间的连接和交互。(3) 推理:旨在从多模态证据中合成知识,通常通过任务的多个推理步骤。(4) 生成:包括学习生成过程,以生成反映跨模态交互、结构

  1.表征:我们能学习反映个体情态元素之间异质性和相互联系的表征吗?我们将介绍以下基本方法:(1)表示融合:整合来自2个或更多模态的信息,有效减少单独表示的数量,以及(3)表示裂变:创建一个新的不相交的表示集,通常比输入集大,反映了关于内部结构的知识,如数据聚类或因子分解。

  2.对齐:我们如何识别模态元素之间的联系和相互作用?模态之间的对齐具有挑战性,包括(1)识别模态元素之间的连接,(2)情境化表示学习以捕获模态连接和交互,以及(3)处理具有模糊分割的模态输入。

  3.推理被定义为从多模态证据中合成知识,通常通过多个推理步骤,为特定任务利用多模态对齐和问题结构。这种关系通常遵循某种层次结构,其中更抽象的概念在层次结构中被定义得更高,作为不太抽象的概念的函数。推理涉及(1)对推理发生的结构进行建模,(2)推理过程中的中间概念,(3)理解更多抽象概念的推理范式,以及(4)在结构、概念和推理的研究中利用大规模外部知识。

  4.生成:第四个挑战涉及学习生成过程,以生成反映每种模态的独特异质性和模态之间相互联系的原始模态。我们将其子挑战分为(1)总结:总结多模态数据以减少信息内容,同时突出输入的最显著部分,(3)创建:同时生成多种模式以增加信息内容,同时保持模式内部和跨模式的一致性。

  5.转移旨在在模态及其表示之间转移知识,通常是为了帮助目标模态,因为目标模态可能有噪音或资源有限。以以下算法为例:(1)跨模态2传递:使模型适应涉及初级模态的下游任务,从一种模态(例如,预测标签或表示)学习的知识如何帮助在不同模态上训练的计算模型?

  6.量化:第六个挑战涉及实证和理论研究,以更好地理解异质性、模态互联和多模态学习过程。量化旨在了解(1)多模态数据集的异质性维度及其随后如何影响建模和学习,(2)多模态数据库和训练模型中模态连接和交互的存在和类型,以及(3)异构数据所涉及的学习和优化挑战。

  最后,我们通过激发由该分类法确定的开放性研究问题,从长远角度对多模态学习的未来研究方向进行了总结。

  多模态常见baseline设定

  不同模态的output做concat,然后接任务层

  多模态数据的好处在于不同的模态本质上是不同的信息渠道(不同角度并且不容易存在冗余性的特征),来自多个模态的这些数据在语义上是相关的,有时会相互提供互补信息,从而反映出在单独使用各个模态时不可见的模式。简单来说,类似于tabular competitions里,通过头脑风暴加入了一些独特的magic features的意义类似.

  例如,在情绪检测器中,我们可以结合从脑电图收集的信息和眼球运动信号来结合和分类某人当前的情绪——从而结合两个不同的数据源来完成一项深度学习任务。

  情态是指事物被感知或表达的方式。例如,模态及其各自的感知包括通过麦克风记录的语音和音频、通过相机捕获的图像和视频、通过触觉传感器捕获的力和振动、激光雷达和雷达信号、键入的文本以及EEG、ECG、fMRI、血压和其他生理信号。我们可以观察这些模态的一个维度是从原始到抽象的光谱:原始模态是从传感器最接近检测到的模态,例如麦克风的语音记录或相机捕获的图像。抽象模态是那些远离传感器的模态,例如从语音记录中提取的语言或从图像中检测到的对象。例如,人们还可以通过处理情绪强度和对象类别来获得更抽象的特征。

  多模态可以指涉及多种模态的情况[45]。从研究的角度来看,多模态需要对异构和互连模态进行计算研究。异质性和互连是多模研究的两个基本原则。首先,模态是异质的,因为以不同模态呈现的信息通常表现出不同的品质、结构和表征。其次,这些模式不是独立的实体,而是相互关联的,因为它们通常包含互补信息,当模式被整合时可以相互作用。我们将在下面的小节中详细介绍这两个原则。

  异质性原则反映了一种观察,即以不同形式呈现的信息通常会表现出不同的品质、结构和表征。异质性应被视为一种光谱,而不仅仅是同质(具有相似的品质)或异质(具有非常不同的品质)之间的二元选择。在这个范围内,你可以放置一些例子,例如来自同一个摄像机的两个图像,它们捕捉到了相同的视图,模块化摄像机的磨损更接近同质性,接着是来自两种不同语言的文本,它们捕捉了相同的含义,但根据语系的不同而不同,大致在中间,然后是语言和视觉更为异构,等等。作为旁注,抽象模态通常更趋于同质化,而原始模态通常更为异构。

  为了正确研究多模态数据,了解模态可能不同的方式很重要。在本节中,我们介绍了多模态机器学习研究中常见的异质性的各个维度。这些维度是互补的,可能重叠;每个多模态问题可能涉及以下几个维度的异质性。此外,该列表并非详尽无遗,而是对多模态数据中涉及的不同质量的一般说明(见图2)。图2:异质性原理表明,以不同形式呈现的信息通常会表现出不同的质量、结构和表征。异质性的维度可以通过个体要素及其分布、要素结构以及模态信息、噪声和任务相关性的差异来衡量。

  1.Element representation:异质性的第一个维度是每种模态的分析单元。换句话说,每种情态中的基本元素是什么,我们如何表示它们?形式上,我们可以将其视为定义基本元素的样本空间。例如,键入的文本通过一组离散的字符实体记录,视频通过一组连续的帧记录,图形通过一组分立的节点实体和离散的边缘关系记录。

  2.Distribution是指在整个模态中出现的元素的频率和可能性。模态通常遵循元素的独特分布,语言语料库中的单词遵循Zipf定律是一个经典的例子。然后,分布异质性是指元素的频率和可能性的差异,如记录信号的不同频率和元素的密度。

  3.Structure:自然数据以单个元素构成整个模态的方式表现出结构。例如,图像表现出跨个体对象元素的空间结构,语言是由个体单词组成的层次结构,信号表现出跨时间的时间结构。结构异质性是指这种潜在结构的差异。

  4.Information 衡量每种形式中的信息内容,特别是其要素和结构。随后,信息异质性测量了不同模式下信息内容的差异,这可以通过信息理论度量来测量。

  5.Noise:在自然发生的数据中以及在数据记录过程中,噪声可以在几个级别上引入。自然数据噪声包括遮挡、人类生成数据的不完美(例如,键盘打字不完美或语音不清晰)或数据模糊,而传感器噪声包括相机闪光和模糊、裁剪和偏移以及数据丢失。噪声异质性测量模态间噪声分布的差异以及信噪比的差异。

  6.Relevance:最后,每种模式对特定任务和上下文的关联性不同——某些模式对某些任务可能比其他模式更有用。任务相关性描述了模式如何用于推理,而上下文相关性描述了如何将模式与其他模式进行上下文关联。

  在研究unimodal 和multimodal数据时,考虑这些异质性维度是有用的。在单模情况下,专门的编码器通常被设计为捕获每个模态中的这些独特特征。

  在多模态情况下,建模异质性在学习表示和捕获对齐时非常有用,并且是量化多模态模型的关键子挑战。

  尽管模态是异质的,但多模态研究的核心动机是模态不是独立处理的,而是经常相互关联并共享相互作用的互补信息。这些互连至少有两个方面:模态连接和模态交互。首先,情态连接描述了情态通常是如何相互关联并共享共性的,例如语言和图像中的同一概念之间的对应关系或空间和时间维度上的依赖关系。其次,情态交互研究了情态元素如何相互作用,在整合在一起进行任务推理时产生新的信息。

  模态连接描述了模态如何经常相关并共享共性,例如语言和图像中的同一概念之间的对应关系或空间和时间维度上的依赖关系。在研究多模态数据中的连接时,考虑自下而上和自上而下的方法是有帮助的。在前者中,统计方法有助于从数据中的模式识别连接。在后者中,语义方法在基于我们对问题的领域知识建模连接时很有用。基于这些维度,我们涵盖了跨模态存在的连接类型的一般说明。

  从统计角度来看,

  1.两个变量之间的统计关联意味着一个变量的值以某种方式与另一个变量值相关,而不必理解这些关系的确切性质。例如,两个元件可能彼此共存,导致两个信号同时出现的频率更高。从统计学上讲,这可能导致相关性——元素线性相关的程度。从数据驱动的角度来看,发现哪些元素彼此关联对于在多模态表示和对齐期间建模跨模态的联合分布非常重要。

  2.统计相关性比关联性更深,需要了解两个元素之间的确切关系类型。例如,是一个元素与另一个元素之间存在因果关系,还是潜在的混淆导致两个元素同时存在?其他形式的依赖可以是空间的,也可以是时间的:一个元素发生在另一个元素之上,或者在另一元素之后。通常,虽然统计关联可以纯粹从数据中估计,但理解统计相关性的本质需要了解元素及其潜在关系。

  图3:模态连接描述了模态如何经常相互关联并共享共性,例如语言和图像中的同一概念之间的对应关系或空间和时间维度上的依赖关系。我们从统计(关联和依赖)和语义(对应和关系)两个角度概述了情态连接的几个维度。

  从语义角度来看,

  1.语义对应可以被视为确定一种情态的哪些部分与另一种情状的哪些部分具有相同的语义的问题。对应关系是基础问题的基础,研究两个元素之间的连接,这两个元素是由潜在的共享概念产生的,并且是许多对齐问题的主干。从相应数据中发现共享概念对于翻译和检索(例如,图像字幕检索)也很有用。

  2.语义关系:最后,语义关系概括了语义对应:语义关系可以表示为三元组(x,y,a),而不是共享相同含义的对(x,y),包括描述x和y之间关系的确切性质的属性a。识别这些语义相关的连接对于需要领域知识的更高层次推理挑战非常重要。

  模态交互研究模态元素如何相互作用,在整合在一起进行任务推理时产生新的信息。我们注意到模态连接和交互之间的一个重要区别:连接存在于模态数据本身,而交互只有在模态被集成和处理在一起时才会出现,例如在多模态模型中。换言之,当在两个或多个模态上执行某些推断时,模态交互会产生,从而产生新的响应。我们根据推理过程中可能发现的新信息类型,概述了模态交互的几个维度。

  1.输入模态:第一个维度研究相互作用的输入模态元素的数量。双模态交互涉及两种模态的元素、三种模态的三模态交互以及更多模态的高模态交互,这可能会在计算复杂性和并行数据收集方面带来挑战。

  2.交互机制:第二维度研究整合模态元素进行任务推理时涉及的交互机制。例如,相互作用可以作为单峰子函数g1,g2上的加性函数f(x,y)=g1(x)+g2(y)存在[179,543,597,598]。类似地,乘法相互作用涉及函数(k阶)f(x,y)=g1(x)?W?g2(y),阶为k张量W。不能表示为加法或乘法函数的相互作用是非加法或非乘法的。除了乘法关系,交互作用力学还可能涉及非线性、逻辑或因果算子,例如两个元素通过逻辑关系相互作用,一个元素导致另一个元素,或者在推理过程中两个元素之间存在共同的因果关系。图4:模态交互研究了模态元素在用于任务推理时如何交互产生新信息。我们可以将模态交互的维度分类为(1)所涉及的输入模态交互的数量,(2)这些交互的潜在机制,(3)在存在多种模态的情况下交互反应如何变化,以及(4)对预测任务或上下文的依赖性。

  3.交互反应研究了当存在来自多种模态的元素时,推断的反应如何变化。例如,如果两个元素x和y预测相同的输出,我们可以说它们是冗余的。

  多个冗余元件可以确保消息被接收,纠正信号检测和识别的可能错误,并增加公共响应的置信度[460461]。另一方面,如果两个元素x和y预测不同的输出,则它们是非冗余的。多个非冗余元素提供了更多的信息内容;非冗余组件可以各自发挥不同的功能作用(例如,一个组件可以引起注意,另一个组件可能传递更具体的信息)。我们请读者参考Partan和Marler的调查[460461],了解更多细节和分类。

  4.上下文:最后,模态交互的类型在很大程度上取决于预测任务或上下文。对于跨模态的同一组元素,不同的推理任务可以影响输入模态之间的交互类型、其机制和交互响应。

  最后,传统机器学习研究不足的核心多模态技术挑战是什么?这些核心的多模态挑战旨在对模态之间的异质性和互连的维度进行更深入的处理。在表1中,我们总结了多模态机器学习(1级)中这6个核心挑战的完整分类、它们的子挑战(2级)、相应的解决方案类别(3级)以及每个类别中的代表性示例。下面的部分将更详细地描述我们的新分类法。

  第一个基本挑战是学习反映不同模态中各个元素之间跨模态交互的表示。这一挑战可以被视为学习“局部”表征,或使用整体特征的表征。本节涵盖(1)表征融合:整合来自2种或多种模态的信息,有效减少单独表征的数量,以及(3)表示裂变:创建一个新的解耦表示集,通常比输入集大,反映了关于内部结构的知识,如数据聚类或因子分解(图5)。图5:挑战1旨在学习反映各个模态元素之间跨模态交互的表示。最近的方向可以分为(1)表示融合:整合来自2个或更多模态的信息,有效减少单独表示的数量,(3)表示裂变:创建一组更大的解耦表示,反映关于内部结构的知识,如数据聚类或因子分解。

  表示融合旨在学习一种联合表示,该联合表示对不同模态的各个元素之间的跨模态交互进行建模,从而有效减少单独表示的数量。我们将这些方法分为抽象模式融合和原始模式融合(图6)。在与抽象模态的融合中,首先应用合适的单模编码器来捕获每个元素(或整个模态)的整体表示,然后使用表示融合的几个构建块来学习联合表示。因此,融合是在表示级别的抽象模态之间进行的。另一方面,与原始模态的融合需要在早期阶段进行表征融合,甚至可能涉及原始模态本身。我们概述了几个通过加法和乘法相互作用、张量、门控单元、概率方法以及多级融合,核心方法与抽象和原始模态融合。

  与抽象形式的融合:我们开始处理抽象表示与加法和乘法交互的表示融合。这些操作符可以被视为组合来自两个数据流的信息的可微分构建块,这些数据流可以灵活地插入基于神经网络的机器学习管道中。

  给定单峰数据x1和x2,表示融合可以看作是学习统计模型y=w0+w1x1+w2x2+w3(x1×x2)+?。w1x1+w2x2表示捕获的加性相互作用,w3(x1×x2)表示捕获的乘法相互作用,以及?表示误差项。在输入数据级别执行的融合与早期融合[45],其在应用预测模型(即,zmm=[x1,x2])之前执行输入数据的级联。

  融合也可以在使用编码器f1和f2进行初始单峰处理之后进行,这类似于后期/系综融合[45]y=f1(x1)+f2(x2)。

  纯加性相互作用y=w0+w1x1+w2x2可以被视为输入模态x1和x2之间的一阶多项式,而组合加性和乘法y=w0+w1x1+w2x2+w3(x1×x2)捕获二阶多项式。

  如果我们想捕获多模态数据中的高阶交互作用呢?乘法相互作用(MI)将加法和乘法算子概括为包括捕获二阶相互作用的可学习参数[276]。在最一般的形式中,MI定义了双线性乘积xmm=x1Wx2+x?1U+Vx2+b,其中W、U、Z和b是可训练参数。通过适当约束这些参数的秩和结构,MI恢复了HyperNetworks[214](无约束参数导致矩阵输出)、特征线性调制(FiLM)[465707](对角参数导致矢量输出)和Sigmoid单元[141](标量参数导致标量输出)。

  为了进一步超越一阶和二阶相互作用,张量被专门设计为明确捕获模态之间的高阶相互作用[688]。给定单峰数据x1,x2,张量定义为xmm=[x11]? [x21]其中? 表示外部产品[57182684]。然而,计算张量积是昂贵的,因为它们的维数随模态数呈指数级缩放,因此已经提出了几种基于低阶分解的有效近似[240,353,372]。

  多模态门控单元/注意力单元学习对于每个输入动态变化的表示[100,631,652]。

  它的一般形式可以写成xmm=x1⊙ h(x2),其中h表示具有S形激活的函数⊙ 表示元素乘积。h(x2)通常被称为从x2学习以关注x1的“注意力权重”。最近的工作探索了学习注意力权重的更具表现力的形式,例如使用Query-Key-V值机制[631]、完全连接的神经网络层[36100]以及基于核的方法[592]。

  概率方法将先前的局部融合分类扩展到概率情况。概率方法使用潜在随机变量参数化联合表示,而不是使用确定性特征向量[547]。

  这提供了从这些联合潜在变量进行采样的一个主要优势,这为生成学习[644]、缺失模态插补[548]和可解释建模[594]提供了灵活性。概率表示的一些初始方法是基于连接每个模态上的单个深度玻尔兹曼机器学习的特征[303、547、548]。这些想法被扩展用于视听语音识别[251]、基于音频和骨骼关节的手势识别[642]、基于多视图数据的人体姿势估计[449]以及基于正电子发射断层扫描和磁共振成像数据的阿尔茨海默病分类[556]。此外,针对表示融合[539540],已经提出了区分性图形模型的多视图变体,如隐藏条件随机场(HCRFs)[420480]。

  V变量自动编码器为将函数逼近器集成到潜在变量模型中提供了一个原则框架[304]。该框架具有从生成建模和半监督学习到表示学习的广泛应用[305]。由于这些吸引人的特性,已经对使用多模态变分自动编码器学习联合表示进行了若干扩展。联合多模态自动编码器中的第一种方法使用堆叠去噪自动编码器来单独表示每个模态,然后使用另一个自动编码器层将它们融合为多模态表示[440]。Silberer和Lapata[526]使用多模式自动编码器来完成语义概念基础的任务。最近,Suzuki等人[566]和V edantam等人[611]将编码器的共享表示学习到联合表示空间中。基于专家产品的融合方法[644]和专家的混合[523]也被集成到联合表示层中。最后,Joy等人[283]通过相互监督使用半监督的V AE进行表示融合,这使得能够从部分观察到的数据中学习,其中一些模态可能完全缺失。

  与原始模态的融合需要在早期阶段进行表征融合,甚至可能涉及原始模态本身。在原始模态水平上融合更具挑战性,因为原始模态可能表现出更多的异质性维度。尽管如此,Barnum等人[48]通过在音频和视频输入中增加白噪声的鲁棒性证明了早期融合的好处,而Gadzicki等人[183]还发现,通过利用不同模态之间的统计相关性,复杂的早期融合可以在抽象级别上优于融合。为了解释复杂早期融合期间的异质性维度,许多方法依赖于适用于两种模态的通用编码器,如卷积层[48,183]、变换器[361,364]。

  这与更常见于与抽象模态融合的专用编码器提供的机会形成对比[89,114,352]。

  顺序和多级融合:到目前为止,我们已经讨论了可以表示固定长度数据的模型。然而,我们通常需要表示不同长度的序列,如句子、视频或音频流。递归神经网络(RNN)[502]及其变体,如长期记忆(LSTM)网络[236],在跨各种任务的序列建模中非常有效[43,154]。这些序列模型被用来表示单词、音频、图像和时间序列数据的单峰序列。RNN的隐藏状态可以被视为数据的表示(即,RNN在时间步t的隐藏状态可被视为直到该时间步的序列的摘要)。将序列模型扩展到多模态域,早期使用RNN构建多模态表示被应用于视听语音识别[132],并表示用于情感识别的视听数据[116,441],以及表示多视图数据,例如用于人类行为分析的不同视觉线索[485]。对于多模式设置,也提出了多视图LSTM模型,其中LSTM存储器被划分为不同的组件,用于不同的数据视图[385485]。类似地,隐马尔可夫模型(HMM)[51]也被扩展用于Youtube视频中情感分类的多模式顺序学习[421]。最近,基于融合不同LSTM序列表示的存储单元的方法在建模多模态时间序列数据方面非常有效[351689690]。

  表示协调旨在学习通过它们的互连进行协调的多模态上下文表示(图7)。与表示融合相反,协调保持了相同的表示数量,但改进了多模态上下文化。我们先从强协调开始讨论,这种强协调加强了情态元素之间的强等价性,然后再讨论部分协调,这种部分协调捕获了更一般的联系,如相关性、顺序、层次或超出相似性的关系。

  强协调旨在使语义上对应的模态在一个协调的空间中紧密地联系在一起,从而实现模态元素之间的强对等。例如,这些模型将鼓励单词“dog”和狗的图像之间的距离小于单词dog和汽车图像之间的间距[180]。我们涵盖对比学习和基于翻译的学习的平行方向,以学习尊重语义对应的强协调空间。

  对比学习旨在学习包含来自两种模态的变换特征的表示空间,使得语义对(即正对)在特征空间中靠近,而负对则相距很远。图像-文本对比表示的一些早期尝试来自[638639]对WSABIE模型的研究,该模型从图像和文本特征中学习线性映射,使得相应的注释和图像表示之间的内积(余弦距离)比负对高。类似地,DeViSE从预训练的视觉模型和单词嵌入中学习转换,使得该模型对视觉表示及其正确标签产生比负值对更高的点积相似度[180]。其他类似的方法也测量距离 通过余弦距离[359410635]或最大边际损失[222245290]。Kiros等人[309]将这些思想扩展到图像和句子标题,而Socher等人[536]将语言模型扩展到依赖树RNN,以合并合成语义。最近的工作通过扩大图像和文本对的对比学习来探索大规模表示协调[483]。训练后,可以使用自然语言参考学习的视觉概念(或描述新的视觉概念),从而实现模型向下游任务的零距离传递。最后,最近的工作还探索了多视图环境中对比学习的特性,并发现对比学习捕获了两个视图中的冗余信息[583,588],而不是非冗余信息。

  翻译损失:除了对比学习,几种方法通过将对应数据从一种模态映射到另一种模态来学习协调空间。例如,Socher等人[534]学习从图像到语义词嵌入空间的投影,这将结构从预训练词嵌入空间转移到输入图像空间,从而实现零镜头图像分类。类似的想法被用于学习文本、视频和音频之间的协调表示[472],以及预训练语言模型和图像特征之间的协调表达[570]。尽管这两种范式似乎不同,但可以表明,对比学习(即,在两种模态的正负对之间进行分类)近似于翻译(即,使用正负对从一种模态映射到另一种模态)[159],这导致两者都学习语义协调的表示空间。

  部分协调:部分协调不是通过强协调严格地捕捉等价,而是捕捉更一般的情态联系,如相关性、顺序、层次或关系。为了实现这些目标,部分协调模型在语义相似性之外的表示空间上强制执行不同类型的约束,并且可能仅在表示的某些维度上。强制约束的类型包括相关性分析以及有序和分层空间。

  典型相关分析(CCA)计算线性投影,最大化两个随机变量(在我们的情况下为模态或视图)之间的相关性[239],同时强制新表示中的每个维度相互正交。CCA模型已广泛用于跨模态检索[219,487]视听信号分析[511,531]、生存预测[552]和情感识别[438]。为了提高CCA在捕获非线性投影中的表现力,已经提出了几种非线性扩展,包括核标准相关分析[326]、深度标准相关分析[3]2]、相似对应自动编码器[173]、深度对应RBM[175]、深度规范相关自编码器(DCCAE)[630]和广义CCA[5]。在理论方面,Lyu和Fu[383]表明,DeepCCA标准可证明消除了数据生成中的未知失真,并识别了模态之间的共享信息。

  有序和分层空间:协调表示协调的另一个例子来自图像和语言的有序嵌入[614],其目的是捕获语言和图像嵌入上的部分顺序,以在空间中实施分层。Young等人也提出了一个使用表示图的类似模型

  [675]其中表示图用于诱导这种偏序。部分协调的另一个例子是跨模态散列,它在学习语义相似性的同时还强制执行N维汉明空间,并且对于通过二进制代码的快速比较进行检索非常有用[78280323623]。已经提出了监督[78]和非监督[323]方法来满足这些要求。最近,Jiang和Li[279]介绍了一种方法,使用端到端可训练的深度学习技术来学习句子描述和相应图像之间的这种通用二进制空间。

  关系协调:为了学习一个协调的空间,捕捉元素之间的语义关系,而不是对应关系,Zhang等人[702]使用文本和图像的结构化表示,以无监督的方式创建多模态概念分类法。Delaherche和Chetouani[144]学习捕获音频和视觉特征之间相似性的层次关系的协调表示,而Alviar等人[20]使用部分相关度量应用了语音和音乐的多尺度协调的类似思想。最后,Xu等人[651]使用柯西损失学习多视图数据的潜在表示,以增强对异常值的鲁棒性。

  最后,表示裂变旨在创建一个新的解耦表示集(通常比输入表示集的数量更多),反映关于内部多模态结构的知识,如数据聚类、独立变异因素或模态特定信息。与联合表示和协调表示相比,表示裂变实现了仔细的解释和细粒度的可控性。根据数据中建模的解耦因子的数量,表示裂变技术可以分为模态级和细粒度裂变(图8)

  模态级裂变旨在将多模态数据分解为主要在每种模态中的模态特定信息,以及在两种模态中冗余的多模态信息[243,594]。模态级裂变有助于学习更多可解释的表示,这些表示可以利用关于模态特定特征的领域知识(例如,句法结构和形态对语言、纹理、视觉外观、深度和运动是视觉特有的,所描述的对象和动作是两者中存在的共享冗余信息)。模态级裂变可以通过模态特定和多模态潜在变量的解纠缠表征学习或通过联合表征的事后解纠缠来实现。

  离散表示学习旨在学习相互独立的潜在变量,每个潜在变量都解释了数据的特定变化[59,233,322,327,373],并且通过对模态特定和多模态潜在变量施加独立约束,对于模态级裂变是有用的[243,594]。如果已知变化因素,则可以通过监督训练来学习潜在变量[121,288,491]。如果因子部分已知或未知,则可以使用深度生成模型对潜在变量施加各向同性高斯先验[232、304、499],最大化潜在变量子集和数据之间的相互信息[117],或者鼓励表示的分布是阶乘的,因此是独立的[301]。Locatello等人[373]表明,至少需要对潜在变量的子集进行一定程度的监督或诱导偏差,因为无监督解纠缠是不可能的。Tsai等人[594]和Hsu和Glass[243]研究了因子化多模态表示,并证明了模态特定和多模态因子对生成和预测的重要性。Shi等人[523]使用专家层的混合来研究多模态变分自动编码器中的模态级裂变,而Wu和Goodman[644]则使用专家层产品。Daunhawer等人[140]和Sutter等人[562563]也研究了因子潜在变量模型中的相关方向。事后表征解纠缠:有时,在考虑表征解纠缠的情况下重新训练模型可能很困难,尤其是当这些模型是大规模预训练的多模态模型时。我们如何在经过训练的联合表示中分解各个模态表示?经验多模态加性函数投影(EMAP)[230]是一种事后分离多模态任务中跨模态交互的单峰(加性)贡献影响的方法,适用于任意多模态模型和任务。EMAP还与使用Shapley值进行特征解缠和解释密切相关[412496561],这也可以用于一般模型中的事后表示解缠。细粒度裂变:除了仅分解为单个模态表示之外,细粒度分裂还试图将多模态数据进一步分解为模态覆盖的单个子空间[459616]。细粒度裂变受到假设的启发,即每个模态提供的信息不是独立的,因此高维多模态数据可以由低维潜在子空间表示[24,59]。为了揭示这些潜在的聚类,我们涵盖了聚类和矩阵分解方法[1]中的相关工作。聚类方法旨在基于语义相似性对数据进行分组,并以经典方法为例,如分层聚类(例如,聚合聚类和分裂聚类)、分区聚类(例如k均值和k中值)和基于密度的聚类(例如DBSCAN)[390]。这些算法已与多模态网络集成,用于端到端的多模态表示聚类和预测。例如,Hu等人[245]将表示中的k均值聚类与无监督视听学习相结合。Chen等人[101]将k均值聚类与视频上的自我监督对比学习相结合。子空间聚类[1,2],近似图拉普拉斯[297]、共轭混合模型[296]和字典学习[302]也已与多模态模型集成。受益于表示聚类的其他几个应用包括社交事件检测[468469]、社交多媒体分析[470]、MRI脑肿瘤分割[17]和轨迹预测[558]。矩阵分解方法旨在将表示为矩阵的高维数据分解为低维矩阵的乘积,从而捕获数据中的低秩结构。矩阵分解广泛用于推荐系统中,以表示低维潜在空间中的用户和项目[315],它能够根据底层低维结构对用户和项目进行聚类[355]。矩阵分解技术在多模态融合[86]、图像检索[87]、分割[13]、散列[152]以及处理医疗数据[24,490]中也有广泛的应用。具体而言,Caicedo等人[88]使用非负矩阵分解来生成多模态图像表示,通过发现一组潜在因素,将多模态数据关联在同一表示空间中,从而整合视觉特征和文本信息。类似地,Mangin等人[395]使用非负矩阵分解来发现多模态传感器输入中的低阶模式,这些模式表征了模态(语音话语、图像和运动)之间的关联,从而实现了概念获取。最后,Aktukmak等人[15]研究了将多模态边信息集成到基于矩阵分解的推荐系统中。

  第二个挑战是识别多模态元素之间的跨模态连接和相互作用。

  例如,当分析人类主体的言语和手势时,我们如何将特定的手势与口语或话语对齐[49375]?模态之间的对齐很有挑战性,因为它可能依赖于长距离的依赖关系,涉及模糊的分割(例如,单词或话语),并且可能是一对一、多对多,或者根本不存在。本节涵盖了多模态对齐的最新工作,包括(1)识别跨模态元素之间的连接,(2)情境化表示学习以捕获连接元素之间的跨模态交互,以及(3)处理具有模糊分割的模态输入(图9)。

  第一个子挑战旨在确定多种模式要素之间的联系。回想一下,这些联系可以通过统计和语义角度存在。在前者中,统计关联意味着一个变量的值以某种方式与另一变量的值相关,而不必理解这些关系的性质(例如,同现或相关性),而统计依赖则更深入到两个元素之间的确切关系类型(例如,因果、空间或时间)。在后者中,语义对应描述了跨元素的共享意义,而语义关系将对应概括为以描述关系确切性质的属性为条件。我们描述了最近在离散接地中的工作,以直接发现连接,或通过连续扭曲表示空间来发现这些连接(图10)。

  离散接地旨在发现两个连接元件之间的对准。离散基础特别适用于处理由离散单元组成的模态之间的对齐,例如语言中的单词或图像或视频中的对象边界框,并通过多模态任务进行示例,例如视觉共指解析[317]、视觉指代表情识别[125127]、跨模态检索[180474]、,以及跨模态(或跨语言)表示学习[515633]。离散基础的方法使得共享语义概念的学习不仅基于语言,还基于视觉和声音等其他形式[126534]。

  我们通过对比学习、匹配算法和潜在变量模型对离散接地的几种方法进行了分类。

  对比学习:当我们以连接模态对的形式监督数据时,对比学习是一种流行的方法,其目标是匹配不同模态中表达的相同概念的表示[45]。已经提出了从不同数量的成对[95168256]和非成对[201]数据学习对齐空间的几个目标函数。学习协调表示法(第3.2节)中的许多想法(实施相似性[180359]或其他更一般的结构形式(例如,相关性分析[219487]、顺序和层次结构[614702]以及跨模态散列[78280323])也适用于离散基础。

  几个例子包括通过训练CNN来测量场景和文本之间的相似性来将书籍与其相应的电影/剧本对齐[716],评估参考表情和图像中的对象之间的匹配质量[400678],以及找到图像区域及其描述之间的相似之处[249]。最近的工作还探索了通过利用语言中的句法结构在单词和图像区域之间进行细粒度对齐来使用语法的基础[125317]。

  匹配算法:如果地面实况模态连接不可用怎么办?基于最优传输(OT)的方法[617](属于更广泛的匹配算法集[185195201])是一种潜在的解决方案,因为它们共同优化了元素之间的协调功能和模态元素之间的最佳耦合。这些方法将对齐视为发散最小化问题,其目标是将源元素的离散集合转换为目标元素的离散集。Wasserstein距离通常用作对齐约束下的散度度量。这些方法有助于对齐多模式表示空间[112185242332477],也可以用于对齐多语言单词嵌入空间[19201328],这使得无监督单词翻译取得了进展。为了缓解求解最优传输问题的计算问题,最近的几项进展成功地将它们与神经网络集成[112],用熵正则化近似最优传输[637],并为有效学习制定了凸松弛[201]。

  潜在变量模型:还提出了几个潜在变量图形模型用于显式对齐。Yu和Ballard[676]使用生成图形模型将图像中的视觉对象与口语对齐。Cour等人[134]采用了类似的方法,将电影镜头和场景与相应的剧本对齐。Malmaud等人[394]使用因子HMM将食谱与烹饪视频对齐,而Noulas等人[444]使用动态贝叶斯网络将扬声器与视频对齐。Naim等人[431]使用分层HMM模型将句子与相应的视频帧进行匹配,以将句子与帧对齐,并将其扩展为使用潜在条件随机场进行对齐[432],并将动词对齐与名词和对象之外的动作结合[542]。

  连续扭曲旨在通过将两组模态元素表示为连续表示空间并在这些表示空间之间形成桥梁来对齐它们,而不是跨模态匹配离散元素。对抗训练是一种将一个表征空间扭曲成另一个表征的流行方法。最初用于域自适应,其中理论建议跨源域和目标域的数据表示不应相互分离以实现有效的域传输[55,56],对抗性训练学习一种表示,其中连接到特征提取器的域分类器不应该能够识别该域以学习域不变特征[12186]。这些思想随后被扩展为通过对抗性训练来对齐连续的多模态表示空间[242247428]和多语言表示空间[92328703],使得所得到的对齐表示空间不再能够相对于原始输入模态进行分类。在多模态任务的背景下,Hsu等人[242]使用对抗训练来对齐图像和医学报告,Hu等人[247]设计了一个用于跨模态检索的对抗网络,Munro和Damen[428]设计了用于多模态动作识别的自我监督对齐和对抗对齐目标。

  情境化表征学习旨在对所有模态连接和交互进行建模,以学习更好的表征。上下文化表示已被用作实现更好性能的中间(通常是潜在的)步骤在许多下游任务中,包括语音识别、机器翻译、媒体描述和视觉问答。我们将上下文化表示中的工作分类为联合无向对齐、跨模态定向对齐和与图网络的对齐(图11)。

  关节无向对准旨在捕获跨模态对的无向连接,其中连接在任一方向上是对称的。隐含地捕捉这些联系是建模跨模态交互的核心部分,这对多模态任务至关重要[688]。这在文献中通常被称为单峰、双峰、三峰相互作用等[150、160、388、504]。联合无向对准通常通过使用对准层对模型进行参数化并为多模态任务进行端到端训练来捕获。这些对齐层可以包括注意力权重[100、115、300]、张量积[372、504、688]和乘法相互作用[276]。最近,变压器模型[609]通过在不同的时间步长自动对齐和捕获互补特征,已成为顺序数据的强大编码器。基于初始的基于文本的变换器模型,已经提出了多模态扩展,该扩展使用对跨序列维度连接的模态元素的完全自关注来执行联合对齐(即早期融合)[119、343、550、557]。因此,所有模态元素都变得与所有其他模态元素类似地联合连接(使用点积相似性核对所有交互进行建模)。

  跨模态定向对准被设计为以定向方式将源模态的元素与目标模态相关联,这在建模源模态和目标模态之间可能的不对称连接时提供了额外的灵活性,反之亦然。我们涵盖了时间注意力模型和跨模态定向对准的交叉注意力变换器的最新方向。

  时间注意力模型:如果将对齐作为潜在的中间步骤来执行,单模态(例如机器翻译)和跨模态(例如图像字幕、文本到语音)序列翻译任务通常可以得到改进[26,43,378,674]。基于序列的编码器-解码器模型(如RNN和LSTM)已经成功地通过注意机制进行了增强,以捕获输入和输出序列之间的对齐[43]。这些注意机制通常被从输出模态引导到输入模态,使得所得权重反映输入模态上的软分布。注意模块已经成功地应用于通知解码器更多地查看要翻译的源的目标子组件,例如图像区域[652]、句子单词[43]、音频序列片段[98124]、视频中的帧和区域[663677],甚至指令的部分[409]。类似的方法也成功地应用于问答任务,因为它们允许从问题中的单词到被查询模态的子组件(如一段文本[650]、图像[182]或视频序列[701])的定向对齐。特别是,已经提出了不同类型的注意力模型来解决这个问题,包括分层[377]、堆叠[661]和情景记忆注意力[650]。

  多模态交叉注意变换器:将多模态变换器中的初始工作扩展到连接模态元素上的完全自我注意[119,343,550,557],最近的工作还提出了交叉注意变换,其中使用查询键值注意机制实现定向对准,以从一个模态序列关注到另一个模态,然后以双向方式重复。这导致了两组不对称的情境化表示,以解释源模态和目标模态之间可能存在的不对称连接[379、569、591]。这些方法通过在不同的时间步长自动对齐和捕获互补特征,可用于序列数据[336591664]。自监督多模态预训练也已成为训练这些体系结构的有效方法,目的是在通过监督微调转移到特定下游任务之前,从更大规模的未标记多模态数据中学习通用表示[343,379,550]。这些预培训目标通常包括单模态掩蔽预测、跨模态掩蔽预计和多模态对准预测[226]。

  图形对齐:最后,还可以通过与图形网络的对齐来学习上下文化表示。

  图网络将无向或有向排列中的顺序模式概括为模态元素之间的任意图结构。这有几个好处,因为它不需要连接所有的模态元件,并且允许用户为不同的模态连接选择不同的边缘功能。该子类别中的解决方案通常使用图神经网络[613]来递归学习与局部连接邻域中的模态元素相关联的模态元素表示[307、513、613]。上下文化可以通过平均池[513]、图卷积[307]或图关注[613]来执行。这些方法已经通过MTAG[657]和F2F-CL[640]应用于多模态序列数据,MTAG是一种具有异构节点和边缘的图形网络,用于捕捉人类视频中的模态交互

  到目前为止,我们所做的一个重要假设是模态元素已经被分割和离散。将高维多模态数据分割为模态元素是很重要的,而离散化很有帮助,因为模态连接和交互更容易在离散模态元素之上定义。虽然某些模态显示了清晰分割的益处(例如,句子中的单词/短语或图像中的对象区域),但在许多情况下,分割不容易提供,例如在连续信号(例如,金融或医学时间序列)、时空数据(例如,卫星或天气图像)或没有清晰语义边界的数据(例如MRI图像)中。因此,该子挑战旨在解决对齐过程中分割和元素粒度的模糊性。我们介绍了模态分割和离散化的最新方法。

  模态分割涉及将高维多模态数据细分为具有语义意义边界的模态元素。一个常见的问题涉及时间分割,其目标是发现序列数据的时间边界。例如,你能将抄本中的每个单词与录音中说出的时间边界对齐吗?几种时间分割方法包括强制对齐,这是一种将离散语音单元与转录本中的单个单词对齐的流行方法[686687]。它利用声学模型,帮助将语音片段与文本中相应的语素对齐。类似地,将教学视频与其抄本对齐需要理解对象(通常是名词)和动作(通常是动词)。ASR可用于将对齐的文本提取到视频中,并且基于语音部分(POS)标签的一些后处理用于最终对齐[679]。Malmaud等人[394]使用因子化隐马尔可夫模型探索了多模态比对,以将ASR转录物与基本事实进行比对。

  动态时间扭曲(DTW)[319426]是一种分割和对齐多视图时间序列数据的相关方法。

  DTW测量两个序列之间的相似性,并通过时间扭曲(插入帧)找到它们之间的最佳匹配,以使它们在分割的时间边界上对齐。它要求两个序列中的时间步长是可比较的,并且需要它们之间的相似性度量。DTW已应用于自动语音识别[61,284]、说话人识别[424]和在线签名识别[403,427]。对于某些多模态任务,有必要设计模态之间的相似性度量。例如,Anguera等人[33]定义了字形和音素之间的相似性,而Tapaswi等人[574]基于相同角色的外观定义了视觉场景和句子之间的相似,以对齐电视节目和情节概要。由于原始DTW公式需要模态之间的预定义相似性度量,因此使用规范相关分析(CCA)将其扩展,以将模态映射到协调空间。这允许以无监督的方式联合对齐(通过DTW)和学习不同模态流之间的映射(通过CCA)[518、590、709、710]。DTW及其扩展还被用于文本到语音的多模态对齐[223]、视频[158220]、人体运动[709]和手语识别[478]。

  离散化是将连续变量、模型或函数、模型转换为离散对应物的过程,这很有帮助,因为模态连接和交互更容易在离散模态元素之上定义。离散化问题可以通过基于语义相似性对连续数据进行分组的聚类方法来解决,例如分层聚类或k-均值聚类[390]。最近,基于聚类的离散化已成为一个重要的预处理步骤,用于将基于语言的预训练(具有清晰的单词/字节分割边界和离散元素)推广到基于视频或音频的预训练中(没有清晰的分割边界和连续元素)。通过将原始视频或音频特征聚类为离散集,诸如VideoBERT[557]和HuBERT[244]的方法能够对原始视频或视频数据执行掩蔽预训练。类似地,DALL.E[486]、VQ-V AE[607]和CMCM[369]等方法也利用了通过矢量量化获得的离散化中间层,并在模态对齐方面显示出优势。

  推理被定义为结合知识,通常通过多个推理步骤,利用多模态对齐和问题结构。推理通常从一组更抽象的表示、概念、标记或符号开始。我们将多模态推理工作分为结构建模、中间概念、推理范式和外部知识四个子挑战(图12)。(1) 结构建模涉及定义或学习推理发生的关系,(2)中间概念研究推理过程中单个多模态概念的参数化,(3)推理范式学习如何从单个多模态证据中推断越来越抽象的概念,(4)外部知识旨在利用外部大型数据库研究结构、概念和推理。

  结构建模的子挑战旨在定义组合发生的层次关系。

  该结构通常由用户通过选择表示推理过程的数据结构来定义。

  数据结构的不同选择代表原子和关系的不同参数化。常用的数据结构包括树[238]、图[681715](每个步骤都是节点之间的边)或神经模块[29]。我们介绍了最近在建模潜在层次结构、时间结构和交互结构方面的工作,以及当潜在结构未知时的结构发现(图13)。

  层次结构定义了概念的组织系统,使得更多抽象概念在层次结构中被定义为更少抽象概念的函数。为了在多个步骤上捕捉这种层次结构,已经提出了典型的层次数据结构,如树和图,用于多模态推理。

  树和图形结构:树[238]和图[681693]是可以捕捉灵活推理关系的数据结构。这些结构通常将节点定义为抽象表示,希望对其进行推理,并将边定义为关系。树和图支持单步和多步推理。例如,当通过图进行推理时,为了回答给定图像的问题,应该遍历多少个节点(例如,单个对象表示)和边(例如,对象-对象关系)?基于图形的推理方法已应用于人类语言建模[657693]、视觉常识推理[366681705]、视觉问答[295510]、机器翻译[672]、推荐系统[573]、网络图像搜索[626]和社交媒体分析[514]。这些方法通常基于预定义的节点和边缘类别构建图,然后使用(异构变体)图神经网络来捕获结构的表示[197307522613]。

  语言结构:用于指导多模态推理的一种特定类型的图形结构是语言语法树。从输入语言模态的句法分析中获得的语法树可以通知计算图的结构。然后,该结构化计算图用于指导发现其他模态中特定信息的多模态模块。在视觉图像的情况下,视觉问答[29]和参考表情识别[125]等任务受益于设计由句法推理结构指导的视觉模块[29,125,398,612,669]。

  概率图形模型也将先前的确定性推理扩展到概率案例。

  与使用固定模型基于多个事实进行推理的确定性范式不同,概率推理进一步考虑基于证据可能性及其关系的成分。概率图形模型为跨多个问题的概率推理提供了统一的范例,同时实现了有效的推理。

  这些方法已广泛应用于人机交互[91]、传感器融合[530]、视频关系推理[593]和口语对话系统[376]中的多模态推理。

  时间结构将合成性的概念扩展到跨时间的模态元素。通常,当一个或多个模态包含时间信息(如视频、音频或时间序列数据)时,顺序推理是必要的。除了上述推理中的挑战外,顺序推理在捕获长时间段的跨模态交互方面增加了一个基本挑战。虽然强大的序列模型(如自我注意模型)已成为建模长程依赖性的主要技术之一,但它需要对长度为n的序列进行O(n2)计算[609]。这使得将序列推理扩展到长序列非常具有挑战性,并且对于以较低频率发生的较长范围的相互作用,这可能会加剧[576]。作为另一种选择,显式记忆机制已经成为一种流行的选择,可以跨时间线性地重复累积多模态信息,从而可以通过存储和从存储器中检索的多模态信息来捕获长时间的跨模态交互。已经提出了几种建模多模态存储机制的技术,其主要区别在于它们如何在存储单元内构造多模态表示,以及它们如何参数化从存储器中写入、传播和读取的方法。在前者中,Rajagopalan等人[485]探索了各种记忆表征,包括多模态融合、协调和因子分解。在后者中,来自键值记忆[650624]和基于注意力的记忆[224689]的见解已成功应用于包括问答、视频字幕、情绪识别和情绪分析在内的应用。

  交互结构将推理的挑战扩展到了交互环境,在交互环境中,推理代理的状态根据每一步所做的局部决策而变化。通常由顺序决策框架正式化,目标在于最大化长期累积回报,同时通过当地行动与环境互动[564]。为了应对交互式推理的挑战,多模态强化学习(RL)的新兴研究领域以语言指令、视觉世界中的体现和强化学习算法的交叉为例。虽然我们在下面介绍了这一领域的几个主要方向,但我们请读者参阅Luketina等人[382]的广泛调查论文和Bisk等人[64]的立场论文,以进行全面回顾。Luketina等人

  [382]将文献分为多模态条件RL(其中,问题公式本身需要与多模态交互)和语言辅助RL(在其中,多模态数据用于促进学习)。

  多模态条件RL研究的任务的中心目标是解释和执行以自然语言(或其他模态)给出的指令,或其他模态是状态和动作空间的一部分[30,198]。例如,指令跟踪代理通常被给予目标状态或首选策略的描述,作为任务的描述[313389]。指令跟随代理专注于对象操纵[44627],或视觉导航任务,其中目标是到达特定实体[100106229275]。指令跟随的方法探索了对象级表示和对齐建模,以利用与世界实体相关的指令结构[28,39,105,320]。最近基于神经网络的方法通常学习指令和观察的联合表示,以调整策略[100、106、229、275、409、416]。除了指令之外,一些RL环境还将语言作为代理和环境之间交互的媒介。其中包括文本游戏,如Zork[66]、TextWorld[133]、Reading to Fight Monsters[707],以及更通用的符号互动语言基础基准[708]。此外,实施例QA扩展了基于静态图像的VQA设置,要求代理探索和导航环境,以回答问题[138196],例如,“厨房里有多少马克杯?”或者“冰箱里有番茄吗?”。除了语言之外,听觉信息也已成为一种有用的媒介,用于引导导航人员学习物体的外观、声音和可能发生的位置(例如,浴室滴水)之间的关联[102103184204]。最近的一项工作还通过设计集成视觉、触觉和本体感觉传感器的机器人,将多传感器融合与交互式决策相结合[333334335560]。多模态辅助RL包括探索如何将世界知识从附加模态转移到RL任务中的工作。例如,语言通过说明书[74436]、单词嵌入[263]、句子嵌入[198]和问答模型[293]以及共同出现的音频信息[104142622]对于传达关于环境状态和动态的领域知识是有用的。除了领域知识,语言还被用于构建代理策略的先验。扩展了由句法推理结构引导的视觉模块组成的神经符号方法的工作[29,125,398]。Andreas等人

  [31]、Bahdanau等人[44]和Das等人[139]成功地将这种思想的变体应用于交互式RL任务。自然语言的分层结构及其组成性使其成为分层RL任务中推理的特别好的候选者[30,246,524]。

  结构发现:在没有给定任务的某些领域知识的情况下,定义多模态合成的结构可能很有挑战性。作为另一种方法,最近的工作还探索了使用可微分策略以完全数据驱动的方式自动搜索结构。为此,首先需要定义一组候选推理原子和关系,然后使用“元”方法(如架构搜索)自动搜索给定任务的理想合成序列[466654685]。这些方法可以受益于神经架构搜索文献中经常使用的优化技巧。记忆、注意力和合成(MAC)类似地以端到端的方式从数据中搜索一系列基于注意力的推理步骤[260]。Hu等人[250]扩展了通过Andreas等人[29]中的语言解析获得的预定义推理结构,而是使用策略梯度来自动优化离散模块集上的合成结构。

  第二个子挑战研究我们如何在推理过程中参数化单个多模态概念。

  这些概念可以在密集到可解释的范围内设计。我们介绍了最近在基于注意力图、离散概念和语言作为中间媒介的可解释中间概念方面的工作。

  注意图是多模态推理中中间概念的流行选择,因为它们在一定程度上是人类可解释的,同时保留了可微分性的优点,并与神经网络兼容。例如,Andreas等人[29]设计了单独的模块,如“出席”、“组合”、“计数”和“测量”,每个模块都由视觉问答输入图像上的注意力操作参数化。Xu等人[652]探索了图像字幕生成中推理的软注意机制和硬注意机制。相关工作还通过双注意力架构[433]或堆叠潜在注意力架构[169]使用注意力图进行多模态推理。这些通常适用于涉及复杂视觉推理步骤的问题,如CLEVR[282]或VQA[704]。

  离散概念:注意力图之外的进一步离散化涉及使用离散符号来表示中间概念。最近在神经符号多模态学习方面的工作旨在将这些离散概念整合为多模态推理的中间步骤,如视觉问答[29,398,612,669]或参考表情识别[125]。使用离散概念使后续推理更容易,例如在离散概念上应用基于逻辑的可微推理[22,517]。

  语言作为媒介:最后,也许人类最容易理解的中间概念形式使用语言(通过离散的单词或短语)作为媒介。最近,Zeng等人[700]探索使用语言作为中间媒介,以零镜头方式协调多个单独的预训练模型。一些方法还使用从外部知识图获得的语言短语来促进可解释推理[206715]。Hudson和Manning[259]设计了一个神经状态机来模拟关于图像的问题的执行,同时使用离散词作为中间概念。

  多模态推理中的第三个子挑战定义了从单个多模态证据中推断越来越抽象的概念的方式。虽然局部表示融合(如加法、乘法、基于张量、基于注意力和顺序融合,完整综述见第3.1节)的进展在这里也普遍适用,但其目标是通过关于多模态问题的领域知识,推理在推理过程中更具可解释性。为此,我们介绍了最近通过逻辑和因果算子显式建模推理过程的方向,作为该方向最近趋势的例子。

  逻辑推理:基于逻辑的可微推理形式已广泛用于表示神经网络中的知识[22,517,533]。许多这些方法的统一框架在于可微模糊逻辑(DFL)[608],它提供了逻辑谓词、函数和常数的概率解释,以确保可微性,从而与神经网络兼容。这些可微逻辑算子已应用于视觉问答[194]和视觉推理[22]。逻辑推理的最大好处之一在于其执行可解释和合成多步骤推理的能力,如针对多步骤推理而专门策划的GQA数据集测试的性能所示[261]。除了视觉感知和推理之外,逻辑框架还可用于视觉文本蕴涵[567]和几何数字推理[107],在这些领域,逻辑归纳偏差对高性能至关重要。

  因果推理:由于在静态图像[34261]和视频[575691694]上引入了各种数据集,视觉推理在计算机视觉和多模态机器学习中得到了广泛研究,因果推理通过考虑推理中的因果结构扩展了多模态推理的当前工作。由Pearl的因果层次结构开创,因果结构将推理的关联层次扩展到介入和反事实层次[47462]。第一个关联级别问“什么是?”,比如“症状告诉我们关于疾病的什么?”,并且通常通过监督学习来解决。第二个介入级别问“如果我做X怎么办?”,比如“如果我服用阿司匹林,我的头痛会好吗?”,并且可以通过强化学习来解决。第三个反事实层面问“如果我采取了不同的行动怎么办?”,比如“是阿司匹林止住了我的头痛吗?”并且需要广泛的世界知识来想象反事实世界。以因果推理为例,Yi等人[670]提出了CLEVRER基准,重点关注视频推理的四个具体元素:描述性(例如,“什么颜色”)、解释性(“责任是什么”)、预测性(“接下来会发生什么”)和反事实性(“如果”)。除了CLEVRER之外,最近的工作还提出了因果VQA[6]和反事实VQA[443],以衡量VQA模型在受控干预下对问题的鲁棒性,作为减轻VQA模式中语言偏见的一步。将因果推理能力集成到神经网络模型中的方法也被证明可以提高鲁棒性并减少图像字幕[658]和VQA[362628]中的偏差。

  最后一个子挑战研究在定义组成和结构的研究中知识的推导。知识通常来源于任务特定数据集的领域知识。作为使用领域知识来预先定义组成结构的替代方案,最近的工作还探索了使用数据驱动方法进行自动推理,例如在直接任务领域之外的可广泛访问但监督较弱的数据。我们将这些替代方法分为利用外部知识指导推理过程、多模态知识图和多模态常识。

  基于语言的知识图:利用外部知识的方法能够通过执行由外部大规模数据通知的多模态合成来规避小标记数据集的推理问题。外部知识最常见的例子是知识图,它提供了一种通用的数据结构,有助于有效地组织和检索信息,并且越来越多地被用作推荐系统[208]、语言建模[374]、问答[671]或图像分类[401]中的外部知识源。尽管他们与预定义的图形和分层推理共享想法,但一个主要区别在于从外部弱监督数据集构建知识图[72],这提供了除限于下游任务的图形推理方法之外的新信息。

  多模态知识图将语言和符号知识图(例如,Freebase[69]、DBpedia[41]、Y AGO[553]、WordNet[415])中的经典工作扩展到了包含多模态概念作为节点和多模态关系作为边的语义网络[714]。多模态知识图非常重要,因为它们能够在视觉和物理世界中构建结构化信息。例如,Liu等人[371]演示了构建包含实体的数字特征和图像的多模态知识图的技术。视觉基因组数据集是另一个示例,包含图像中对象、属性和关系的密集注释,以改进图像描述和问答Krishna等人[318]等任务。这些多模态知识库已被证明有益于视觉问答[646715]、知识库完成[471]和图像字幕[411666]。基于多模变压器和预训练模型的最新进展,Gui等人

  [206]将隐式和显式知识集成到视觉和语言转换器中,用于在答案生成期间对两个知识源进行自动推理。我们请读者参阅Zhu等人的综合调查[714],以获取有关该主题的其他参考文献。

  多模态常识:尽管在设计基于图像和文本输入的感知的问答数据集(例如,VQA[34]、NLVR[555]和NLVR2[554])方面有大量工作,但最近的一个方向研究了从多模态输入(例如,VCR[694697]、VisualCOMET[457])进行常识推理。

  常识推理与感知不同,前者需要更深入的现实世界知识,可能跨越概念之间的逻辑、因果和时间关系。例如,VCR[694]和VisualCOMET[457]中的文本和图像区域之间需要因果推理元素,而其他工作也引入了具有视频和文本输入的数据集来测试时间推理(例如,MovieQA[575]、MovieFIB[391]、TVQA[337])。多模态常识的基准通常需要利用来自知识库的外部知识[222538649]或大规模数据集上的预训练范式[37969697]。

  第四个挑战涉及学习生成过程,通过总结、翻译和创造(条件生成)来生成反映跨模态交互、结构和连贯性的原始模态。这些基于输入和输出模式中包含的信息,可以区分三类,并已被建立为研究文本生成问题的有用框架[145]。摘要通过知识抽象将数据压缩为压缩版本,保留原始内容中最重要的信息。

  翻译将数据从一种模态映射到另一种模态,同时尊重跨模态交互。最后,创作旨在从小的初始示例或潜在的条件变量中生成新颖而连贯的高维多模态数据。我们将介绍每一代的进步及其评估。

  摘要被定义为通过计算缩短一组数据以创建一个摘要的过程,该摘要表示原始内容中最重要或最相关的信息。然后,多模式摘要是指一项任务,该任务以多种模式的信息作为输入,并依赖于不同模式之间的信息共享来生成最终摘要[273]。最近的工作探索了引导文本摘要的各种输入模式,例如文本和图像[108341712]、文本和视频[181345]、音频和视频[165166]以及同时出现的文本、音频和音频[271274340604]。这些应用于新闻[108274712]、电影[166]、体育赛事[507585]、会议记录[165]、教程[363]和社交媒体事件[584]的摘要。多模式摘要的最新趋势是将文本摘要分类为抽取式与抽象式。提取摘要从原始文本中过滤单词和短语以创建摘要,而抽象摘要从头开始生成摘要[62136]。类似地,多模态摘要的最近趋势也遵循了这一分类。我们强调了下面的一些主要见解,但请读者参阅关于多模态摘要的全面调查,以了解更多详细信息[273]。提取方法旨在从输入数据中过滤单词、短语和其他单峰原子单元,以创建摘要。例如,[109]使用多模态RNN通过使用文本覆盖率、文本冗余度和图像集覆盖率作为特征的逻辑分类器来计算句子的摘要概率。其他相关方法也研究了多目标优化,以联合优化显著性、可读性、图像覆盖率和多模态输入的提取文本摘要的其他需求[272340]。除了神经网络之外,整数线性规划还用于提取摘要,以便通过约束优化过滤最重要的特征[271]。除了文本作为输出,视频摘要的任务是通过封装信息最丰富的部分来生成视频的紧凑版本(视觉摘要)[213、381、419、503、541]。Li等人

  [340]收集了500个英语新闻视频和文章的多模式语料库,并与手动注释摘要配对,作为多模式摘要的基准。最后,UzZaman等人[604]旨在通过生成结合图片、视觉结构和简化压缩文本的多模态摘要来简化复杂的句子,以方便阅读困难或希望快速浏览的人。

  抽象方法通常定义生成模型,例如单向RNN[712]一次生成一个字,或者分层RNN解码器[108]以多个粒度级别生成摘要。尽管绝大多数方法只关注使用多模态信息作为输入来生成文本摘要[341、342、363、451],但几个方向也探索了图像输出以补充生成的摘要[108、181、345、712、713]。这些通常使用后处理策略来选择属于最终多模态摘要的图像[108712],或者以端到端的方式训练图像和文本摘要[181345713]。Palaskar等人

  [451]使用教学视频的How2语料库[508]研究开放域视频的抽象摘要,以提供从不同源模式(视频、音频转录和文本)收集和融合的信息的流畅文本摘要。Narasimhan等人[437]总结了具有跨模态显著性目标的教学视频,因为演示者更可能口头描述重要的视频帧。最后,李et al[341]使用多模式关注机制,对图像块和文本单元进行不同的关注,以实现对句子和图像的摘要

  多模态机器学习的一个核心领域涉及从一种模态到另一种模态的翻译(映射),同时尊重语义对齐[619]。例如,生成图像的描述性字幕可以帮助提高盲人视觉内容的可访问性[211]。多模态翻译带来了新的困难,涉及高维结构化多模态数据的生成及其评估。长期以来,人们对多模态翻译进行了研究,早期在语音合成[262]、视觉语音生成[405]和视频描述[312]方面的工作启发了最近在图像和视频描述方面的工作[60、118、586]、多模态机器翻译[83、544、665]和跨模态检索[174、474、621、625]。虽然多模式翻译有着广泛的应用,但在使用的方法中有两个统一的主题:基于范例的和生成的。

  基于示例的方法仅限于在模态之间转换时使用训练实例,而生成方法构建的模型能够在不直接使用训练实例的情况下生成翻译实例。这些模型之间的区别也可以被视为类似于参数化和非参数化机器学习方法的区别。

  基于示例的依赖于直接使用训练数据来提供翻译,并且通过在训练数据中找到最接近的样本的检索模型来举例说明。学习协调多模态表示(第3.2节)和学习连接(第4.1节)中的许多想法对于基于样本的检索很有用。例如,Farhadi等人[170]将句子和图像映射到?对象、动作、场景?, 其中可以执行对图像的相关字幕的检索。Socher等人[535]和Xu等人[653]提出了基于学习协调嵌入空间的其他方法。Jiang等人[280]和Cao等人[94]使用跨模态哈希来执行从图像到句子和句子的多模态翻译,而Hodosh等人[237]使用多模态KCCA空间进行图像句子检索。Karpathy等人[291]提出了一种多模态相似性度量,将图像片段(视觉对象)与句子片段(依赖树关系)内部对齐,而不是在公共空间中全局对齐图像和句子。

  可以通过定义组合规则来扩展检索模型,以基于多个有意义的检索实例而不是单个实例来创建翻译。基于组合的媒体描述方法的动机是,图像的密切相关的句子描述共享一个可以利用的共同而简单的结构。例如,Kuznetsova等人[325]使用了一种基于组合的翻译方法,其中首先检索描述视觉相似图像的短语,然后组合以生成查询图像的新颖描述。Gupta等人[210]首先找到几个与源图像最相似的图像,然后使用从其描述中提取的短语来生成用于组成描述的三元组排序列表。基于短语的字幕的最新示例来自Lebret等人[331],其中基于CNN的图像表示用于推断描述它的短语。

  生成方法构造参数模型,在给定单峰实例的情况下可以执行翻译。它们在自由形式生成方面的灵活性是以展示更具挑战性的设计和训练为代价的,以精确生成高维(通常是时间相干的)多模态数据。由于可能的正确答案和任务的主观性质,评估中也存在挑战。

  自由形式生成的最初尝试以手工制作的基于规则的模型为基础,该模型结合了每种模态的语法,通常以视觉概念或动作为条件来定义语言中的生成规则[46,162,205,312,348]。这些生成规则可以使用基于树的语言模型[417]、分层知识本体[662]、视觉接近关系[162]和图形模型[321、580、660、718]进一步增强。虽然基于规则的方法保证了语法和逻辑生成,但它们在创造性生成方面缺乏灵活性。随着能够生成图像[606]、音频[450]和文本[42]的深度学习模型的出现,最近的工作集中于多模态翻译的神经生成模型。多模态翻译最流行的现代技术之一是编码器-解码器框架,其中源模态首先被编码为表示,然后被解码为目标模态[399619]。这种模型在机器翻译[42286]、图像字幕[399619]和视频描述[453497615663]方面非常成功。除了生成语言,它们还可以用于翻译tas

  创建或多模态条件生成旨在从小的初始示例或潜在的条件变量中生成新的高维多模态数据(可以跨越文本、图像、音频、视频和其他时间序列感官模态)。这种有条件解码过程极具挑战性,因为它需要(1)有条件:保留从初始种子到一系列长距离并行模态的语义有意义的映射,以及(4)跨越可能的长范围的自回归(给定先前的状态,递归地生成未来的状态)。许多模式被视为创建的目标。语言生成已经被探索了很长时间[481488],最近的工作已经探索了使用神经网络的高分辨率语音和声音生成[447450605]。由于大规模生成建模的进步,写实图像生成最近也成为可能[76,292,396,629]。此外,在生成抽象场景[568718]、计算机图形学[135404414572]和说话头部[27711]方面,已经进行了许多尝试。尽管在视频生成方面取得了一些进展[147446602655],但真实视频、文本和音频的完全同步生成仍然是机器学习方法的挑战

  多模发电面临的最大问题之一是评估。虽然一些任务(如语音识别)只有一个正确的翻译,但许多任务(如摘要、语音合成、媒体描述和多模式创建)却没有。我们讨论了为解决这个问题而提出的评估技术。人类评估:评估主观任务的理想方式是通过用户研究(即,让一组人评估生成的内容)。这可以在Likert量表上进行,其中生成的内容根据特定领域的标准进行评估,例如语音合成的自然度和平均意见得分[605]、视觉语音合成的真实性[27]以及媒体描述的语法和语义正确性、相关性、顺序和细节[118、417、615]。另一种选择是进行偏好研究,其中呈现两个(或更多)翻译以进行偏好比较(可能在前面提到的维度之间)[577699]。虽然这是评估翻译的最可靠的方法,但耗时且成本高昂。此外,在构建和开展用户研究时需要谨慎,选择母语或流利的人,并控制年龄、性别和文化偏见。自动评估:虽然人类研究为评估提供了黄金标准,但已经提出了许多替代的自动度量,特别是对于媒体描述的任务。一些度量受机器翻译中生成文本的评估启发,包括BLEU[454]、ROUGE[367]、Meteor[146]和CIDEr[610]。GEM基准收集用于评估自然语言生成的工具[190]。这些度量计算了一个分数,该分数衡量生成的文本和地面真实文本之间的相似性,并且在评估图像和视频字幕算法方面特别流行[60]。还提出了SPICE度量,该度量计算候选和参考字幕的解析场景图之间的一致性[25],但其性能变得非常依赖于解析的质量[298]。此外,Elliott和Keller[163]表明,句子级单字BLEU与人类判断的相关性很弱,Huang等人[254]证明,人类判断与BLEU和Meteor之间的相关性对于视觉故事来说非常低。[118]还发现,在MSCOCO挑战中,基于人类判断的方法排序与使用自动度量的排序仅弱对应。最后,当存在许多参考翻译[610]时,这些指标效果最好,这通常是不可用的,尤其是对于当前视频描述数据集[586]。除了文本作为输出形式的任务中的自动评估之外,自动评估生成的图像、视频和音频甚至更加困难。Chen等人[111]撰写了一篇关于评估说话头部视频生成的调查论文,涵盖了人类判断和身份保持、嘴唇同步、高视频质量和自然自发运动的自动度量。对于一般图像和视频,通常使用自动度量,如初始得分[506]和Fréchet初始距离[231]进行评估[128]。对于手势生成模型,Wasserstein-1距离(W1)[10](生成的和地面真实平均速度分布之间的距离)、Shannon指数[439](测量运动的多样性的度量)和Beat Consistency Score(BC)[339](运动音频节拍相关性的度量)已用于进一步评估生成手势的准确性和多样性。伦理问题:在实际部署发电模型之前,我们还需要仔细考虑其使用的伦理问题。最近在多模式生成(图像[486]、文本[481]和视频[111])方面取得的成功引起了人们对其评估和道德部署的关注[58,96,218,618,695]。例如,大规模预训练语言模型可以潜在地生成文本,传播关于特定社会群体的负面概括[3,58,429],诋毁特定社会群体[79,358,520]的语言,有毒语言[189],并从他们的训练数据中揭示敏感信息(例如,姓名、电话号码和电子邮件地址)[96]。在从文本到图像的多模态生成中也发现了关于人口统计组的编码偏差问题[123]。同样,人脸和视频生成可以导致任何人说出任何内容的高质量视频假唱[565],这为“Deepfakes”打开了大门,并引发了许多关于虚假媒体的社会和心理影响[218]。负责开发此类生成模型的若干一般建议包括使用数据集的数据表[188]和模型报告的模型卡[418],以澄清数据集和机器学习模型的预期用例,并尽量减少它们在不适合的环境中的使用。关于进一步的细节,我们请读者参阅Mehrabi等人对机器学习中的偏见和公平性的全面调查[408]。

  转移旨在在模式及其表示之间转移知识。从附加的二级模态(例如,预测的标签或表示)学习的知识如何帮助在一级模态上训练的计算模型?当主要模态资源有限时,这一挑战尤其重要——缺乏注释数据、输入噪音大和标签不可靠。我们将这种挑战称为转移,因为从次级模态传递信息会产生以前在初级模态中没有的新行为。我们确定了三种类型的迁移方法:(1)跨模态迁移,(2)多模态共同学习,和(3)模型归纳(图15)。

  在大多数情况下,可能更容易在二级模态中收集标记或未标记的数据,并训练强监督或预训练模型。然后可以针对涉及主要模态的下游任务对这些模型进行调节或微调。换言之,这一研究方向将单峰传递和微调扩展到跨模态设置。我们在这个方向上涵盖了调优、多任务学习和转移学习方面的工作。

  调整:受自然语言处理中涉及前缀调整[349]和提示调整[338]以使预训练语言模型适应新的NLP任务的先前工作的启发,最近的工作还研究了预训练语言模式的调整,以适应视觉和其他模态。例如,Tsimpoukelli等人[599]提出了一种前缀调整方法,用于在图像上快速调整预训练、冻结的语言模型,以完成图像字幕任务。通过冻结大的预训练语言模型的参数,可以简单地学习一个小的适配器层来转换语言模型表示空间中的图像输入。相关工作还针对图像字幕[110]、多模态预测[222]和多模态抽象摘要[680]进行了前缀调整。

  虽然前缀调优简单而有效,但它仅为用户提供了对如何将信息注入语言模型的有限控制。表示调优更深入一层——它不是将预训练的语言模型视为一个基本冻结的黑匣子,而是通过与其他模式的上下文化来修改语言模型的内部表示。例如,Ziegler等人[717]在具有外部模态的语言模型层之间包括额外的自我注意层,以启用图像条件字幕。Rahman等人[484]设计了一个移位门,用音频和视频信息调整语言模型层,以进行多模态情感分析。

  多任务学习范式旨在使用多个大规模数据来学习多模态表示,并且与在奇异数据集上学习相比,表现出了改进的性能。Perceiver[266267]、MultiModel[285]、ViT BERT[346]和PolyViT[364]等几项工作探索了在单峰任务(即,仅语言、图像、视频或音频)的不同输入中使用相同单峰编码器架构的可能性。Transformer架构已成为一种流行的选择,因为它适用于序列化输入,如文本(标记序列)[149]、图像(补丁序列)[155]、视频(图像序列)[557]和其他时间序列数据(时间步序列)[365],Lu等人[380]进一步观察到的一种现象,其中对文本进行预训练的单个Transformer转换为其他单峰任务,包括序列建模和图像分类。也有几次尝试构建一个能在一组多模态任务上很好工作的单一模型[122343379550]。例如UniT[248]、VLBERT[550]、ViLBERT[379]和VL-T5[122]都是视觉和语言任务的统一模型,一些模型还具有对仅视觉和仅语言任务的泛化。HighMMT[361]超越了通常研究的语言、视觉和音频模式,通过多任务和转移学习,实现了对相对研究不足的模式(例如,表格数据、时间序列、传感器、图表和集合数据)和任务的泛化。

  V A TT[14]联合训练视频、音频和文本数据的共享模型,以执行仅音频、仅视频和图像文本检索任务。FLA V A[529]发现,使用未成对图像、未成对文本和图像-文本对预训练共享模型可以在仅图像、仅文本和图像文本多模式任务中获得优异的性能。

  迁移学习:在迁移方面,尽管更多的研究集中于同一模式内的迁移和外部信息[156,534,648,692],Liang等人[359]研究了向全新模式的迁移。然而,它们需要成对的数据收集和针对特定单峰传输任务的模态特定建模。Lu等人

  [380]发现,经过语言预训练的变形金刚可以快速转移到涉及数值计算、图像分类和蛋白质折叠预测的下游任务。HighMMT[361]研究了如何将多模态表示转换为新的模态和任务。最近,也有一系列工作在调查用于规划[255]和交互式决策[347]的预训练语言模型的转移。

  多模态共同学习旨在通过在两种模态之间共享中间表示空间,将通过一种(或多种)二级模态学习的信息传递到涉及初级模态的目标任务。这些方法基本上导致了所有模式的单一联合模型。我们介绍了基于融合和基于翻译的共同学习的方法,这些方法根据在模型的输入或输出空间中使用二级模态的位置而有所不同。

  通过表征的共同学习旨在学习联合或协调的表征空间,使用主要和次要模态作为输入,以整合两种信息源。通常,这涉及在训练过程中添加二级模态,设计合适的表示空间,并调查测试期间多模态模型如何转换为一级模态。DeViSE是一种深度视觉语义嵌入模型,它学习图像和文本嵌入之间的协调相似性空间,以改进图像分类[180]。Marino等人

  [401]通过设计基于图的联合表示空间,将来自知识图的结构化知识集成到图像分类流水线中。Jia等人[277]通过图像和噪声字幕之间的大规模对比表示学习改进了图像分类器。Radford等人[483]使用预测哪个字幕与哪个图像匹配的对比预训练任务,直接从原始文本中学习图像。当显著放大时,他们的模型显示出许多计算机视觉任务的可转移特性,同时显示出零镜头视觉分类能力。最后,Zadeh等人[692]表明,内隐共同学习是可能的——通过在视频、音频和文本数据上训练多模态情感分类器,最终的模型通过将视频和音频归零而转换为纯文本情感分类,并且优于纯文本训练。

  通过生成的共同学习将单模态数据转化为另一模态或潜在空间,从而通过“幻觉”学习丰富的表征。这种方法明确地强制表示不仅处理单个模态,而且还使用有限的训练数据重新创建另一个模态。这一类的经典例子包括V标记化,它将上下文化的文本嵌入映射到图像中[570],将图像嵌入投影到语义词嵌入空间中[534],以及将语言翻译成幻觉视频和音频模式[472]。

  与共同学习相反,模型诱导方法使初级和次级模态中的单个单峰模型保持分离,但旨在诱导单独模型中的行为。经典的协同训练算法举例说明了模型归纳,其中在使用每个算法对新的未标记示例的预测来扩大另一个的训练集之前,对数据的每个视图分别训练两个学习算法[67,442]。

  因此,信息通过模型预测而不是共享表示空间跨多个视图传递。同样,联合教学是一种有效的噪声标签学习方法,其中两个单独训练的模型各自选择其小损失实例作为自信知识,并将这些有用实例传授给另一个网络进行进一步训练[216]。用于噪声标签学习的其他方法也采用了类似的归纳方法[27839363682]。

  多模态联合训练:对于多模态任务,Hinami等人[235]提出了多模态联合培训,通过联合学习相互补充的多模态分类器,从有噪声的训练数据中选择好的示例。Guillaumin等人[207]研究了多模态半监督学习,在训练标记和未标记图像的最终分类器之前,使用图像内容和关键词的分类器对未标记图像进行评分。Cheng等人[120]使用保持多样性的协同训练算法执行半监督多模态学习。最后,Dunnmon等人[157]将数据编程的思想应用于跨模态弱问题医学中的监督