儿童和青少年精神病学的转换机器学习

时间：2023-08-16

　　儿童和青少年可以从预测工具的使用中受益，这些工具有助于个性化诊断、预后和选择治疗方案。然而，这些工具目前还没有使用传统的统计方法进行部署，原因是范式的局限性和需要大量的数字数据（）。本文将提出一种用于解决这些挑战的机器学习方法，旨在向新的读者介绍该领域的背景、方法和结果。首先介绍了基本原理，然后概述了机器学习方法的基本要素。为了吸引人们关注最接近转换的研究领域和表现出高度实验创新的研究，本文突出了一些选定的研究。研究的局限性和机器学习方法一般在倒数第二节中概述，突出了与问题。最后，讨论了未来的方向，可以提高临床实施的可能性，并解决与儿童和青少年精神病学相关的具体问题。本文对机器学习范式进行了广泛的概述，以突出面向实际的统计解决方案视角转变的好处，旨在改善儿童和青少年的临床护理。本文发表在Journal of Child Psychology and Psychiatry杂志。

　　在儿童和青少年时期，大约有15%的人被诊断患有自闭症谱系障碍、注意缺陷多动障碍、焦虑症、抑郁症或精神分裂症。在诊断之前，可能会出现发育中断的未经治疗期，这与患者的长期损伤结果有关。对于某些情况，发病前风险状态以阈下症状为特征，这些症状损害功能，并可能在成年早期演变为疾病。因此，促进疾病的尽早检测、提供准确的诊断、估计预后过程和预测最佳治疗对于长期健康结果至关重要。

　　精神病学和临床心理学的研究提供了大量基于集群的信息，例如，促进了疾病的早期检测、知情诊断类别、制定了治疗指南，并强调了潜在的疾病生物学机制。一个有抑郁症状的青少年可能被诊断为抑郁症，他们可能会被告知，有相同诊断结果的人有50%的时间内其症状无需治疗即可缓解，他们也可能被开抗抑郁药或进行认知行为疗法(CBT)，研究显示以群体为基础的缓解可能性为65%。这些信息在某种程度上是有帮助的，在诊断不能准确定义结果或治疗计划的情况下，患者和治疗团队将受益于提供个性化风险评估的方法(Box 1)。

　　对于反复的临床相互作用和试错治疗策略, 如果没有对每个人的准确建议，个人长期损伤的可能性会随着延迟诊断的社会和经济成本的增加而增加。虽然有大量的研究调查了临床相关目标(如不良结果)与心理、社会和生物变量之间的关系，但其目的在很大程度上是解释性的，以提供我们所意识到的个性化风险。这与一些其他的医学领域不同，在其他领域，简单的方程可以用于基于一小部分预测变量来预测结果，例如Framingham评分来估计心血管风险(例如，使用年龄、胆固醇、吸烟状况和血压)。

　　鉴于精神疾病的复杂性和异质性，可以理解像Framingham方程这样的简单风险计算方法没有在临床上使用，特别是由于缺乏客观生物标志物或对精神疾病诊断的机制理解。然而，越来越难以理解的是，尤其是在初级保健服务中已经有了以电子健康记录 (EHR) 和诊断数据（例如磁共振成像；MRI）形式出现的大量存储库，以及越来越多的视频、音频、智能数据收集电话、社交媒体、临床问卷、基因组学、其他组学数据、电生理学、神经影像学和许多其他来源。通过重新考虑占主导地位的统计范式并使用转换机器学习方法增强它，这些数据源可用于利用假设的生物、心理、社会和环境对精神病学诊断、预后和治疗预测的贡献。

　　想象一位临床医生看到一个 16 岁的孩子，他的学习成绩下降，与朋友疏远，他的大部分时间都很悲伤，并且正在经历一些轻微的偏执症状，因为同学们在背后谈论他。重度抑郁症作为鉴别诊断出现，但临床医生担心其出现精神病前驱症状的可能性。基于群体的研究表明，轻度偏执在有创伤史的抑郁青少年中很常见，并且在群体中，成为精神病的可能性很低，临床医生会将他们转介到抑郁症诊所。然而，青少年最终会经历一次精神病发作，随后会出现不良的社会表现和症状结果。听到这个结果后，

　　精神病学研究主要使用频率论、推理统计范式来设计实验并对数据做出结论。研究的目标通常是基于组的效应（例如，差异和关联），并且根据 p 值得出结论，该 p 值表示在没有真实效应的情况下通过计算统计模型在零假设下获得结果的概率-假设显着性检验。传统的科学方法假定旨在精心设计高度受控的实验，从目标人群中抽取样本进行推断，根据精确的假设选择变量，使用统计模型确定显著性和解释变量，并根据结果是否可能偶然发生而得出结论。通过使用这样的范式，在这个范例中，比较了组间的平均风险。

　　最近，鉴于强调多重局限性的可重复性危机，主导分析范式受到质疑。在这场争论中重新审视的这有助于重新评估研究实践，例如：预测试概率估计的使用、更广泛地使用置信区间以及分析计划的预设计。然而，即使存在如此重要的变化，剩余的范式本身仍可能通过产生具有临床意义的结果而导致对转换目标没有贡献的研究，过度控制样本，使其不再类似于现实世界的情况，根据其显著性错误地识别预测变量，并从组中做出有问题的推论个人的平均值。归根结底，显著性检验并不能直接衡量被调查样本对新数据的普遍性或预测准确性，如果我们想实际使用统计模型做出决定，这些都是必须考虑的。

　　为了使用传统的基于组的方法在个体层面进行预测，统计模型通常在外部样本中进行验证，这导致了上述 Framingham 风险方程式等工具的出现。然而，由于这些模型的局限性，医学领域正在投资结合现有知识的其他技术，这些技术可以将现有知识和实践与机器学习的互补和重叠范式相结合。

　　这种范式的起源可以追溯到使用早期计算机来模拟神经元功能的研究，这是由心理学、神经科学和计算机科学的早期跨学科先驱进行的，如Frank Rosenblatt。

　　从历史的角度看，这个想法是通过对计算机编码统计函数来模拟基本的神经元操作，这些统计函数可以根据数据输入自动更新它们的系数，以分类新的数据—在这种情况下，可以从模拟眼睛视网膜的传感器阵列中识别形状模式(例如，正方形或三角形)。因此，(参见表Table 1中的术语表，以了解本文中使用的机器学习术语的描述)。

　　当Rosenblatt和其他人使用机器学习时，统计在机器学习中的使用不同于心理学中占主导地位的频率论范式，因为它专注于从样本中学习以实现预测的实际目标的算法方法，而不是使用统计模型和p值测试。它也不同于标准的计算实践，后者涉及将预设的规则编程到计算机中以获得确定的结果。在这种情况下，其核心思想可以归结为自动选择数据、学习参数、进行有限的假设、使用模拟来评估和提高性能，以及进行概率预测来推动具体决策。从历史的角度看，准确性、对新病例的概括性、实际效用和对单个例子(例如，患者)的适用性是机器学习的最终目标，而不是在群体均值或统计关联之间发现显著差异。

　　在接下来的几年里，机器学习范式时起时落，但现在它已经成为我们日常生活的一部分，因为计算能力的提高和算法的进步推动了性能的提高，所带来的性能收益超过了传统统计方法或基于规则的确定性编程在不同领域的使用。在这种情况下，一个老问题被重新提了出来，(例如，关于儿科计算机辅助决策)。在整个医学领域，机器学习技术的使用现在呈现出指数级增长，因为这些方法在不同专业的整个生命周期中协助决策的能力得到了测试，并取得了令人满意的结果。

　　医学中的机器学习范式特别适合于数字数据，也就是说，难以用简单的回归方程或决策规则进行分析——例如，电子病历、医学图像(例如CAT、MRI、细胞病理学、皮肤病学)或基因组学。然而，即使在收集简单临床数据的情况下(例如，从问卷调查中)，机器学习也可以帮助找到最大程度的预测模式，特别是当现有知识不足以推导出临床上有用的回归方程，有新的预测目标，或对机制理解不足时。因此，它是一个非常适合临床心理学和精神病学领域的范式，因为它不仅仅是一个具有有限的机械洞察力的领域，而且它也试图在数字数据源(例如，成像或遗传学)中找到模式，以便最终协助临床护理。

　　以下部分介绍了机器学习中的关键概念和方法，以定义机器学习目标，介绍常用技术，讨论统计流程的使用，强调算法优化的重要性，并突出验证和转换的关键重要性。为了进一步了解信息，一般有许多药物引物和综述，特别是精神病学，心理学，神经发育障碍和放射学。还有一些教科书对下面的主题进行了扩展。

　　数据可以基于两个主要的机器学习目标进行分析。当“标签”()是已知的，并且算法被优化以在数据中找到分离病例的模式; 它被称为“监督式”学习，相反，还有一些其他技术不是本综述的重点，因为它们目前在精神病学中很少使用，例如半监督学习和强化学习。

　　构建预测统计工具的传统方法(例如，使用Logistic回归或Cox模型)是基于假设定义一组受限的变量，有时，为了更好地模拟数据与结果之间的拟合(例如，向精神病的过渡)，会添加交互作用或多项式项，或者为了满足统计假设而对数据进行转换(例如，对数转换)。这种方法产生了之前描述过的工具，例如心血管疾病的 Framingham 风险评分。

　　除了定义变量子集的假设驱动技术外，还可以使用探索性技术。例如，在统计和机器学习领域中使用的一种简单技术是，该技术使用类似于逐步回归的过程选择数据的子集。()，探索性矩阵分解技术和其他更专业的降维方法。这些技术在不同的领域都有，包括心理学、工程学和计算机科学。在机器学习背景中，

　　虽然使用选择或约简来减少预测器的数量是有效的，但机器学习的一个决定性特征是，已经创建了直接解决传统方法的核心局限性的算法。例如，标准回归技术()的一个问题是，随着预测因子的数量接近观测值的数量，模型将完美地适合样本。另一种描述方法是声明不存在“偏差”(注：由模型拟合的估计值与真实值之间的差异定义)，但存在高模型“方差”，因为样本中的微小差异将导致模型系数的变化(图1)。

　　图1 机器学习方法旨在平衡与预测误差相关的偏差和方差。

　　当偏差很大(即模型不适合数据)时，方差(即模型对输入数据变化的稳定性)就会很低。

　　当偏差很低时(即当模型完美地拟合数据时)，那么方差将很高，因为输入数据的微小变化将导致模型或算法的变化。

　　算法试图在不使用各种技术(如自动特征选择、降维或正则化来约束系数)约束输入数据的情况下找到

　　回归最常见的正则化形式是岭回归法和套索回归法，后者能够将系数缩小到零，以作为一种自动的高度可解释的“特征选择”技术。收缩量由“超参数”()定义，可以由实验者设置或自动检测，以产生一个平衡偏差误差和方差的模型。

　　正则化和使用超参数来平衡偏差-方差权衡，也被许多其他算法所使用。对于监督学习，这些方法通常是分类方法，例如正则化逻辑回归(L2-或L1 -正则化)或支持向量机(SVM)技术，这些技术是在计算机科学和工程领域同时开发的。因为它在之前的研究中非常有效，并广泛应用于精神病学。它旨在最大限度地扩大各组之间的差距，(例如，在好结果和差结果之间)(图2)。与岭回归或套索回归相似，

　　从统计学、工程学和计算机科学的多个交叉领域发展出了广泛的机器学习算法。其中一些类似于上面的正则化回归，因为它们是对现有统计技术的发展(例如，)，另一些则是在专门的机器学习领域中随着时间的推移而发展起来的(例如，神经网络算法)，还有一些方法是基于领域之间的交叉发展起来的()。

　　不管具体的方法是什么，机器学习技术都是通过使用计算机来找到最好的预测模式，通常需要大量的数据，并直接解决偏差-方差权衡，而不是接受传统方法的局限性。它们之所以有用，是因为许多技术并没有限制实验设计和数据，而是试图约束算法，并使用迭代优化算法来找到最具预测性的解决方案。正如本文稍后将概述的那样，这种方法存在局限性，但到目前为止，这些额外的工具已经有效地了大量数据以进行预测。

　　图2 机器学习中的一个简单的分析链。

　　(A) 通过多个变量(V1-V4)获取数据;

　　(B) 使用主成分分析(PCA)将数据缩减为这里描述的每个个体的相关权重的组件(即，个体符合组件所表示的模式的程度);

　　拥有特征工程方法和模式识别算法的工具包有助于预测，但挑战通常在于将方法与数据准备方法相结合以实现预测目标。机器学习在很大程度上仍然是由正处于研究中的数据领域的专业知识指导的(深度学习除外，见Box 2)，这意味着需要对数据进行特定的准备工作，这些准备工作通常在分析链中链接在一起(图2)。例如，在设计假设并选择初始数据后，

　　机器学习流程的另一个附加功能是集成学习与传统方法不同，传统方法使用一个统计模型来预测结果，例如，来自不同统计算法或数据类型的模型可以组合在一起，组成最终决定预测的委员会，这在概念上类似于像医学专家这样的个人委员会做出决定的方式。这些技术用于增强预测的稳定性和准确性。

　　在机器学习流程的上下步骤中，重要的是要注意机器学习的一个基本属性是能够优化流程（或整个流程）中的任何步骤以获得最佳预测准确性。例如，不是使用统计经验规则(例如，拐点检测)定义的PCA将数据减少到多个维度，而是可以根据它们预测个体结果的能力自动选择组件的数量。如上所述，对于特定于机器学习的算法(例如，SVM)，超参数也可以被调整，以用来最终修改所选特征的数量、允许的误差程度或非线性的量。虽然其中一些技术也用于传统统计，

　　考虑到机器学习方法的强大功能，可以使用由在数据中找到最优解决方案，但这可能导致严重的过拟合。因此，在使用未经训练的测试和环境中，根据经验测试并且报告算法流程的性能是一个基本的组成部分。

　　机器学习方法通过使用交叉验证方法利用计算机资源来模拟构建预测算法并将其应用于新数据的环境(图3)。交叉验证的一种基本形式可能涉及将样本分成两部分，并将一部分构建的模型应用于另一部分，以评估其准确性。然而，在实践中，这些方法采用重复的重新采样过程来测试多个数据子集，以便提高验证的准确性。交叉验证不同于其他重采样技术，如bootstrapping（），因为它涉及验证保留样本中的统计模型或数据处理流程(例如，预测未包括在模型创建中的个体的结果)，而不是重复地将算法应用于具有微小变化的相同样本(例如，可置换的重采样)。

　　这种策略有多种变体，最常见的方法是k折，其中数据首先被随机分成预定义的折数(例如，5或10)。然后将每个折用作测试样本，而其余数据用于训练算法，并在测试折中计算平均精度或其他性能度量(图3)。其他变化包括留下一个特定组作为折而不是数据的随机子集，交叉验证技术在这方面非常灵活，可以评估多种形式的概化(例如，对不同地区、文化或性别的概化)，唯一的规则是测试数据内的个人不得参与模型的创建，因为这将破坏新数据中测试准确性的模拟（）。

　　。这样做允许模型根据内部循环的测试数据进行优化，以便在将这些测试优化的分析链应用到外部交叉验证循环的完全保留个体之前，在看不见的情况下学习最可概括的模式。一般来说，除非使用能够充分采样真实人群的大规模样本(例如，使用EHR的深度学习)。

　　深度学习是机器学习的一个子领域，经常用于实现无假设、无偏差的特征工程方法。这一系列技术特别适用于没有现有知识或需要重新评估特征空间的问题。在基本层面上，相互关联的方程的分析链将原始数据分解为抽象特征层，这些抽象特征层一起使用基于部分的表示(例如，面部或肿瘤的部分)来识别模式。例如，层的数量指示学习过程的深度()。只要有足够的算力，就可以以这种方式调整数千个超参数，这提供了非常高的自主权，可以有效地利用它来提高预测的准确性，但也增加了得到虚假结果的机会。。在儿童和青少年精神病学领域，深度学习目前正在以下领域进行试验: 基于现有数据预处理技术(例如，结构或功能数据预处理)限制预测准确性假设的神经影像学，对于存在大量结构有限的数据集的EHR，以及语音和视频记录。

　　人工智能领域的一个长期目标是创造可以用来解释视觉场景(如照片和视频)和处理语言(如口语和书面)的工具。这些工具对精神病学的未来很重要，因为诊断通常涉及语言和行为评估(例如自闭症谱系诊断)。从历史角度看，在这些领域中使用的方法与本文正文中描述的简单分析链没有什么不同，但最近，由于超大数据库(例如YouTube或网络上的图像)和巨大的计算资源，深度学习已经占据主导地位。儿童和青少年精神病学领域的早期例子是，使用语音识别来预测精神病发作。随着该领域的扩大和工具变得更容易使用，这种进步可能会继续下去，但目前还很有限。

　　图3 转换机器学习的普遍性和临床实用性。

　　(A) 转换机器学习流程应根据其普遍性和临床实用性进行评估。

　　(B) 交叉验证可用于模拟泛化能力，以构建和优化最有可能泛化的模型。描述了 k 折交叉验证，它涉及将样本分成测试折。保留一个测试折，将分析链（例如图 2）应用于样本的其余部分，然后在不修改的情况下将分析链应用于保留的个体，以测试它是否可以成功预测每个个体的结果。

　　内部交叉验证是必要的，该算法的普遍性可根据模型在单个地点和样本(如医院)内是否准确，或在代表统计工具所针对人群的人口统计学和临床异质性的不同样本中在本地(如同一城市)、国家或国际水平的多个地点之间是否准确来评估(图3)。正如其他综述所概述的，任何声称具有转换潜力的研究都需要考虑概化的层次结构，包括:强可推广性声明的当前标准是在作为不同研究的一部分收集的单独样本中验证算法(即，提供外部验证的证据)，但医疗算法使用的监管批准可能基于前瞻性验证程序，包括评估可推广性和临床效用的多地点随机临床试验。

　　临床效用是转换机器学习中一个相对被忽视的元素，它考虑了该工具是否可以在临床护理中实际实施(例如，该技术是否可用)，它是否为现有实践增加了价值，它在给定条件发生率的情况下增加了多少价值，结果是否可以被临床团队解释，以及在护理中实施该工具的成本效益比。除了算法的准确性之外，然而，即使一种工具表现出高准确性、可推广性、对常规程序具有高度益处并且具有成本效益，它依然有其局限性。该临床工作流程通常不仅在治疗团队之间有区别，而且随着时间变化。需要高临床效用的一个要素是需要来自可解释模型的可信预测，该模型证明预测是如何做出的。因此，目前感兴趣的领域是可解释的机器学习，因为它使用额外的统计技术，以便使有时不透明的模型预测在个体患者水平上更加透明(例如，证明为什么基于数据预测患者具有好的或差的结果)。随着算法在临床上的部署，这种担忧预计将变得更加相关，

　　在精神病学中用于神经成像的分析流程的一个例子可能涉及这样的步骤，例如将脑图输入到涉及缩放、PCA的链中，然后使用SVM来预测结果。该流程将被嵌入嵌套的交叉验证设计中，该设计由内部训练-测试循环组成，该循环优化了用于在保留的测试样本中进行预测的超参数。对于交叉验证循环中的每个折，整个分析流程都是在训练数据上进行的，最好的模型是根据它们泛化到新数据集的能力来选择的，然后将这些模型不加修改地应用于测试折中的保留个体，以最终评估模型性能的准确性。一旦训练过程完成，模型就可以灵活地应用于其他数据，内置到在线预测工具 (www.proniapredictors.eu) 中，或转移到其他站点以进一步评估普遍性或在其他条件下的使用。

　　为了提供机器学习研究的广泛概述并确定进一步讨论的重点文章，对儿童和青少年精神病学进行了四次范围界定审查（PRISMA 指南；PubMed/Web of Science），如果没有提及机器学习，没有包含特定的机器学习统计技术，没有指定研究中使用的数据类型，没有指定目标，没有特别关注儿童或青少年，或者没有指定精神疾病诊断或结果，那么摘要将被排除在外。共筛选了3095项研究，其中441项在过滤后保留(250项，自闭症;108项,多动症;37项，精神病;46项，抑郁)。来自工程领域的长篇会议摘要(例如，IEEE会议)被保留，以包括使用实验性前沿方法的试点研究，共包括78篇长篇会议摘要(所有自闭症研究中的51篇(20%);所有ADHD研究中的19项(18%);所有抑郁症研究中的7项(15%);1项精神病研究(2%))。每项研究都量化了机器学习分析的临床目标（例如，诊断、预后或治疗选择）和调查的数据类型（例如，问卷、视频或 MRI）（Table 2）。然后讨论了诊断、预后和治疗选择领域的选定研究，以提供使用机器学习的示例，并评估将结果转换为临床的潜力。

　　结果表明，出版物的预期指数增长反映了该领域的日益普及（图 4；Table 2）。而早期发现、预后和症状表征是精神病 (46%) 和抑郁症 (44%) 的主要关注点。使用了广泛的数据类型，但特别关注自闭症患者的问卷调查、神经影像学、脑电图以及视频和运动跟踪。

　　儿童和青少年诊断评估是非常费力且高度专业化的，这有可能导致在关键的发育窗口期治疗延误和误诊的可能。诊断机器学习技术已经提出了近30年，目的是减少评估负担(例如，减少诊断时间)，特别是在自闭症和多动症领域(Table 2)。虽然神经影像学产生了很多的相关研究，但基于问卷的评估提供了更多的转换可能性，因为有更高的普遍性证据。一系列令人兴奋的研究也表明，自闭症谱系诊断的未来可能涉及使用不同的信息化数据。

　　Phi，非参数检验的影响大小的 Phi 系数； EHR，电子健康记录； EEG，脑电图；神经影像学，除功能性近红外光谱 (fNIRS) 之外，还包含了所有的 MRI 模式

　　*仅显示在错误发现率 p <.05 时显著的 p 值。

　　a所有临床目标和数据模式都被计算在内，使得每个类别的研究被多次计算。

　　图4 儿童和青少年精神病学的机器学习出版物。所有诊断组都描绘了一个主要的指数趋势，即由自闭症研究驱动。最活跃的时期是最近5年。

　　早期的机器学习方法旨在通过从评估非典型行为和社会情绪模式的诊断评估组件中学习自闭症谱系障碍的诊断模式来提供临床支持，最近这种方法又开始使用了，并应用于问卷调查。除了研究性别，种族，教育偏见和文化背景的影响，还通过多点交叉验证、其他样本的外部验证和鉴别诊断验证，对可推广性进行了评估。早期检测也是一个重点，在先前研究中所证明的外部验证和可推广性的基础上，自闭症诊断评估工具已经开发出来，最近通过De Novo上市前审查途径获得了联邦药物管理局(FDA)的营销批准，用于低至中等风险设备(称为Cognoa; )。该批准是基于一项在美国14个地点进行的多地点、前瞻性、双盲、队列研究(尚未发表)获得的。该研究将机器学习与移动应用程序结合使用，该应用程序从向护理人员询问的问卷项目中收集数据，管理由制造商培训和认证专家评分的上传视频，并提供一个医疗保健提供商门户，以便临床医生在提供报告之外回答进一步的问题。在425名患有发育迟缓的患者(18个月至5岁)的样本中，

　　其他高度实验性的自闭症研究并没有创建更好的问卷组，而是试图通过对数字传感器、音频和视频生成的数据使用机器学习技术，更直接地模仿人类临床医生使用的诊断模式识别，以进行评论。例如，工程和计算领域已经研究了眼动、语音、身体运动、情感表达和社交互动的分类。这些属性通常通过使用标准机器学习流程的成熟技术（例如体动记录仪）来衡量，但最近已有研究初步将这些与虚拟现实等新技术相结合。深度学习技术也被用于对儿童的原始视频文件进行行为方面的分类。

　　虽然行为模式识别显然是临床诊断的有用目标，但总体上更多的研究都是针对MRI的研究，其中机器学习技术已被广泛应用，以发现非典型模式(例如，自闭症谱系障碍和多动症)，最终目的是将模型转换为有用的诊断工具。例如，范围审查中包括的大多数研究来自开放获取的

　　研究表明，MRI可能有助于早期识别、诊断和鉴别诊断。自最早的研究以来，自闭症谱系障碍的分类准确性通常报告为70%或以上。在ADHD中，最近一项包括脑电图测量的综述报告了分类准确度在60%-80%的范围内，但注意到在较大的样本中准确度下降，提示实验偏差。最近的研究还采用了深度学习技术，这个令人感兴趣的研究使用了数据增强方法来克服样本量限制。在初步研究中，也提出了通过MRI诊断婴儿早期自闭症谱系的建议。鉴别诊断分类器通过显示特异性来显示临床效用，也已开发用于自闭症谱系和多动症。

　　成像结果的局限性在于，外部验证和更广泛的泛化性评估(例如，文化或性别差异)不如自闭症中的问卷测量那么广泛。例外情况是在自闭症中使用的多点评估程序的例子，有少数研究使用了外部验证样本，要么对不同的ABIDE版本进行测试，要么对内部数据集进行测试。在ADHD方面，外部验证已经在少数研究中进行。在性别和智力差异方面也进一步评估了普遍性。这些研究表明，神经影像学在临床转换中遵循问卷测量的能力有很好的应用前景。

　　儿童和青少年精神病学中的预后预测机器学习的例子可以在早期精神病和抑郁症领域找到。精神病的调查是早期干预举措的一部分，旨在识别临床上精神病发作的个体，主要由妄想和幻觉定义。目前还没有临床方法来识别早期病例，而识别早期病例有可能通过治疗和行为干预来改善或潜在地防止完全过渡到严重疾病。提供准确和可推广的工具来预测个人的这些结果将对可能影响个人生活的实践产生重大影响。正如最近的荟萃分析所述，针对临床高危状态的机器学习已经产生了大量的预后研究。到目前为止，预后研究(即转向精神病或功能不良)使用了问卷测量，MRI，脑电图，以及血脂等生物指标。音频、视频和传感器阵列的使用在精神病领域不太突出，但值得注意的是，目前已有创新研究使用Facebook消息来预测复发。在最近一项针对精神病高危区域的荟萃分析中，虽然需要额外的研究来评估模型的普适性、偏差和外部验证，但精神病预测领域因此为鲁棒的外部验证研究和目前正在进行的前瞻性试验做好了准备，以促进临床转换。

　　抑郁症状的预测在该领域有着悠久的历史，交叉验证的神经网络研究可以追溯到1994年的问卷数据。当时还使用问卷调查和使用较小样本的MRI进行了早期疾病检测机器学习研究，以预测未来症状。然而，由于强烈的临床需求，抑郁症的主要焦点一直集中在自杀上。自杀预测主要使用问卷进行，通常是在医学生和少数民族等亚组的大样本中，以及使用鲁棒的嵌套交叉验证方案。其他工作已使用语音处理方法（见Box 3）来识别自我伤害文本，已被证明在预测自杀方面具有很高的准确性。然而，正如最近一项跨年龄组的荟萃分析所概述的那样，准确度掩盖了平均为 0.01 的阳性预测值（即阳性预测导致自杀的几率为1%），这对于将此类工具引入临床护理的价值是一种挑战。

　　在药物和心理治疗选择的治疗结果可变性的背景下，将最佳治疗与患者更好地进行匹配很重要，并且这样做可以避免试错策略。尽管如此，针对不同年龄组的机器学习研究相对有限。在儿童和青少年精神病学中，这种研究差距尤为明显，但也有一些值得注意的例外。在ADHD中，已经进行了初步研究，使用临床和人口统计学数据预测哌甲酯症状缓解，并使用多种数据类型(认知、遗传和神经成像)预测睡眠副作用，具有很高的准确度(> 80%)。在其他情况中，有研究对638名早发性精神病儿童样本的EHRs预测治疗失败进行了感兴趣的分析，证明了使用自动收集的措施作为正常临床常规方法一部分的可能性。对于自闭症，新的机器学习协议也在机器人辅助治疗中进行了试验，并使用增强现实设备与机器学习增强功能进行了配对。

　　回顾儿童和青少年精神病学中的转换机器学习领域，我们发现越来越多的人尝试用新的方法和数据来源来帮助诊断、预后和治疗选择。虽然传统数据类型使用最广泛，如问卷调查和神经成像，但该领域展示了各种日益可用的数据类型的新兴用途，这些数据类型利用了多层次的临床信息()。美国食品药品监督管理局(FDA)已经批准了一种用于自闭症诊断的工具，这是医学各个领域越来越多的人工智能工具的批准之一。当与该领域更广泛的出版物呈指数级增长的现象相结合时，这种监管应用表明，实现的时间可能比以前想象的更近。这些工具被临床使用的前景凸显了了解用于生成上述模型的方法的必要性，同时也承认其局限性。

　　不能假设样本量与传统统计预测方法中与每个变量的事件相关的要求相匹配，这通常需要使用先验假设驱动的方法来约简特征集。这些方法是为简单的统计模型设计的，例如COX回归，而不是考虑上面讨论的它们的正则化形式或大多数其他机器学习算法。在机器学习中，为稍后的转换定义最佳样本大小仍然是一个悬而未决的问题，这最终将与所使用的特定方法联系在一起，并很可能使用模拟方法进行经验评估。

　　在缺乏推理统计的简单经验法则的情况下，然而，这种方法的有效性取决于它所使用的样本的代表性。例如，如果样本来自单一地点(例如，一家医院)，或包含精心挑选的病例的同质亚组，则该样本特征过拟合的可能性很高。荟萃分析和模拟研究一致证明，尽管进行了交叉验证，但样本量较小（例如，<200 例）或不具代表性的样本情况会导致预测准确性过高以及过拟合。这对于深度学习（Box 2）尤为重要，因为计算机处理需求有时无法执行最佳交叉验证方案（例如，k 折）。在本文中，在使用新数据类型(例如原始视频)的高度实验性试点研究中，发现了夸大的内部验证估计，这些研究报告了不切实际的高准确性(例如>90%和高达100%的准确性)，并且在使用调查问卷和神经成像等已建立的数据类型时也可能存在这种问题。在阅读机器学习文献时，这些样本通常也很小(n < 200)，但最终所需个体数量的答案取决于研究的基本原理、目标、方法、数据和结论。如果研究是实验性的（例如，人机交互），或者普遍性的要求是最少的，则可以限制受试者数量以显示可用于设计更大研究的概念验证结果。阻止这项研究也会阻碍该领域的创新，这种创新可能是最有前途的解决方案。然而，如果有更广泛的可推广性或临床效用声明，则有必要注意该领域中荟萃分析与样本量的关系，

　　然而，为了评估外部验证和最终转换的可能性，需要考虑内部交叉验证的鲁棒性和质量。精神病学内部交叉验证中最常见的错误是，在样本中使用传统方法(例如t检验)根据目标变量选择特征，然后在交叉验证过程中分别使用它们去预测，例如，在初始成对比较的基础上选择大脑区域或问卷项目，然后仅将这些变量转发到交叉验证的机器学习流程。这种“双重浸渍”是训练样本和测试样本之间严重信息泄漏的一个例子，这会导致无效和过拟合的结果。在儿童和青少年神经成像领域，由于这一问题和其他问题，结论存在广泛的循环性，并且这种结论在其他数据领域也可能存在，因此在评估仅经过内部验证的结果时需要谨慎。出于这个原因和其他相似原因，

　　第二个需要考虑的问题是评估内部交叉验证程序本身。研究表明，排除一个病例的交叉验证会导致对新病例的真正泛化性的夸大估计。虽然k折交叉验证可以降低这种可能性，但需要设计可以为个别预测提供不确定度测量的方法，以确定稳定性(例如，精度估计的标准偏差)。因此，有必要应用重复(最好是嵌套)设计等方案，以便更彻底地测试预测能力，并提供准确的集中趋势测量(即，平均值或中位数)，以及方差测量。在重复的嵌套交叉验证中使用保留一个站点设计的研究就是一个例子，

　　尽管采用了交叉验证设计，在这种情况下，评估结果提供的跨样本的泛化程度仍然很重要。在另一个高度相似的，不具代表性的样本中进行外部验证，该样本在地理或文化上与发现样本非常接近，显然限制了超越这些样本对一般人群的泛化主张。然而，最终，正如这篇综述所表明的那样，监管机构批准很可能需要多位点前瞻性临床试验(例如，自闭症的Cognoa诊断工具;)。

　　大量的综述表明，虽然这些技术被用于临床实践，并可能成为未来转换机器学习方法的一部分，但在实施方面存在挑战，如成本、临床访问和患者负担。由于有负担较轻的替代方法(例如，问卷调查)，联合方法可能是最有益的。突出这一点的一个很好的例子是神经成像领域的第一场机器学习比赛，旨在对患有多动症的个体进行分类。虽然多种策略产生了有希望的分类准确性，但总的来说，获胜的策略只是简单地使用了人口统计细节和情报测量。这一结果反映了现实生活中的临床工作流程，只有在临床有指示时才进行繁重的新测试(例如，如果怀疑有肿瘤，就进行脑部扫描)，这些发现突出了序列临床流程的潜在重要性，只有在统计上表明每个个体有统计学意义时才建议进行新测试。临床应用领域的未来方向还可能涉及易于进行并在家庭环境中进行的评估，并且可以专门为儿童和青少年量身定制（例如，玩电子游戏）。除了对实施挑战进行更全面的评估外，净效益分析也将是有益的。

　　正如其他评论中所详细描述的那样，需要考虑模型泛化的主要伦理问题。一个核心问题与泛化科学中对特定种族、文化或性别群体的偏见有关，因为训练样本中缺乏多样性或者缺乏对算法偏差的适当评估。如果机器从人口的大多数群体中学习，那么它可能会在少数群体中犯错误，因此，应该在模型部署之前进行调查，并且做出相应说明。在医学领域，机器学习偏见已经在强调现实世界负面后果的批判性研究中被证明存在种族差异和性别差异。然而，在这种情况下，还必须注意，，正如精确基因组学和神经影像学中 Framingham 风险评分中存在伦理问题的偏见所证明的那样。因此，在任何声称具有转换潜力的科学中，尤其是在机器学习等高度转换的领域，都必须仔细考虑偏见。第二个主要问题涉及预后以及提供预测是否符合伦理，因为预测可能产生医源性影响，尤其是对于精神疾病。合并后，对于精神病学以及人工智能解决方案更接近广泛部署的其他医学领域，需要考虑对伦理监督和治理的持续关注。

　　机器学习是否会改变医疗保健的问题自该技术问世以来就一直存在，现在仍然是一个悬而未决的问题。然而，这篇评论表明，这个未来可能比以前想象的更近了。为了促进该方法的持续进展，未来的研究可能涉及解决上述局限性，以促进合作研究，并投资于与儿童和青少年精神病学具体相关的机器学习研究方向。

　　不涉及计算机编程技能的标准统计工具（例如 SPSS）不能用于许多机器学习任务，迄今为止的大多数研究都是使用编程语言进行的。研究人员使用的主要编程语言存在多个工具箱，例如用于 Python 的 scikit-learn ()，R语言 ()，或MATLAB的机器学习包 (），以及深度学习专用工具，例如 Keras ()。除了提供类似用户的社区并促进代码透明化外，这些工具还可以更方便，灵活和创造性地实施机器学习方法。然而，针对该领域的新研究人员或编码经验很少的研究人员的程序包的局限性在于，代码的灵活性可能导致流程开发中的错误，并可能阻碍与没有编码经验的研究人员共享模型——也就是说,

　　为了促进不需要编码经验并提供标准化流程的机器学习分析，有专门为精神病学领域开发的工具，例如PRoNTO和NeuroMiner（）。这些工具提供图形用户界面，允许用户输入数据和设计分析（即类似于 SPSS）。此外，深度学习工具PHOTON是由精神病学研究人员开发的一种用于减轻编程负担的工具（）。使用精神病学机器学习软件的好处是它们可以更好地针对遇到的一些主要问题进行定制；但除此之外，它们还提高了分析的透明度和可重复性，因为已经建立了基本的流程和操作（例如，建立交叉验证流程）。一旦使用具有图形用户界面的编程语言或软件创建了算法，就需要将它们提供给其他研究人员，以便将它们应用于他们自己的数据。对于机器学习模型，这是非常具有挑战性的，因为可能存在数千个来自交叉验证方案的模型代表分析流程，这些流程将密集数据转换为有意义的预测。通过将软件工具与模型共享和应用的在线平台相结合（例如，参见 www.proniapredictors.eu 或），未来的研究将受益于允许广泛的推广测试所需的临床应用和最终的临床部署。

　　未来的机器学习分析将越来越依赖于通过聚合和联合分析来共享数据。例如，本文中概述的聚合数据库(例如，ADHD-200或ABIDE)使来自不同学科的分析师团体能够贡献大量研究并测试跨研究地点模型的泛化性。具体来说，25% (n = 22)的自闭症神经影像学研究来自于ABIDE群组，58% (n = 35)的ADHD影像学研究来自于ADHD-200知识库，该知识库自首次发布以来一直在不断增加。在数据无法共享的情况下，将需要有资金支持的倡议，以促进研究和联盟之间的现实合作—最好是跨不同国家(例如SCZ-AMP NIMH倡议)。这些努力可能涉及跨模式的集中式数据聚合，(例如，ViPAR)；或者在本地构建，然后只组合模型参数(例如，DataShield)。为了支持这些工作，需要在软件开发方面进行进一步的投资，以增强现有的解决方案，并朝着更广泛的采用方向发展。

　　综述中一个值得注意的方面是认识到建议跨学科之间的交叉对话。例如，尽管多动症的诊断部分是基于行为标准问卷技术，但、视频或运动评估还没有被广泛研究，这一部分可以从自闭症研究中借鉴。尽管有很大的需求，但在多动症和自闭症领域的预后预测方面的研究也很有限，因此可以从精神病和抑郁症文献中采用多模态评估技术来预测结果。同样，对症状的预测在各个领域都很重要，但最常用于抑郁症的研究，这些方法可以转移到不同的领域。各领域普遍存在的一个严重缺失的内容是治疗选择和结果方面，鉴于提供更多个性化治疗建议的至关重要性，这需要进一步的工作展开。所有领域也可以从发布大型公共数据库和鼓励通过竞赛的方式（例如 ADHD-200 和 ABIDE）使用它们的生产力来学习。

　　未来机器学习程序的一个令人兴奋的愿景可能涉及多个连续步骤，实现具有成本效益的临床和生物学评估序列，以最大限度地提高预测能力和临床效用。有研究使用了问卷调查和认知数据；有研究包含了遗传学，问卷调查和认知三种模态的数据。最终，值得注意的是，FDA批准的儿童和青少年精神病学的唯一工具涉及多个评估数据的汇总。在这一领域的进一步研究将有助于进一步推动转换领域的发展。

　　就机器学习方法而言，对于儿童和青少年精神病学，一个值得注意的领域是规范建模。这种机器学习技术绘制了与正常发育的偏差，以便使用与生长图大致相同的方式描述异常。因此，例如，同样，尽管无监督学习在其他医学领域已经成功地基于大脑模式、临床数据和多模态数据来识别成年人的亚群，但对于该方法的研究目前也很有限。因此无监督学习也需要进行进一步的研究，例如，建立在儿童研究的基础上，以确定自闭症的行为表型，来解决与诊断异质性相关的问题。还建议在诊断之间进行迁移学习，以确定该领域是否可以利用组合数据集来解决特定问题(例如，预后)。

　　精神病学的转换机器学习是一种范式，试图使用计算机将数据转换为可操作的临床信息。这些算法方法旨在从基于问卷测量的假设驱动的特征集到非结构化的EHR记录或生物数据的数据中产生最佳的可概括的预测。在儿童和青少年精神病学中，该技术越来越多地应用于诊断、预后和治疗选择的目的，其中一种工具已获得FDA批准。在达到金标准验证水平并解决伦理问题之前，需要对转换潜力保持谨慎，这可以通过与旨在使用统计方法预测直接协助临床护理的研究小组之间的进一步合作来促进(Box 4)。尽管采用了具体的技术，但这一范式很可能对一个刚刚开始将统计关联转换为个体患者可操作的临床决策的领域产生持久的影响。

　　想象一个临床医生看到Box 1中的同一个青少年，他可能有精神病的风险。与其求助于文献或指南来了解基于群体的风险概况，临床医生知道算法工具可以用作决策助手。然后，他们在平板电脑上进行针对性别的筛选测试，其中包括少量问题。在评估之前，青少年及其家人还在他们的智能手机上完成了简短的问卷调查。在临床医生的常规临床评估中，使用机器学习算法实时自动组合和分析数据，以生成一份直观的报告，以不确定的边缘量化青少年患精神病的风险，建议进一步评估以增加预测的确定性，并根据他们的具体情况指示成功的治疗方案。随后，临床医生将这些信息与他们更广泛的评估相结合，将其纳入他们的临床报告，并最终能够制定一个有针对性的临床计划，以延迟和预防可能的精神病进程。

　　为儿童和青少年提供个性化的建议对他们的发展至关重要。

　　传统的统计技术还没有转换为临床应用，以促进临床护理的变化。

　　机器学习方法可能有助于为诊断、预后和治疗提供个性化的建议。

　　这些方法的特点是灵活的算法流程，解决了传统统计方法的局限性，旨在提供最准确和可推广的数据拟合。

　　目前基于儿童和青少年精神病学中的机器学习方法使用了广泛的数据类型，相关研究呈指数级增长。

　　具体的研究证明了这些技术在转换方面的潜力，国家医疗监管机构已经批准了一种用于自闭症的机器学习工具。

　　目前需要考虑技术的局限性，未来的方向将受益于合作研究的共同努力。