文荟谭┃爱丁堡产后抑郁量表用于孕产妇抑郁症筛查的准确性研究：系统评价和荟萃分析

时间：2023-02-26

　　导读

　　在2017年榆林事件以后，大家开始关注了孕产妇抑郁症这个话题，无痛分娩中国行也将2019年命名成了“孕产妇抑郁症年”。之前，我们非常有幸看到北京大学附属第一医院有关分娩镇痛与产后抑郁症的研究文章[文荟谭│无痛分娩能减少产后抑郁、产后自杀吗？]，开始接触到爱丁堡产后抑郁量表。然而，一系列具体的问题浮出水面：英文翻译过来的量表对中国的孕产妇有用吗？截断值选在哪一点？产后抑郁量表能用在产前吗？筛查阳性就意味着抑郁症了吗？产后抑郁量表对城市和农村妇女有别吗？抑郁、抑郁症、重性抑郁症、重性抑郁发作、产前抑郁症、产后抑郁症，这些眼花缭乱的专业名词有什么区别？这篇文章的荟萃分析怎么和以往用森林图的有什么不一样？

　　文荟谭│无痛分娩能减少产后抑郁、产后自杀吗？

　　希望通过这篇研读，不但能够帮助大家解决这些困扰，而且让我们学习到如何开发和完善一个筛查/诊断工具，了解参考标准及其它们的差异对研究的对象工具敏感性与特异性的影响。这有助于充分理解筛查工具与诊断工具之间的差别。

　　胡灵群2021.4

　　美国俄亥俄州立大学韦克斯纳医疗中心麻醉科

　　NPLD-GHI Journal Club 2021年4月文献评判

　　Brooke Levis et al. Accuracy of the Edinburgh Postnatal Depression Scale (EPDS) for screening to detect major depression among pregnant and postpartum women： systematic review and meta-analysis of individual participant data.BMJ. 11 November，2020.

　　文章摘要

　　【标题】爱丁堡产后抑郁量表用于孕产妇抑郁症筛查的准确性研究：系统评价和荟萃分析

　　背景：

　　评估爱丁堡产后抑郁量表（Edinburgh Postnatal Depression Scale，EPDS）筛查孕产妇抑郁症。

　　方法：

　　个体参与者数据的荟萃分析。

　　数据源：Medline、Medline In-Process、Other Non-Indexed Citations、PsycINFO及Web of Science

　　截止日期：2018年10月3日

　　结果：

　　从83项符合条件的研究中选用了58项进行了个体参与者数据荟萃分析。一共包含15557名参与个体，2069名患有抑郁症的患者。爱丁堡评分截断值≥11时能够使诊断抑郁症的敏感性和特异性达到综合最佳值。在半结构化面谈为方法的研究中(36项研究，9066名参与者，1330名患抑郁症)，爱丁堡评分的敏感性和特异性，在截断值≥10时分别为0.85 (95%CI: 0.79-0.9)和0.84 (95%CI: 0.79-0.88)；截断值在≥11时分别为0.81 (95%CI: 0.77-0.87)和0.88 (95%CI：0.85-0.91)；断截值≥13时，分别为0.66 (95%CI: 0.58-0.74)和0.95 (95%CI: 0.92-0.96)。在其他参考标准和亚组中，准确度相似。

　　结论：

　　爱丁堡评分≥11时，诊断抑郁症的敏感性和特异性两者综合能取得最佳值。≥13时敏感性下降而特异性上升。采用≥13为截断值有利于识别伴有严重症状的孕产妇，如果为了避免假阴性提高其敏感性(比如，作为筛选)，可采用较低的截断值。

　　文献评判

　　1.评判标准

　　西北大学芬堡医学院麻醉科

　　医学论文质量评分表(改良版)

　　评定项目(每项评分0～2分，总分：20分)

　　1 问题和假设

　　2 伦理研究委员会和知情同意

　　3 研究设计方法，随机的方法

　　4 研究对象：入选标准，排除标准，人群描写指标

　　5 主要临床指标，次要临床指标

　　6 标本量计算，统计的α值(P值)

　　7 统计方法的合理性

　　8 研究的局限性

　　9 讨论的逻辑性和结论的客观性

　　10 实际临床意义，直接临床结局相关的

　　2.文献相关内容摘要及其质量评价评分

　　评

　　19分

　　文章：

　　爱丁堡产后抑郁量表用于孕产妇抑郁症筛查的准确性研究：系统评价和荟萃分析

　　评分标准(0～20分)

　　2分

　　1,评定项目：问题和假设

　　评分标准(0～2分)

　　背景

　　孕产妇抑郁症比较常见，与母体、发育中的宝宝的不良结局有关，且影响母儿及性伴侣间的关系和谐。通过筛查可能及时发现和处理围产期抑郁。抑郁症的筛查包括用自我症状评估量表找出预定断截值以上的孕产妇，确认需要进一步评估与诊断的病患。英国国家健康和保健医学研究所（National Institute for Health and Care Excellence，NICE）指南建议，医务人员需询问两个Whooley问题（抑郁初筛问题），对于可疑抑郁症孕产妇，再用爱丁堡产后抑郁量表（Edinburgh Postnatal Depression Scale，EPDS）或患者健康问卷9（Patient Health Questionnaire-9 ，PHQ-9）做进一步的抑郁症评估。该指南并不推荐对所有孕产妇进行常规筛查。英国国家筛查委员会（National Screening Committee，NSC）及加拿大预防保健工作小组（Canadian Task Force on Preventive Health Care）不主张筛查，因顾虑筛查的假阳性、潜在的伤害，也缺乏强有力的证据支持筛查可改善病患心理健康。然而，美国预防保健工作小组（United States Preventive Services Task Force，USPSTF）及澳洲国家指南推荐孕产妇的筛查。USPSTF也注意到筛查需要在合适体系下才能确保准确的诊断，有效的治疗，及时的随访。抑郁筛查也在中低等收入国家提倡实施，但是否能在这些地方改善孕产妇心理健康尚未明确。

　　爱丁堡产后抑郁量表一共含有10项内容，是最常用的围产期抑郁筛查工具；最常用的截断值为≥10及≥13。美国方面建议采用EPDS对孕产妇进行常规筛查，但不建议设定截断值。一项支持USPSTF指南的系统综述中纳入的23项临床研究结果显示，筛查抑郁症的准确范围大致在EPDS截断值≥10（一项研究）和≥13（17项研究），但并不包含一个荟萃分析。一项搜索截止至2007年2月的现有荟萃分析研究结果显示，在筛查产后抑郁症的总共18项研究中，将EPDS评估截断值设为≥12可使综合敏感性和特异性最大化（敏感性0.86，特异性0.87，15项研究），优于截断值≥10（敏感性0.92，特异性0.77，14项研究），和≥13（敏感性0.79，特异性0.89，18项研究）。有关孕产妇的筛查，因为研究报告数目较少，该文章没有综合这些研究的结果，对产后妇女的筛查也因为数据收集不完整而没有实施亚组分析。尽管可能在研究设计与结构、诊断访谈方式、抑郁症诊断参照标准等方面有所不同，研究中的计算并没有因此按照不同的参考标准区分开来。因此，合适的截断值还是个未知数，且不同人群是否需要不同的截断值也有待确定。

　　传统的荟萃分析是将各个研究报告结果进行合并分析，而个体参与者数据荟萃分析（individual participant data meta-analysis ，IPDMA）来源于对各个原始研究的个体数据进行合成分析。IPDMA的优点是可将收集的EPDS和不同参考标准的研究数据纳入分析，而不只是发表一个筛选参照标准精确性的结果；所有纳入研究分析得出的截断值均可用以参考，而非只限于已发表公认的截断值；用原始研究数据也可进行分组分析；对于参考标准不同的研究分开分析而获得对应参照标准精确性的结果。

　　此研究的目的是采用IPDMA来评估EPDS工具在使用不同的参考标准研究中筛查出抑郁症的准确性，半结构化的面谈方式优先；并研究EPDS筛查的准确性是否会因在孕期或者产后、不同的年龄、及不同国家人类发展指数（human development index）的差异而有所不同。

　　2分

　　2,评定项目：伦理研究委员会和知情同意

　　评分标准(0～2分)

　　该IPDMA已于PROSPERO注册，编号为CRD42015024785。

　　2分

　　3,评定项目：研究设计随机方法

　　评分标准(0～2分)

　　本文作者采用以往发表的“患者健康问卷9（PHQ-9）诊断的准确性：个体参与者数据荟萃分析(IPDMA)”中的类似方法，流程中描述的个体预测模型用于将来数据库版本的开发。流程中的偏差包括，搜索是从数据库建立之时而非2000年；基于小样本研究并涉及多个时间点，对任何一个参与者曾有过的多次评估时间点，只纳入单点时间；研究报告所取的截断值在7-15区段而非9-15区段。

　　数据库搜索与研究的纳入

　　医学图书员设计一个同行审阅搜寻策略(eMethods1见附件)，通过OvidSP搜索了Medline、Medline In-Process and Other Non-Indexed Citations、PsycINFO，通过ISI Web of Knowledge 搜寻了Web of Science，截止至2018年10月3日的研究。此外，研究人员也搜索了相关的综述及尚未发表的研究结果。

　　两名评阅人分开独立评阅标题与摘要。任何一名评阅者认为某一篇可行，则分开对全文进行评阅。存在争议时，一起讨论达成共识，必要时由第三名审阅者介入。

　　数据的提供、提取与合成

　　本文两名研究人员分别从发表的论文中提取诊断访谈及研究国家的信息。根据研究发表年度的联合国人类发展指数，即平均寿命、教育与收入等数据，本文作者将国家分为极高、高或中低发展水平。参与者水平数据整合至合成数据源，包括年龄、妊娠状态、EPDS评分及抑郁症分类状态。本文作者根据DSM或ICD诊断标准把抑郁症分类为重性抑郁障碍或重性抑郁发作；若两者并存，则使用重性抑郁发作，因为筛查目的是为了发现抑郁发作期。如果需要鉴别抑郁发作是源于重性抑郁障碍，还是其他精神疾病（双相障碍、持续性抑郁障碍），则需做进一步评估。本文作者还先使用DSM标准，再使用ICD。如果资料取样时有加权，我们就采用相应的统计加权，例如，有些原始研究对筛查结果阳性者全部给予诊断性访谈，但对筛查结果阴性者只做随机访谈。有些研究取样步骤理应加权而没有加权。本文作者对于这些研究采用了逆选择概率予以适当的加权。

　　本文作者对每项研究的参与者特征及准确性从那些已经发表的数据中予以核实。若发现有出入，则通过与原研究者沟通予以澄清和解决。所有研究及个体数据整理转化成一个统一格式的数据源。有9项研究的数据搜集源于多个时间点（4项研究为2个时间点，4项有3个时间点，1项有4个时间点），我们选择参与者最多的那个时间点。如果存在多个时间点参与者均满员的情况，我们则选择诊断抑郁症患者最多的那个时间点。

　　2分

　　4,评定项目：研究对象：入选标准，排除标准，人群描写指标评分标准(0～2分)

　　入选研究标准：

　　数据源满足以下标准的视为合格研究：采用EPDS工具的；采用《精神障碍诊断与统计手册》（DSM）或国际疾病分类（ICD）标准，经由认证过的半结构化或全结构化面谈诊断为重性抑郁障碍或重性抑郁发作；EPDS与诊断面谈实施间隔时间≤2周的；年龄≥18岁妇女在孕期或产后的12周内完成评估的；排除正在接受精神疾病评估与治疗，或因疑似抑郁症者而实施筛选的。有些研究中的一些参与者不符合入选标准，要是原始数据中有合规受试者，这样的研究也归入IPDMA中。

　　2分

　　5,评定项目：主要临床指标，次要临床指标

　　评分标准(0～2分)

　　不同截断值标准下EPDS的敏感性和特异性

　　不同亚组间EPDS的精确性

　　2分

　　6,评定项目：标本量计算，统计的α值(P值)

　　评分标准(0～2分)

　　我们从数据库搜索出4434份初选合格的标题及摘要，4056份在初审后排除，257篇在复阅全文后排除，余下符合标准的121篇研究共计81个数据样本。其中56篇（69%）能提供EPDS研究的原始数据，加上2篇没有搜寻到作者的，共58个数据源，15557名参与者，2069例抑郁症。

　　58项纳入分析的研究中，25项纳入对象为孕妇，30项为产后妇女，3项两者兼有。36项研究采用了半结构化参考标准，其中34项使用了SCID（Structured Clinical Interview for DSM Disorders）；4项采用了全结构化参考标准，MINI（Mini-International Neuropsychiatric Interview）除外，其中3项用了CIDI（Composite International Diagnostic Interview）；18项使用的是MINI。

　　2分

　　7,评定项目：统计方法合理性

　　评分标准(0～2分)

　　统计分析

　　通过三个参考标准，以截断值7-15来分别预计敏感性和特异性。参考标准包括半结构化面谈（SCID、Clinical Interview Schedule、Diagnostic Interview for Genetic Studies），除外Mini 、CIDI、Clinical Interview Schedule-Revised的全结构化面谈，以及MINI。参照不同的参考标准对研究结果分开分析，因为作者先前发现，就抑郁症状轻重程度而言，MINI评估的抑郁程度较其他方法为重，而CIDI则相反。这些发现与不同的诊断面谈的设计也是一致的。半结构化的访谈往往由具有丰富诊断经验的医生实施，可以综合调查、问询及临床判断。全结构化面谈是通过整体“照章办事”，可由经培训后的普通面试人实施，需要的资源少。在设计上，全结构化面谈意在更加标准化，但以降低有效性为代价。MINI是简易版全结构化面谈，形式简单，实施起来快，但容易过度诊断。

　　当采取截断值7-15之间，对每个参考标准分别使用Gauss- Hermite正交分析，本研究符合二变量随机效应模型。此方法为两阶段荟萃分析，在建立敏感性与特异性模型的同时，也建立两者间的关联性，估算了每个研究精度（即聚类算法）。这种模型可提供对各个研究敏感性与特异性的整体估算。在全结构化亚组中的4个研究中，其中1个研究仅有1名抑郁症患者。对于该亚组，作者对二变量模型予以调整，将随机效应间的关联设置为0，并将该研究中仅有的1名抑郁症去除。这也就有了只分析了3个研究估算敏感性，而有4个研究计算特异性的不对等情况。

　　基于整体敏感性与特异性估算，建立实证性受试者工作特征曲线（receiver operating characteristic curves，ROC），计算出每种参考标准的曲线下面积（area under the curves， AUC）。此外，对参考标准种类（半结构化）、精度系数（敏感性的对数）及Logit（1-特异性）间的关联性实施一阶段荟萃（Meta）回归分析。制作出列线图来呈现最佳截断值(Youden’s J=sensitivity+specificity?1)的阳性和阴性预计值，≥10或≥13作为截断值时假定抑郁率为5%-25%。

　　通过对每项研究的最佳截断值及截断值为≥10与≥13绘制出敏感性和特异性森林图，来评估每个参考标准种类的异质性。通过估算敏感性和特异性随机效应的方差，推算R（随机效应模型与对应固定效应模型总敏感性或特异性标准差的比值）对异质性定量。

　　对半结构化访谈及参照MINI标准的组别分别实行了单阶段荟萃（Meta）回归分析。所有参与者特征（年龄-为连续变量、妊娠期与产后状态-以妊娠为参考点，及国家人类发展指数-以最高为参考点）通过敏感性与1-特异性被纳入回归交互。采用全结构化访谈因研究数太少而没有使用Meta回归分析。对年度研究发表结果实施了事后分析，即额外附加了单阶段Meta回归分析。在Meta回归分析中没有遗漏任何参与个体的协变量信息。由于意在同时评估所有参与个体的特征信息的各种模型不能混用，本研究对各种特征逐一加以评估。

　　当在荟萃回归分析中出现所有或大部分截断值参与者特征与敏感性或特异性统计学相关时，作者在每亚组分析中使用了截断值7～15区间，实施二变量（是与非）随机效应模型分析。采用连续性变量Meta回归分析的年龄，在估算亚组准确性则采用二分法（＜25 比 ≥25岁）。因为不能采用二变量随机效应模型，在分析年龄＜25岁亚组时，排除了没有抑郁症参与者的4项半结构化研究及4项MINI研究。因此，小于25岁的21名（1%）和77名（9%）参与者分别从半结构化研究与MINI研究被剔除。

　　在分析半结构化和MINI参考标准敏感性时，作者基于QUADAS-2 评分（用于诊断准确性研究质量评估的工具），分别实施了额外的Meta回归分析。在低偏倚风险的100多名抑郁症与高或未知偏倚风险的100名无抑郁症参与者中，将QUADAS-2 分值与敏感性及1-特异性进行了交互分析，并再次对特征进行逐项评估。作者对EPDS截断值从10～13的研究，通过结合IPDMA精确性结果与那些并未纳入个体参与者数据但已发表达标的精确度结果的研究，进行了附加的敏感性分析。

　　所有分析采用glmer函数在R的IME4版本（R version R 3.4.1, R Studio version 1.0.143）中运行。

　　2分

　　8,评定项目：研究局限性(原文自评)

　　评分标准(0～2分)

　　局限性

　　首先，在发表的83篇符合标准的数据源中的25篇符合纳入条件，但因无法获得原始数据而没有将他们整合到目前分析中去，幸好这些文章的结论与本文的结果并无冲突。其次，各研究间数据存在中等程度的异质性。第三，因为数据量的限制，本文作者无法就国家或语言等文化问题，或妊娠三期或产后情况进行亚组分析。作者分析国家人类发展指数后并未发现其有显著的差异，不过只有极少数研究来自于低中收入国家。最后，由于访谈并不一定按照预定的方式进行，当本研究按此分类时，考虑评估偏倚风险，并且1/3的研究访谈方式并不明确。

　　2分

　　9,评定项目：讨论的逻辑性和结论的客观性

　　评分标准(0～2分)

　　主要结果

　　本研究的主要结果显示，在不同参考标准下，将截断值定为≥11时的敏感性和特异性整体上最佳。几乎类同于由精神病科医生进行临床诊断的半结构化访谈，当截断值设为≥11时的敏感性和特异性分别为81%和88%。根据本文研究，筛查抑郁常用截断值，≥10或≥13，前者的敏感性和特异性分别为85%和84%，后者的分别为66%和95%。精确度并未因不同的参考标准、是否分娩而不同，这类似于其他研究，与参与者个体的特征关系不大。

　　与其他研究的比较

　　本荟萃分析表明，采用EPDS截断值11时达到敏感性和特异性整体最佳值，比目前最普遍使用的13或12都低，而以往EPDS荟萃分析结果显示截断值12时达到敏感性和特异性整体最佳值。基于半结构化参考标准的研究显示，在本次IPDMA的研究中，EPDS截断值在10与13间的敏感性较既往的荟萃分析低6%～13%，而特异性高了4%～7%。本次IPDMA研究与既往的荟萃分析结果的不同，可能因为IPDMA纳入了58项原始数据，其中包括36项采用半结构化参考标准，而后者仅21项采用其他各种原始数据。此外，目前的荟萃分析纳入了所有截断值研究的数据，而以前的荟萃分析仅限于发表了的文章，并针对不同的截断值进行不同系列的研究来评估其精确性。

　　1分

　　10,评定项目：实际临床意义，直接临床结局相关的评分标准(0～2分)

　　意义

　　几大国际抑郁症筛查推荐指引各异，需要进一步高质量的临床试验来证明筛查是否可以改善母体心理健康状态或其他重要的临床结局，比如儿童发育及家庭相关结局。本研究发现，EPDS的截断值定为≥11时，整体敏感性及特异性最佳。临床实践或临床试验根据敏感性或特异性侧重面不一样，可采用其他的截断值。如果旨在发现严重的抑郁症状患者，使用较高的截断值。相反，若为了避免假阴性、不漏诊抑郁症患者，则需要使用较低的截断值。各位采用EPDS筛查抑郁的同仁们，可以参考作者根据本文的IPDMA制作的线上工具(depressionscreening100.com/epds)，预测筛查阳性的例数，及筛查结果的真假。

　　3.研究专业评判

　　点评项目

　　流行病学点评

　　点评人：王瑾

　　统计学点评点评人：Anna Huang

　　1.研究问题是否具有临床意义？

　　在美国1/8的产妇经历了产后抑郁症的症状。本研究系统评估和分析了爱丁堡产后抑郁量表EPDS，讨论了达到整体最佳敏感性和特异性截断值来应用到产后抑郁症的筛查诊断和研究中。

　　2.研究内容的先进性、可行性？

　　美国预防保健工作小组建议常规对产后抑郁症进行筛查，但是没有建议相应的诊断截断值。本研究使用个体参与者数据荟萃分析IPDMA来评估EPDS在使用不同的参考标准中筛查抑郁症或症状发作期的敏感性和特异性。进一步寻找最恰当的截断值。

　　3.试验设计的严谨性？

　　由于该荟萃分析中包括大量研究，能够捕获许多国家的大量数据点，研究设计非常合理也很严格。

　　4.研究方法的合理性？

　　研究使用了3个不同参照诊断筛查标准来估计EPDS在不同截断值的不同敏感性和特异性。通过聚类算法模型实现对合并敏感性与特异性的估算。

　　该方法的原理是合理的，并使用回顾性方法来了解EPDS对产后抑郁症的敏感性和特异性。人群特征变量也被计入回归评分，以判断它们对敏感性和特异性分析结果的影响，成为这项荟萃分析的一个亮点。

　　5.研究过程的质量控制？

　　如前所述，无法使用EPDS检测各个国家和种族/族裔群体之间的文化因素是该研究的局限性。即使在一个国家内部，也可能存在人群或文化因素上的差异，如果将这些因素加以考虑，则会使分析更有说服力。

　　6.研究结果的可信度？

　　本研究使用IPDMA纳入了比以往更多的原始数据，合并了所有截断值研究的数据，且将各种参考标准分别计算。

　　这些发现非常可信，并且发现EPDS是初步诊断孕产妇抑郁症状的有用工具。但是，这个通过各个研究的整合的IPDMA与被认为是诊断的“黄金标准”的原始的IPDMA相比，似乎仍然存在着差距。

　　7.证据水平及原因？

　　文章讨论了EPDS的敏感性和特异性分别为81％和88％，这个估计值已经非常不错，但还有改进余地。尽管临床医生可以在实践中选择使用更高或更低的临界值，但还是建议使用恰当的方法访谈以明确抑郁症诊断，EPDS可以作为初步筛查工具。

　　8.临床是否采用？(与目前方案比较)

　　本研究发现，EPDS的截断值定为≥11时，结合敏感性及特异性最佳。可按需要调整不同敏感性或特异性，选调截断值。这一成果能帮助更有效地筛查和研究孕产妇抑郁症。

　　4.临床专科点评荟萃

　　精神科：

　　王丹昭(美国亚特兰大埃默里大学精神科)

　　非常感谢本研究的精神科同行将已经发表的相关数据整合起来，对爱丁堡产后抑郁量表的截断值进行了荟萃分析，从而得出根据参照标准特定的敏感性与特异性。在实际临床工作与研究中，混用专业名词会给读者带来很多困扰。在阅读本文以及其他相关文献中需要清晰地分别开来。以下将这些名词介绍一下，帮助大家理解这篇文章。

　　抑郁（Depressed mode）和抑郁症（Depression）

　　七情六欲，喜怒哀乐，人皆有之。抑郁是一种低落的情绪，属七情之一。我们在日常生活中遇到不顺心的事情，比如考试不及格，工作不顺心，和家人拌嘴，或身体不适等等，偶尔感到情绪低落是很正常的。但是如果在大多数时候感到难过，并且影响了日常生活和工作学习，则可能会出现临床抑郁症。

　　大家都知道体温升高是一个症状，“抑郁”也是一种情绪低落的症状，而非诊断，不要与“抑郁症”相混淆。很多精神性疾病都可以有抑郁症状，就像体温升高是感染性疾病的常见表现一样，并不是一个诊断。有很多人把“爱丁堡产后抑郁量表”阳性的就直接和抑郁症划等号是不确切的，而这一现象在非精神科医生参与的相关文献中，也并非罕见，例如，“爱丁堡产后抑郁症量表”（多了一个“症”）作为谷歌关键词就搜寻到了901条。

　　重性抑郁症（Major depression）

　　你可能会听到医生称之为“重性抑郁障碍 (major depressive disorder， MDD) ”，是最常见的一种抑郁症，也是我们平时常聊的那个“抑郁症”，被认为是经典抑郁症，也叫单相抑郁障碍（以示区别于下文所讲的双相障碍）。如果平日生活中的大多数时候（most of the time for most days of the week）都感到沮丧，心情郁闷，则很可能有重性抑郁障碍。其他症状包括丧失兴趣或享受感，焦虑，烦躁，毫无价值感，自尊心不足，负罪感，睡眠和食欲紊乱，身体疲倦，注意力不易集中等等，从而严重影响个人日常生活、学习和工作能力。最严重时，抑郁症可引致自杀。抑郁症又根据症状轻重，分轻度（Mild），中度（Moderate），重度（Severe）。时常看到将Major depression翻译成重度抑郁症（全称应该为“重性抑郁症”）是欠妥的。因为这样翻译回英文的全称就变成了severe major depression了。

　　重性抑郁发作（Major depressive episode）

　　抑郁症患者可以一生仅仅经历一次重性抑郁症状发作的病程，经过治愈康复后，终身不再复发。但也可能症状长期存在，或经常复发。每个发作期称为重性抑郁发作。

　　双相障碍（Bipolar disorder）

　　以前称为“躁郁症”或“躁狂抑郁症”。虽然双相障碍和重性（单相）抑郁障碍是两个不同的疾病诊断，但双相患者在病程进展过程中会出现抑郁症。不同于仅有抑郁发作的重性抑郁障碍，双相障碍的情绪发作范围像”蹦极“一样，从情绪高涨的“躁狂期”到情绪低落的“抑郁期”之间跌宕起伏。当处于低潮时，会出现抑郁症状，临床上也属于重性抑郁发作。

　　除了重性抑郁症，常见的抑郁症还有以下2种：

　　持续性抑郁障碍（Persistent depressive disorder)

　　也称“恶劣心境” （Dysthmia）。抑郁症状较轻，但持续时间更长，通常至少持续2年以上。虽然持续性抑郁障碍的症状没有重性抑郁症那么强烈，仍可影响个人日常生活、学习和工作能力。

　　围产期抑郁症（孕产妇抑郁症）（Perinatal depression）

　　临床诊断上称为“重性抑郁障碍，伴围产期起病”，特指发生在怀孕期间或分娩后出现的抑郁症（产后抑郁症）。据统计，超过一半以上的产后抑郁症在怀孕期间就已经开始了。

　　精神科：

　　王超嵩(美国加利福尼亚大学旧金山医学院凯撒医疗集团精神科青少年专科)

　　这篇研究提供了一个非常重要的理念，我们平时使用的各种方法都有敏感性和特异性的问题，而不是想当然有用与否。爱丁堡产后抑郁量表是这样，文中提到了不少精神科的面试方法也是这样。因为一个方法的敏感性和特异性最终都需要通过和“金标准”的比较后，才能确定。因为精神病学科的诊断方法没有确切的实验室指标，而是采用面试结果判定。文中提到的一些方法其实相当于确诊的“金标准”。原以为“金标准”只有一个，因为精神病科学的特殊性，文章采用了多个“金标准”，这让我们习惯于只有一个“金标准”的医护人员在解读这篇文章时出现一些困扰。为了帮助大家理解，我把文中提到方法大概介绍一下。

　　Semi-structured interviews：半开放式结构化访谈是用与精神分裂症和情感疾病有关的信息，来记录病人的功能和精神病理状态，这个问诊也包括其他信息，如酗酒，酗毒，和性格疾病。由心理精神专业人员主持，需要接受培训才能胜任。

　　Fully structured interviews：全结构化访谈: 结构化的访谈标准化了临床咨询，诊断问题的排序以及基于标准的评分。对于广泛的临床环境，结构化访谈可以系统地评估患者状况的变化，来自多个来源的确证数据，间质和重测信度以及诊断有效性。本文概述了针对特定临床目的而量身定制的不同诊断性访谈的潜在用途。

　　SCID（Structured Clinical Interview for DSM Disorders）；“DSM － IV 临床定式访谈”:是一种半结构式以DSM-5为标准的问诊模式，有科研和临床等几个版本，由心理精神专家主持问诊，大约需要30到120分钟，可用于成人和青少年，有多种语言翻译。

　　CIDI（Composite International Diagnostic Interview）：复合性国际诊断访谈表: 世界卫生组织，美国酗酒酗毒治疗中心，和精卫健康强化检测中心联合制定的访谈问题，以便带出检测的项目。这是个全结构式的访谈模式，以便让非专业人士配合计算机一起运用。

　　MINI（Mini-International Neuropsychiatric Interview）：简明国际神经精神访谈:这是一个全结构性简短的访谈模式，由欧美精神科医生和其他临床医生共同订制的，以DSM 和ICD的精神疾病为基础，访谈时间大约15分钟。它的设计可做为非研究临床观察治疗效果的第一步。

　　Clinical Interview Schedule-Revised (CIS-R) ：诊断访谈量表修订版:在不同的文化背景下使用工具或问卷而没有适当的验证可能会导致结果不准确。在使用仪器时，应考虑可靠性，有效性，可行性和可接受性等问题。这项研究旨在确定CIS-R马来文版本在检测常见的精神健康问题中的有用性，以明确其有效性。 CIS-R工具（PROQSY *格式）通过反向翻译过程被翻译成马来语。为医学生的评估者建立了内部评估者可靠性。该研究的病例和对照是患者，外出患者以及陪同患者到诊所或拜访住院病人的精神病患者。马来文版CIS-R适用于所有病例和对照。精神科医生以SCID为指南对参与研究的所有病例和对照进行了精神病发病率评估。确定了CIS-R对精神科医生进行评估的特异性和敏感性。马来文版CIS-R在9分的情况下显示出100％的敏感性和96.15％的特异性。CIS-R可以作为在马来西亚人群中用于诊断常见精神障碍（例如抑郁症和焦虑症）的临床和研究用途的有用工具。

　　Diagnostic Interview for Genetic Studies (DIGS)：遗传研究问卷访谈:-台湾翻译，“遗传学诊断访谈”似乎更确切

　　遗传学诊断访谈的目的是记录有关受试者功能和心理病理的信息，主要重点是与情感障碍和精神分裂症研究有关的信息。访谈还涵盖了与许多其他状况相关的多种症状，例如酗酒，吸毒和人格障碍。访谈的组织和项目的覆盖范围旨在根据多种诊断标准得出进行诊断所需的信息。面试适用于先证者及其亲属的研究。它可以评估当前和过去的疾病发作。但是，它仅包括心理状态的部分检查（例如，修改后的迷你心理状态检查）。

　　5.知识点回顾

　　诊断试验和受试者工作特征曲线

　　胡灵群 - 美国俄亥俄州立大学韦克斯纳医疗中心麻醉科

　　李舰 - 九峰医疗首席数据科学家

　　诊断试验和受试者工作特征曲线(Receiver Operator Characteristic Curve, ROC)是本篇文荟谭统计学方面的主要知识点。这一知识点的敏感性和特异性（或灵敏度和特异度）已经在[文荟谭│广义产科合并症评分系统预测严重孕产妇并发症]一文有过详细介绍。我们也在[再回首｜产后神经麻痹要做肌电图吗？]中讲述了一个临床实际工作中的困扰。通过这些，期待大家对临床筛查工具和诊断工具的由来有进一步的认识，也明白这两种工具之间的差别。也期待大家对合理使用这些工具在避免过度医疗上的意义有深入的了解。更期待大家能明白这不是一件只和钱有关的事，而可能危及我们医护工作者的非同小可的问题。

　　文荟谭│广义产科合并症评分系统预测严重孕产妇并发症

　　再回首｜产后神经麻痹要做肌电图吗？

　　点击题目，即可查阅全文

　　本篇文章有两点可以供我们进一步深入了解的。

　　1）金标准问题：一项传统的诊断/筛查试验与金标准的比较所产生的受试者工作特征曲线及其相关概念只是最理想的办法。本文涉及到的是“金标准”的不确定问题。在做了爱丁堡产后抑郁量表筛查后，需要和被测群体在正式确定是否存在抑郁症后相比较。问题出在抑郁症的诊断标准（文章中使用了参考对照标准一词）就像我们诊断贫血血红蛋白值的实验方法（手工、生化、血气分析等）有好多种，我们需要确定“金标准”的变化对爱丁堡产后抑郁量表筛查中取值（截断值）的影响。本荟萃分析把这一因素考虑在内是非常有意义的。给我们很多临床研究打开了一个思路，比如，在不需要侵入法测量动脉压的人群，如何确定新的测压方法/部位是否准确？

　　2）荟萃分析问题：一提到荟萃分析大家都会联想到连续变量或非连续变量的森林图表达方式。这篇引入了合并率（pooled rate）和混合采样（pooling sampling）的概念[1]。这种办法希望通过合并多项类似研究的个体数据得出能更确切地描述一些临床现象的发生率或比值。本文将多个通过了筛选入围的临床研究的个体数据整合在一起，并通过一系列规则去除一些重复的或不符合条件的数据后，起到了“荟萃”的作用。听起来合并率或混合采样是个新概念，其实我们日常生活中一直在使用这个方法。这次新冠病毒流行各个地区或国家都有自己的感染发生率，全球感染率就是一个合并率。各地发生率的分子之和/分母之和就能计算获得。全球住院率、全球死亡率都类似。我们平时使用的平均发生率，其实就是这个概念。

　　参考文献：

　　1. Cowling DW, Gardner IA, Johnson WO. Comparison of methods for estimation of individual-level prevalence based on pooled samples. Preventive veterinary medicine. 1999 Apr 9;39(3):211-25.

　　动动手指，点击这里?

　　搜

　　中文引用｜方大俊，黄琴，王瑾，Anna Huang，王丹昭，王超嵩，刘宇燕，李舰，胡灵群. 文献评判┃爱丁堡产后抑郁量表用于孕产妇抑郁症筛查的准确性研究：系统评价和荟萃分析. J NPLD-GHI. 2021 Apr 2;9(4):2.

　　英文引用｜Fang DJ, Huang Q, Wang J, Anna Huang, Wang DZ, Wang CS, Liu YY, Li J, Hu LQ. Journal Club: Accuracy of the Edinburgh Postnatal Depression Scale(EPDS)for screening to detect major depression among pregnant and postpartum women：systematic review and meta analysis of individual participant. J NPLD-GHI. 2021 Apr 2;9(4):2.

　　欢迎投稿：16762530@qq.com

　　小编微信：y16262530

　　▼▼▼

　　特别感谢："无痛分娩中国行"战略合作伙伴

　　Journal of No Pain Labor & Delivery

　　- Global Health Initiative

　　（ISSN: 2475-711X）

　　无痛分娩中国行杂志

　　翻译：

　　方大俊(广州市妇女儿童医疗中心妇产科)

　　审稿：

　　黄琴(华中科技大学同济医学院附属协和医院康复科)

　　导读撰写：

　　胡灵群(美国俄亥俄州立大学韦克斯纳医疗中心麻醉科)

　　流行病学审稿：王瑾(美国圣路易斯大学感染内科)

　　统计学审稿：Anna Huang(美国哥伦比亚大学公共卫生学院)

　　临床专科审稿：

　　王丹昭(美国亚特兰大埃默里大学精神科)

　　王超嵩(美国加利福尼亚大学旧金山医学院凯撒医疗集团精神科青少年专科)

　　知识点回顾审稿：胡灵群，李舰

　　责任编辑：刘宇燕(美国新泽西医疗中心麻醉科)

　　主审：胡灵群(美国俄亥俄州立大学韦克斯纳医疗中心麻醉科)

　　执行编辑：杨书伟(阿普伽国际医疗)