优先发表基于影像组学构建识别临床高风险颈动脉斑块的机器学习模型

  颈动脉粥样硬化是 15%~20% 缺血性脑卒中的主要原因,并导致全球范围内死亡和残疾结局[]。既往临床研究[]中表明,确定斑块的组成对于识别高风险颈动脉斑块至关重要。目前主要应用的临床斑块病理概念包括斑块内出血(intraplaque hemorrhage,IPH)和富脂质坏死核心(lipid-rich necrotic core,LRNC)的诊断,这两者都是与颈动脉狭窄患者发生脑血管事件相关的高风险特征[-]。临床中基于斑块成像评估各种斑块成分需要一定的专业知识,这提高了诊断的复杂性,在本质上是一项定性且具有主观性的任务。影像组学可以从医学图像中提取和分析大量颈动脉斑块定量特征来进行稳定可重复的辅助诊断,而这些信息在正常肉眼观察影像时可能不明显[]。目前国内指南[]中颈动脉内膜切除术(carotid endarterectomy,CEA)推荐近期症状性患者的中度狭窄(>50%)为绝对指征,狭窄程度>60%的无症状颈动脉狭窄的患者为相对适应证。指南[]也建议有必要基于对具有特定临床特征或影像特征的患者亚组进行手术选择。同时近期的一项Meta分析[]也表明颈动脉狭窄程度对于卒中的预测不如颈动脉斑块特征更为有效。这表示依据狭窄程度来选择手术时机并不准确,因此尽早确定斑块的特征来明确高风险颈动脉斑块并进行积极临床干预,对避免不必要干预导致过度医疗或是干预不及时导致的脑卒中具有积极的临床意义。

  目前文献中对于颈动脉斑块的CTA 成像分割颈动脉斑块主要使用单一斑块层面分割,并使用不同的机器学习方法来处理影像组学数据。本研究中同时提取斑块常见部位近端颈内动脉、颈动脉分叉处以及颈总动脉远端斑块特征并对比多种机器学习算法建立稳定性和预测能力最佳的机器学习模型。试图对临床高风险颈动脉斑块做出积极有效预测,并尝试在影像组学的基础上,加入临床资料建立联合诊断模型,提高模型预测性能并泛化使用场景。

  回顾性收集中日友好医院2016年9月—2022年6月期间诊断为颈动脉狭窄/颈动脉斑块的患者临床资料、影像资料。基线临床特征来源于患者病历。研究对象排除标准:(1)基本临床资料缺失;(2)影像质量不符合要求;(3)非粥样硬化性颈动脉狭窄;(4)诊断为心源性卒中;(5)原发性颅内疾病;(6)双侧重度颈动脉狭窄。在影像数据中,排除不符合要求及复查重复影像后,将剩余资料纳入数据集,在临床数据中,排除大量缺失或诊断不明确患者后,将剩余资料纳入临床病例数据集。在医学影像数据集中排除关于影像本身或掩膜三维空间客观描述变量。在临床病例数据集中,对于连续性变量中的缺失值数量不超过10例的变量采取缺失值填补,缺失值数量超过10例的变量进行删除。对于缺失变量超过10个的单个病例进行删除。

  动脉粥样硬化性颈动脉狭窄患者于近6个月内出现视物模糊或暂时性失明、短暂性脑缺血发作(transient ischemic attack,TIA)、卒中等症状分类为临床高风险颈动脉斑块,仅有头晕、头痛或无任何明显症状定义为临床低风险颈动脉斑块[]。经典TIA被定义为持续不到24 h的异常局灶性神经功能缺损。完全性缺血性脑卒中表现为局灶性神经功能缺损突然发作,持续>24 h[]。

  患者基本信息中年龄、身高、体重为入院时记录,既往吸烟史、心脏病史、高血压史、血脂病史、抗凝药记录、高尿酸血症史、抗生素过敏史、肿瘤病史有无均记录为二分类变量。入院检查记录生化全项、血常规、凝血6项检验指标为连续型变量。对斑块数据集使用SPSS进行临床数据统计学分析。使用单变量K-S检验对连续性变量进行正态性检验,符合正态分布的变量用均数±标准差(±s)描述,组间比较采用独立样本t检验;非正态分布的变量使用中位数及上下四分位数[M(P25,P75)]描述,组间比较采用Mann-Whitney U检验。分类变量用频数和百分比(%)描述,组间比较采用χ2检验。首先采用单因素分析,将P≤0.05的临床变量纳入二元逻辑回归,随后使用LR逐步向前法筛选危险因素,将在二元逻辑回归模型中P≤0.05的危险因素用于建立联合模型。

  中日友好医院CTA使用256层螺旋CT(Brilliance iCT,美国飞利浦公司)进行扫描。患者取仰卧位,扫描范围从主动脉弓到颅骨顶点。采用高压注射器经肘静脉团注对比剂碘克沙醇。为确保勾画的稳定性与可重复性,第一次勾画在上级医师指导下使用MRIcroGL(https://www.nitrc.org/projects/mricrogl)进行ROI手动勾画分割。勾画层面为3层,分别为:(1)颈总动脉分叉处斑块狭窄面积最大横截面或正常血管横截面; (2)颈总动脉远端斑块横截面/正常颈动脉横截面;(3)颈内动脉近端斑块横截面/正常颈动脉横截面。1个月后上独立进行第二次ROI勾画并由上级医生审核。

  通过python中的pyradiomics包提取CTA影像特征,首先对影像进行重采样和标准化,插值方法选择SimpleITK包中的sitkBSpline。随后的特征滤波器选择Original、LoG、Wavelet、LBP3D进行特征提取。提取特征包括一阶特征、形态特征、灰度共生矩阵特征(Gray Level Co-occurrence Matrix,GLCM),灰度级大小区域矩阵特征(Gray Level Size Zone Matrix,GLSZM),相邻灰度差矩阵(Neighbouring Gray Tone Difference Matrix,NGTDM),灰度依赖矩阵特征(Gray Level Dependence Matrix,GLDM)。其中颈内动脉近端的斑块特征前缀为Label 1,颈动脉分叉处的斑块特征前缀为Label 2,颈总动脉远端的斑块特征前缀为Label 3,3类特征提取参数相同。

  使用python3.8.0对于提取出的原始特征进行统计学分析,首先基于方差法排除方差为0的特征,随后使用组内相关系数(intraclass correlation coefficient,ICC)评价变量可靠性,使用双向随机效应ICC确保结果可以在同类观察者中推广,选择ICC>0.7的特征纳入研究。随后使用互信息法过滤对于分类标签无贡献即贡献值为0的变量,剩余变量作为最终数据集进行研究。以8∶2的比例将数据集划分为训练集与验证集,并对训练集进行Z-score标准化,保存标准化的相关参数应用于验证集以及内、外部测试集。随后对于筛选变量进行正态性检验,符合正态分布的变量使用t检验,不符合正态分布的变量使用Mann-Whitney U检验,P≤0.05的变量进入基于随机森林建立的递归特征消除法(recursive feature elimination,RFE),基于随机森林特征权重系数对特征进行重要性排序,进行10折交叉验证遍历所有特征组合并筛选重要性排名为1的变量,获得能最大化性能的最优组合变量。所有变量筛选均基于10EPV原则,即分析的阳性事件数,不少于开展纳入模型自变量数的10倍。该规则在过去经常被用于线性回归,如今在影像组学研究中已经被证明是有效的[]。

  分别使用极致梯度提升(eXtreme Gradient Boosting,XGboost)、支持向量机(support vector machines,SVM)、高斯朴素贝叶斯(Gaussian Naive Bayes,GNB)、逻辑回归(logistic regression)、K最邻近(K nearest neighbors,KNN)以及人工神经网络(artificial neural network,ANN)建立机器学习模型。为避免参数同时调整导致模型训练复杂度提升或过拟合,参数调整模式采用启发式搜索,基于模型默认参数,逐个或逐类进行参数调整,最终固定最优参数组合。当模型出现拟合问题时,使用SMOTEENN[-] 用于进行数据平衡,通过多数类进行欠采样,少数类进行过采样来提高模型预测性能。它是一种混合采样方法组合,结合合成少数过采样技术(synthetic minority over-sampling technique,SMOTE)和欠采样技术编辑最近邻(edited nearest neighbours,ENN)。首先,SMOTE通过在少数类的现有样本之间随机插值来生成合成样本。然后,ENN会清理新生成的数据集,以防止少数类和多数类之间的样本重叠。具体来说,如果一个类的K个最近邻中有一半以上不属于同一类,则一个类的样本将被淘汰。因此,SMOTEENN使两个类的样本编号更接近,它们之间的界限更清晰。这种方法已经在机器学习领域广泛使用并证明了良好的效果[-]。

  对于临床特征进行单因素分析,P≤0.05的变量被纳入逻辑回归模型中,采取逐步向前法取AIC最小值筛选最优临床预测变量。随后选择构建影像模型过程中表现最好的影像预测模型并纳入最优临床预测变量建立联合模型,使用同时包括影像数据和临床数据的全新数据集进行模型训练及验证。使用ROC曲线、校准曲线对比影像模型与联合模型之间的预测性能,决策曲线分析(decision curve analysis,DCA)是一种以净收益为重点的评估算法,净收益由真阳性和假阳性数量以及预测概率计算得出。使用DCA量化不同阈值概率下患者的净收益来比较影像组学预测模型和影像-临床联合模型的临床应用价值。

  本研究已通过中日友好临床研究伦理委员会审批,批准号:2019-142-K98。

  共纳入患者652例,不排除仅拥有临床资料或仅拥有影像学资料的患者。最终纳入中日友好医院颈动脉狭窄患者临床资料372例,颈动脉CTA共405例。患者基线资料见。工作流程见。

  该模型共纳入372例患者临床资料,其中234例不包括影像资料的临床数据用于临床危险因素分析,138例用于影像-临床联合预测模型。临床危险因素分析的234例患者中,149例高风险颈动脉狭窄患者,85例低风险颈动脉狭窄患者。单因素分析结果显示:两组总蛋白定量(P=0.043)、白蛋白定量(P=0.042)、尿素(P=0.032)、肌酐(P=0.041)、尿素氮/肌酐(P=0.03)、酸性粒细胞总数(P=0.018)、红细胞(P=0.005)、血红蛋白(P=0.06)、平均血红蛋白含量(P=0.006)、平均血小板体积(P=0.045)、血小板压积(P=0.03)、红细胞平均体积(P=0.036)、高血压(P=0.042)差异具有统计学意义;见。二元logistic回归分析显示:红细胞[OR=0.351,95%CI(0.716,0.983)]、尿素氮/血肌酐[OR=0.912,95%CI(0.866,0.96)]是临床高风险颈动脉斑块的独立保护因素,而平均血小板体积[OR=1.246,95%CI(1.03,1.509)]是临床高风险颈动脉斑块的的独立危险因素;见。

  从267例颈动脉CTA(63例低风险/204例高风险)中提取3 987个影像组学特征。经方差法排除方差为0的特征后剩余3423个特征,以ICC>0.7为标准筛选后剩余815个特征。随后以互信息法排除对标签贡献信息量为0的特征,最后纳入单因素分析变量503个,采用Mann-Whitney U检验单因素分析,P≤0.05的变量共36个进入10折交叉验证的递归特征消除法筛选出关键变量,递归消除法选择包含400颗树的随机森林作为分类器,每轮删除一个对结局指标预测贡献最低的变量,得到一个新的特征子集,再次输入到随机森林分类器中,计算新的特征子集中每个特征的重要性,并利用交叉验证方法得到新的特征子集的分类精度,不断重复删除过程,直至特征子集为空,最后一共得到数个不同特征数量的特征子集,选择平均分类精度最高的特征子集作为最优特征组合,最终筛选15个变量纳入模型,特征名见,筛选过程见(a)。使用RFE算法筛选15个变量建立XGboost(AUC=0.751)、SVM(AUC=0.541)、朴素贝叶斯(AUC=0.753)、逻辑回归(AUC=0.663)、KNN(AUC=0.702)、ANN(AUC=0.642),见(b)。选择AUC表现最佳的XGBoost作为最终构建模型,展示了各个模型的详细参数。使用混淆矩阵,校准曲线以及五折交叉验证评估模型功能,见(a)、(b)、(c)。根据节点分裂时,该特征对于结局指标带来信息增益的平均值进行特征重要性排序,重要性>2的变量为label3-wavelet-HLL-firstorder_10Percentile、label1-original-firstorder_TotalEnergy、label1-wavelet-LLL-firstorder_TotalEnergy,见(d)。

  联合模型在验证集中AUC(0.823)高于单独影像模型表现(0.750),展现了良好的预测能力,见(a)。临床决策曲线分析显示,联合模型验证集中表现出较好的临床应用价值(较大的曲线下面积)且优于影像模型,见(b)。校准曲线显示联合模型在验证集中校准度也优于影像模型,预测曲线与理想曲线间没有明显偏差,见(c)。

  在缺血性脑卒中患者中,10%~25%患者的病因为颈动脉狭窄,而其中90%的狭窄为动脉粥样硬化性狭窄[]。在一项近期的高质量社区研究中,有1/5的卒中或TIA患者患有颈动脉狭窄[]。本研究中对于高风险颈动脉斑块与患者临床特征之间的关系进行了分析,在logistic回归算法中显示检验指标RBC,尿素氮/血肌酐是临床高风险颈动脉斑块的独立保护因素,而MPV则是临床高风险颈动脉斑块的的独立危险因素

  Sunkun等[]在一项颈动脉临床研究中发现,与红细胞及血红蛋白显著更高的高海拔颈动脉粥样硬化患者相比,海平面颈动脉粥样硬化患者颈动脉内膜中层厚度(carotid intima-media thickness,cIMT)≥1 mm 患者比例更高。颈内动脉狭窄患者数量以及ICA>50%的患者数量显著增高并有统计学差异。Montero等[]进行了一项针对健康人颈动脉僵硬度(arterial stiffness,AS)与红细胞总量的前瞻性研究,使用动脉脉搏波传导速度(pulse wave velocity,PWV)评价AS。研究结果显示AS与健康个体的红细胞总量呈现强烈负相关,并可能通过干预血容量调节机制来调节红细胞生成。而AS与颈动脉斑块有着密切联系,Selwaness等[]使用超声以及主动脉PWV测量了6527例受试者的动脉硬度并评估颈动脉粥样硬化斑块状态,结果显示较高的PWV与较高的颈动脉粥样硬化斑块患病率独立相关。此外,较高的PWV与斑块内出血有关。Liu等招募了来自中国脑卒中一级预防试验13 554例高血压受试者。分别采用颈踝PWV和B型超声检查评估动脉硬度和颈动脉斑块。采用多因素logistic回归分析确定在中国高血压人群中,PWV与颈动脉斑块的存在和颈动脉斑块数呈正相关。在年轻参与者中观察到PWV与颈动脉斑块之间存在更明显的正相关。因此可以推测正常范围内较高的红细胞数量可能会降低颈动脉斑块出现临床症状的风险,对颈动脉狭窄患者起到保护作用,在临床工作中针对红细胞较低的颈动脉狭窄患者应进行积极关注。

  血清中的尿素氮和肌酐是反映肾脏功能的一个指标,两者是蛋白质代谢的产物。当尿素氮/肌酐值正常范围内的升高多见于发热、服用类固醇和四环素等药物、应激状态、高蛋白饮食。正常范围内的降低多见于饥饿、低蛋白饮食。Alizargar等人发现BUN是可以识别高颈动脉斑块评分(carotid plaque score,cPS)个体的独立因素[]。组织蛋白酶B(Cathepsin B,CTSB)是一种溶酶体蛋白水解酶,主要参与溶酶体蛋白的降解或加工。在动脉粥样硬化病变中由单核细胞来源的巨噬细胞、血管平滑肌细胞和内皮细胞表达。既往研究[-]中CTSB存在于不稳定的动脉粥样硬化斑块中,并且参与斑块破裂。一项开展于中国健康成年人群的临床横断面研究表明CTSB与cIMT、双侧颈总动脉直径相关,而在女性中SCr对于CTSB有独立相关性[]。在一项国外针对招募肾功能正常老年人的冠状动脉疾病研究[]中,发现男性冠心病死亡率随着正常范围内SCr三分位数增加而增加,分别为1.5%,5.5%和7.7%。这说明了BUN及SCr与动脉粥样硬化的相关性。在日常生活中,尿素氮肌酐比值的升高也可以见于高蛋白饮食,此类饮食代替一些高脂饮食也有益于血管。一项西班牙的纵向观察性单中心研究表明,在多元回归分析结果中,LDL-C作为一项主要的心血管危险因素与蛋白质的摄入呈负相关[]。在一项大规模的社区动脉粥样硬化风险研究(atherosclerosis risk in communities,ARIC)中,纳入人群分为摄入大量蛋白质及粗粮的健康饮食模式与摄入大量脂肪及细粮的西方饮食模式。结果显示健康饮食模式与单核细胞脂多糖受体CD14,单核细胞Toll样受体-2(monocyte toll-like receptor-2,TLR-2)和血小板糖蛋白Ⅱb(platelet glycoprotein Ⅱb,GP Ⅱb)呈负相关。西方饮食模式与GP Ⅱb和血小板粒细胞聚集体呈正相关[]。其中GP Ⅱb不仅介导血小板聚集,而且还触发血小板粘附到暴露的细胞外基质和功能失调的内皮细胞,促进动脉粥样硬化[];TLR-2在人类动脉粥样硬化中的炎症和基质降解具有重要作用[];一项基于健康老年人群对于食用大豆与于血管功能和心脏代谢风险标志物关系的研究中,相较于对照组,干预组摄入较高的蛋白质(3.1能量百分比[En%])、较低的碳水化合物摄入量(2.0 En%)、总脂肪摄入量相当。结果表明长期摄入干预组食用较高蛋白质的大豆可改善血管内皮功能、低密度脂蛋白胆固醇浓度和平均动脉压水平[]。因此可以合理推断在正常范围内的尿素氮/肌酐比例升高对于颈动脉狭窄病人危险程度有积极作用,可以尝试在临床中对颈动脉狭窄患者积极推荐高蛋白饮食来降低患者出现临床高风险症状的几率

  平均血小板体积(mean platelet volume,MPV)被认为是血小板的标志物,高MPV值已被证明是急性心肌梗死的独立危险因素。此外,据报道,MPV值在一些全身性炎症性疾病中较高,与CRP呈正相关[]。一项针对健康中国中老年人的临床研究显示,MPV较高的患者cIMT更高,颈动脉狭窄患病率更高。在调整了常规心血管疾病危险因素后,颈动脉斑块风险增加了1.669倍[]。Dai等[]在中国人群研究中也发现MPV与颈动脉术后再狭窄有关,与此相反的是在白人中并未发现此类现象[]。Mayer等[]在对于无症状颈动脉狭窄的临床研究中发现MPV与重大心血管不良事件独立且显著相关。Xu等[]发现MPV与急性脑梗死患者的颈动脉粥样硬化程度呈正相关,同时MPV数值是急性脑梗死患者不良结局的独立预测指标。入院时MPV水平较高(MPV≥12.65)的患者梗死面积更大,颈动脉狭窄程度更严重,短期预后结局差,死亡率更高。Arévalo-Lorido等[]针对缺血性卒中进行研究发现MPV升高可能是动脉粥样硬化缺血性卒中患者颈动脉狭窄严重程度的标志物。这些结果都说明了对于颈动脉狭窄患者的MPV需要进行关注。

  影像组学是一项新兴的发展技术,本研究探讨了颈动脉斑块影像组学特征与高风险颈动脉斑块的相关性,结果显示影像组学模型以及影像-临床联合模型对于高风险颈动脉斑块有着较好的预测能力,有助于对临床症状轻微或与其他症状相似疾病难以鉴别的症状性颈动脉斑块进行疾病预防以及治疗干预。

  在过往的颈动脉斑块影像研究中,研究方式主要见于影像或病理对于斑块的主观定性特征如IPH、LRNC、以及钙化[-]。尽管这些特征已经在过往的研究中证明了其具有可靠性,但对于复杂斑块成像的评估需要对于各种斑块成分的专业知识以及大量的临床经验避免误诊,不可避免地在诊疗过程中会具有主观性并受到医生自身状态影响。Zhang等[]对比了传统影像定性特征模型与影像组学定量特征模型对于颈动脉斑块预测结果,结果显示定量特征模型预测效果好于定性特征模型。影像组学是从医学图像中提取和分析大量定量特征的新组学算法。他首先运用于肿瘤分析中并展现了优秀的临床应用价值,如癌症的诊断、分期和分级,评估治疗反应,以及临床结局预测[-]。这证明了将过往医学影像中对于疾病特征的定性描述转化为定量数据有助于更加严谨精确的临床应用。过往颈动脉的影像组学研究主要关注于狭窄程度最高的分割层面提取影像组学特征,这个区域往往被认为位于颈动脉分叉处。但这种分割方法有一定的区域局限性,在颈动脉不同的解剖结构中,横截面积不同的部分血液流速及血管特征各不相同。一项针对CIMT和斑块在心血管风险评估中的应用的荟萃分析显示从颈总动脉、颈内动脉、颈动脉球部多个节段获取内膜中层及斑块数据在评估能力上的表现比单独使用CIMT数据要好[]。Xie等[]对于中国人群含斑块颈动脉节段数(总斑块评分)与随后缺血性心血管疾病进行了研究,结果显示两者之间显著相关[]。Abeysuriya等人结合颈总管(CCA)、颈动脉球(CB)和颈内段(ICA)的CIMT预测冠心病并取得了良好的预测效果。上述结论表示对于颈动脉疾病而言,综合颈动脉不同位置的信息对于预测疾病能够得到良好的效果。本研究在针对颈内动脉、颈动脉分叉处以及颈总动脉分别进行斑块区域分割及特征勾画来综合分析颈动脉斑块定位不同对于颈动脉狭窄患者的临床症状影响。在本研究中,参与对临床高风险颈动脉斑块预测的影像组学特征中主要由颈内动脉斑块影像特征(Label 1)以及颈总动脉斑块影像特征(Label 3)组成,这提示颈动脉斑块影响患者临床症状的产生可能与颈总动脉以及颈内动脉斑块相关。

  颈动脉粥样硬化斑块溃疡和破裂是缺血性脑卒中等主要心脏不良事件的主要原因,因此患者进行早期精准的临床干预是有必要的。本研究基于CTA建立了对于临床及组织学高风险颈动脉斑块预测影像组学以及联合模型并均取得的良好的预测效果,联合模型的预测性能表现优于影像组学模型。在临床变量中确认了RBC、MPV、尿素氮/肌酐是临床高风险颈动脉斑块的有效预测因子。

  利益冲突:无。

  作者贡献:王晓晖负责研究实施、数据整理与分析、论文撰写;刘展、吕晓烁负责实施、数据整理与分析;甄雅南,林凡,郑夏,刘晓鹏,孙光负责研究设计,温见燕,叶志东,刘鹏负责文章审阅与修改。