电视胸腔镜手术中左上肺叶的挑战--使用综合评分改善对模拟肺叶切除术的评估
摘 要
目的:本研究的目的是开发一种可靠的基于模拟器指标的综合评分,来评估虚拟现实电视胸腔镜手术中肺叶切除术的能力,并探索将其与专家评估相结合的益处。
方法:将标准化的客观评估(手术时间、出血量、运动经济性)和先前两项研究的主观专家评估相结合。重复测量采用包括经验水平、肺叶和既往模拟次数的线性混合模型。使用Cronbach’s Alpha计算4种评估方法的信度。采用NelderMead数值优化算法对得分进行最优加权。使用对照组确定综合评分的通过/不通过标准。
结果:总共纳入123例虚拟现实电视胸腔镜手术肺叶切除术。在4种不同的评估中,经验、肺叶和既往模拟次数有显著影响(P<0.01),但出血量没有显著影响(P=0.98)。左上叶明显高于其他叶(P=0.02)。通过将标准化的模拟器指标与标准化的专家评估分数相结合,可以获得0.92的最大可靠性。当包含一名专家评分员时,综合分数的通过/不通过水平为0.33。
结论:将模拟器指标与1或2个专家评估相结合增加了可靠性,可以作为评估外科医师的更客观的方法。综合得分可用于实施电视胸腔镜手术肺叶切除术中标准化和可行性的基于模拟的掌握训练方案。
关键词:电视胸腔镜手术肺叶切除术;虚拟现实模拟;综合评分;评估;仿真培训;电视胸腔镜手术能力
引 言
电视胸腔镜手术(VATS)肺叶切除术是世界上许多医疗中心治疗早期肺癌的标准方法[1]。VATS肺叶切除术是一项具有挑战性的手术,术中并发症可能影响手术结果,并对患者造成致命后果[2]。因此,需要有足够的培训和经验来减少并发症的风险。虚拟现实(VR)模拟在外科手术训练中的应用已经取得了进展,这种训练的有效性及其对患者预后的影响已经得到了证实[3-7]。
VR VATS肺叶切除术模拟使胸外科医生能够练习先进的手术技术,并得到每个手术的客观自动反馈,这可能会缩短临床学习曲线[3,8-11]。VR模拟器生成的指标包括各种标准化参数,如手术时间、出血量和运动经济性[12-14]。在之前的研究中,我们为VR模拟器测试所有5个肺叶提供了有效性证据[3]。三个模拟器指标显示了初学者和有经验的外科医生之间的显著差异,并建立了每个指标的个人通过/不通过水平。与有经验的外科医生相比,实习生出血量更多,手术时间更长,使用的动作更多[3]。然而,这些测量的可靠性很低,可能是由于不同肺叶之间的解剖差异。这些解剖学上的差异可能会影响手术的难度、并发症发病率和术后结果[15],VATS专家对哪个肺叶手术难度最高存在争议。
虽然模拟器指标可以为学员提供有关性能的即时反馈,但他们无法评估是否使用了正确的技术。这可以通过专家评分员进行基于视频的评估来实现[11,16-18]。在另一项研究中,我们由3名VATS专家使用视频辅助胸腔镜手术评估工具(VATSAT)盲法评估了所有VR VATS肺叶切除手术,发现专家评分员能够可靠地评估VATS的能力[19]。然而,专家VATS评分员时间精力不够充足,评估受训人员可能既耗时又昂贵[3]。
因此,我们试图通过组合模拟器指标来开发更可靠的综合评分,并探索包括评分员评估是否可以改善对VATS外科医生的评估,并通过减少对专家评分员的需求使其更具可行性。
因此,本研究的目的是开发一个基于模拟器度量的综合分数,该综合分数将考虑到肺叶的难度,并探索将综合分数与评分员评估相结合如何影响可靠性。
方 法
这项研究包括一项基于2项先前发表的研究的特别分析[3,19]。
数据是在哥本哈根医学教育与模拟学院(CAMES)使用VR模拟器(LapSimVR Surgical ScienceVC , Gothenburg, Sweden; 图1)收集的,具有5个不同的肺叶。肺叶切除术是基于标准化的前哥本哈根入路进行的,包括肺门的分离、静脉、动脉、支气管的分离和吻合,最后是切口的吻合术。
三组具有不同VATS经验的参与者在模拟器上随机选择了3例VATS肺叶切除术。参与者根据VATS经验进行分类:(1)初学者-没有外科经验的医学生;(2)中级-心胸外科医师,具有不同程度的外科经验,曾进行小于100次的VATS手术(例如,楔形切除、胸膜活检和0-50例VATS肺叶切除术);(3)有经验的胸外科医生,曾进行>50次VATS肺叶切除术。
在这项研究中,我们选择了具有最佳区分能力(出血量、手术时间和运动经济性)的临床相关指标。所有的尝试都被自动记录和存储。这些视频之前已经由3名VATS专家外科医生进行了评估,他们使用改进的VATSAT对手术进行了5个项目的评分(得到的分数在5到25分之间;补充材料,附录S1)[12]。
伦理声明
伦理委员会发现,根据丹麦的法规,这项研究没有获得批准(期刊编号:H19084884)。参与是自愿的,所有参与者都提供了书面知情同意。所有数据都是保密的。
统计分析
主要结果是3个评分者和3个模拟器指标(出血量、手术时间和运动经济性)在3个不同的肺叶上的平均VATSAT得分。
为了考虑重复测量,我们采用了以经验水平、肺叶和模拟程序的顺序为固定效应的线性混合模型。使用非结构化协方差矩阵对每个外科医生的3个模拟程序之间的协方差进行建模。该模型始终包含3个固定效应。使用前向选择算法研究成对交互作用,并应用F检验来评估所有效果。只有在重复测量的不同协方差结构中保持显著的潜在显著交互作用时,才会将其保留在模型中。
系统地对5个肺叶的每个结果进行比较,使用半计划对比度的t检验:被认为是最复杂和最难操作的左上肺叶与其他4个肺叶进行比较。
使用我们之前的两项研究的结果[3,19],我们构建了4个不同的综合分数:单独的模拟器指标或与1、2或3名评分者的VATSAT评分的平均值相结合。使用Cronbach‘s Alpha计算4个综合分数中每一个的可靠性。使用所有综合分数的模拟器指标和VATSAT评级之间相同的相关性估计,我们基于Kane和Case[21]描述的方法计算综合分数的可靠性。专家最优权重的数值优化算法。使用R版本4.1.0和SPSS 2(IBM,NY,USA)进行分析。
为了提高综合得分的可靠性,在5个肺叶中的每个肺叶内对模拟器指标进行了标准化。VATSAT评级在所有肺叶切除术上都是标准化的。根据综合分数,使用对比组的方法确定通过/不通过水平[22]。
Messick的有效性框架被用来描述平均综合分数的有效性证据[23]。
结 果
这项研究包括41名参与者,他们在VATS中的经历从0到>500次不等。所有参与者进行了3次随机分配的VR VATS肺叶切除术,因此分析基于123例VR VATS肺叶切除术,由模拟器指标和VATS专家使用改进的VATSAT进行评估。
我们发现,与其他4个肺叶相比,左上叶是手术难度最高的肺叶(图2A-C)。数据表明,当评分员评估VATS视频时,他们在评估困难的手术时会通过给受训者分配更高的分数来进行补偿(图2D)。
在4个不同的评估中,除出血(P=0.98)外,经验水平、肺叶和既往模拟次数的影响显著(P<0.01)。高经验水平和模拟器训练进展与较好的成绩明显相关,在VATSAT得分上,经验水平和模拟器尝试之间仅有显著的交互作用(P<0.01)。在所有的评估中,左上叶与其他叶相比有显著的偏差(P=0.02;表1)。
VATS评分器的标准化可靠性非常高(Cronbach’s α=0.90),而标准化模拟器指标在手术时间、运动经济性和出血量方面的可靠性分别为0.77、0.70和0.70(表2)。
当仅用28%的权重对1名评分者的VATS分数进行加权时,可靠性可达到0.88。
当将标准化模拟器指标(手术时间15%、运动经济性11%和出血量13%)与3位专家评分员的标准化平均评分(61%)相结合时,最大可靠性可达到0.92(表3)。
这种可靠性很高,因此可以用于认证。使用对照组法(图3),1名专家评分员的通过/不通过水平为0.32。
讨 论
我们发现与其他肺叶相比,左上叶是外科手术中最困难和最具挑战性的肺叶(图2A-D)。这与VATS专家的普遍意见是一致的。Linden等人[15]在真实的外科手术中,肺叶切除部位在并发症发病率、输血率和术后转归方面有明显差异。他们的结果显示,与其他肺叶相比,左上叶的输血率最高,为2.72%,这与手术的难度一致。这与我们的体外结果相似;与其他肺叶相比,左上叶出血更多。
研究还发现,与初学者相比,有经验的外科医生在操作左上叶方面做得更好,这表明了手术经验的影响(图2A-D)。
在所有4种评估方法中,数据表明,经验是成功的VATS的重要贡献因素。有经验的VATS外科医生在所有尝试中都表现得更好。这并不令人惊讶,因为有经验的VATS外科医生在处理组织时很熟练,因此出血更少,操作更少,手术速度更快。
我们的数据显示,尽管解剖结构不同,但从第一次尝试到第三次尝试,所有参与者在手术时间和运动经济性(除外出血方面)的指标上都表现得明显更好。
我们之前的研究表明,与使用专家评分器相比,仅使用模拟器指标的可靠性较低,专家评分器在不同程序中具有较高的可靠性。研究表明,对于高风险的决策,需要多项评估来准确评估能力[24,25]。将不同的评估方法结合起来,产生一个综合分数,可以增加评估的可靠性。Konge等人[26]研究表明,当模拟器指标和专家评分者相结合时,结肠镜检查技能评估的总体可靠性增加。在本研究中,通过将模拟器指标和专家评分器相结合,我们提高了总体可靠性。此外,综合分数考虑了特定肺叶的难度,并为在模拟中比较不同任务的受训者提供了宝贵的机会。
当将所有3个模拟器指标组合在一个综合分数中时,信度达到0.85,这是很高的,可以用来评估能力[27]。模拟器指标本身不能评估学员是否有足够的能力在没有监督的情况下操作,因为操作技术本身没有得到评估;因此,需要专家评分员进行评估。在VR模拟器VATS肺叶切除术研究中,1名评分员与专家评分员的信度为0.76,不足以用于最终的评估。至少需要3名专家评分员才能达到足够的可靠性,但这在日常训练中是困难的。通过简单地在综合分数中包括1个加权专家评分者的评估,信度从0.76增加到0.88,这使得它在掌握学习训练计划中的使用是可行和可靠的。当增加2名评分员时,信度提高到0.91,这对于高风险评估来说足够高了。我们的发现突出了将模拟器指标与专家评分者评估相结合对VR VATS肺叶切除术能力的好处。为了简单地确定参与者是否准备好在模拟器培训后开始临床培训,仅基于指标的综合评分可能就足够了。然而,通过添加1到2个评分员的评估,可以确定参与者在被允许为患者进行手术之前是否有能力进行手术。据我们所知,这是胸外科第一次将模拟器指标与专家评分员相结合来创建可靠的综合评分,这是评估VATS肺叶切除术能力的重要一步。
我们提供了一个Excel电子表格,可以在其中测试来自指标和专家评价者的可靠性衡量标准。此电子表格可用于计算模拟VATS肺叶切除术的综合分数(补充材料,附录S2)。
这项研究的优势在于样本量;包括123例VR模拟器资料、VATS、肺叶切除术和3组不同手术经验的参与者[3]。参与者根据随机数字按特定顺序进行3种不同的肺叶手术。另一个优势是3位不同的VATS专家使用改进的VATSAT对VATS肺叶切除术视频进行了盲法评估。
局限性
这项研究的局限性在于,我们的结果是基于模拟环境,而不是基于真实的操作。经验丰富的外科医生样本量小是另一个限制。事实证明,招募更多有经验的外科医生具有挑战性,因为他们的日程很忙,而且围绕2019年冠状病毒疾病大流行的情况。
结 论
我们已经开发了一种可靠的VR VATS肺叶切除术综合评分,它使用模拟器指标,可以与专家评分员评估相结合。该方法考虑了肺叶的难度,既包括客观性能参数,也包括手术技术。我们建议结合模拟器指标和1到2个专家评分员来评估VATS的能力。
翻译及审校:徐聪聪、邱鸿彬
参 考 文 献
[1] Sihoe ADL. Video-assisted thoracoscopic surgery as the gold standard for lung cancer surgery. Respirology 2020;25 Suppl 2:49–60.
[2] Decaluwe H, Petersen RH, Hansen H, Piwkowski C, Augustin F, Brunelli A et al.; ESTS Minimally Invasive Thoracic Surgery Interest Group (MITIG). Major intraoperative complications during video-assisted thoracoscopic anatomical lung resections: an intention-to-treat analysis. Eur J Cardiothorac Surg 2015;48:588–98; discussion 599.
[3] Haidari TA, Bjerrum F, Hansen HJ, Konge L, Petersen RH. Simulationbased VATS resection of the five lung lobes: a technical skills test. Surg Endosc 2022;36:1234–42.
[4] Cook DA, Brydges R, Zendejas B, Hamstra SJ, Hatala R. Mastery learning for health professionals using technology-enhanced simulation: a systematic review and meta-analysis. Acad Med 2013;88:1178–86.
[5] Issenberg SB, McGaghie WC, Hart IR, Mayer JW, Felner JM, Petrusa ER et al. Simulation technology for health care professional skills training and assessment. JAMA 1999;282:861–6.
[6] Pacilli M, Clarke SA. Simulation-based education for paediatric surgeons: does it really improve technical skills? Semin Pediatr Surg 2020;29: 150905.
[7] McGaghie WC, Issenberg SB, Cohen ER, Barsuk JH, Wayne DB. Does simulation-based medical education with deliberate practice yield better results than traditional clinical education? A meta-analytic comparative review of the evidence. Acad Med 2011;86:706–11.
[8] Khan R, Plahouras J, Johnston BC, Scaffidi MA, Grover SC, Walsh CM. Virtual reality simulation training in endoscopy: a Cochrane review and meta-analysis. Endoscopy 2019 ;51:653–64.
[9] Nashaat A, Sidhu HS, Yatham S, Al-Azzawi M, Preece R. Simulation training for lobectomy: a review of current literature and future directions. Eur J Cardiothorac Surg 2019;55:386–94.
[10] Konge L, Petersen RH, Ringsted C. Developing competency in videoassisted thoracic surgery (VATS) lobectomy. J Thorac Dis 2018;10: S2025–8.
[11] Jensen K, Bjerrum F, Hansen HJ, Petersen RH, Pedersen JH, Konge L. Using virtual reality simulation to assess competence in videoassisted thoracoscopic surgery (VATS) lobectomy. Surg Endosc 2017; 31:2520–8.
[12] Jensen K, Hansen HJ, Petersen RH, Neckelmann K, Vad H, M?ller LB et al. Evaluating competency in video-assisted thoracoscopic surgery (VATS) lobectomy performance using a novel assessment tool and virtual reality simulation. Surg Endosc 2019;33:1465–73.
[13] Andreatta PB, Woodrum DT, Gauger PG, Minter RM. LapMentor metrics possess limited construct validity. Simul Healthc 2008;3:16–25.
[14] Schmidt MW, Kowalewski KF, Schmidt ML, Wennberg E, Garrow CR, Paik S et al. The Heidelberg VR Score: development and validation of a composite score for laparoscopic virtual reality training. Surg Endosc 2019;33:2093–103.
[15] Linden PA, Block MI, Perry Y, Gaissert HA, Worrell SJ, Grau-Sepulveda MV et al. Risk of each of the five lung lobectomies: a society of thoracic surgeons database analysis. Ann Thorac Surg 2022. Mar 24: S0003-4975(22)00374-5.
[16] Epstein RM. Assessment in medical education. N Engl J Med 2007;356: 387–96.
[17] Konge L, Larsen KR, Clementsen P, Arendrup H, von Buchwald C, Ringsted C. Reliable and valid assessment of clinical bronchoscopy performance. Respiration 2012;83:53–60.
[18] Aggarwal R, Grantcharov T, Moorthy K, Milland T, Darzi A. Toward feasible, valid, and reliable video-based assessments of technical surgical skills in the operating room. Ann Surg 2008;247:372–9.
[19] Haidari TA, Bjerrum F, Christensen TD, Vad H, M?ller LB, Hansen HJ et al. Assessing VATS competence based on simulated lobectomies of all five lung lobes. Surg Endosc 2022. doi:10.1007/s00464-022-09235-5.
[20] Hansen HJ, Petersen RH, Christensen M. Video-assisted thoracoscopic surgery [VATS] lobectomy using a standardized anterior approach. Surg Endosc 2011;25:1263–9.
[21] Kane M, Case SM. The reliability and validity of weighted composite scores. Appl Meas Educ 2004;17:221–40.
[22] J?rgensen M, Konge L, Subhi Y. Contrasting groups’ standard setting for consequences analysis in validity studies: reporting considerations. Adv Simul (Lond) 2018;3:5.
[23] Messick S. Meaning and values in test validation: the science and ethics of assessment. Educ Res 1989;18:5–11.
[24] Na¨pa¨nkangas R, Karaharju-Suvanto T, Pyo¨ra¨la¨ E, Harila V, Ollila P, La¨hdesma¨ki R et al. Can the results of the OSCE predict the results of clinical assessment in dental education? Eur J Dent Educ 2016; 20:3–8.
[25] Nunez DW, Taleghani M, Wathen WF, Abdellatif HM. Typodont versus live patient: predicting dental students’ clinical performance. J Dent Educ 2012;76:407–13.
[26] Konge L, Svendsen MB, Preisler L, Svendsen LB, Park YS. Combining different methods improves assessment of competence in colonoscopy. Scand J Gastroenterol 2017;52:601–5.
下拉查看
END
扫二维码|关注我们
点击“阅读原文”