内分泌疾病未来篇 l 2023骨质疏松症的人工智能管理工具（全）＊＊

时间：2023-08-11

　　CK注：骨质疏松相关内容：

　　WE14笔记 l 2021骨质疏松症-骨骼生物学篇（全）**

　　WE14笔记 l 2021骨质疏松症-诊治（全）**

　　内分泌疾病PRO｜2020骨质疏松症-原理和临床（整合版）**

　　临床综述 l 2022老年人骨质疏松：药物治疗（全）**

　　指南共识 l 2020地舒单抗在骨质疏松症临床合理用药的中国专家建议（精要）**临床内分泌未来篇 l 2021骨质疏松：分子和基因/遗传因素及多组学方法(全文)**

　　CK注：很多常见慢病诊治评估，在10年后一定是AI辅助决策的天下......

　　骨质疏松症是一种骨量减少和微结构退化导致骨脆性增加和骨折风险增加的疾病。通常，骨质疏松性骨折发生在脊柱、髋部、前臂远端和肱骨近端，但其他骨骼部位也可能受到影响。

　　骨质疏松症治疗的主要挑战之一在于，尽管手术诊断是基于双能X线骨密度仪测量的骨矿物质密度(BMD)，但大多数骨折发生在非骨质疏松症BMD值下。此外，无论潜在创伤的严重程度如何，骨质疏松症通常仍未诊断。在世界范围内的主要指南中，对于何时治疗、治疗谁以及使用哪种药物只有较弱的共识。

　　在这种背景下，人工智能(AI)开发人员在过去几年中付出了越来越多的努力来支持和改善这种疾病的管理。许多这些新开发的人工智能算法性能已被证明至少与内科专家相当，甚至更好。然而，即使乍看之下研究结果似乎很有希望，也应始终谨慎解读。使用不适当的参考标准或选择在临床实践中几乎没有或没有价值的变量是经常发现的局限性。因此，在人工智能这一领域显然需要高质量的临床研究。例如，这可以通过建立一个考虑所有相关利益攸关方的国际认可的"最佳实践框架"来实现。内分泌疾病未来篇 l 2023骨质疏松症的人工智能管理工具

　　（全）

　　编译：陈康

　　骨质疏松症被定义为一种全身性骨骼疾病，其特征为低骨量和骨组织的微结构退化，导致骨脆性和骨折易感性增加(Am J Med. 1991;90(1):107-110)。根据世界卫生组织(WHO)推荐的标准，骨质疏松症的手术诊断基于通过髋关节、脊柱或所谓的挠骨三分之一部位（one-third radius）(Bone. 2017;104:39-43；J Clin Densitom. 2019;22(4): 453-471)。因此，如果个体的BMD等于或小于健康青年平均正常BMD值以下的2.5个标准差(即T评分≤2.5)，则可诊断为骨质疏松症。然而，这种方法的主要局限性之一在于，大多数骨折发生在T评分-1.0至-2.5(即骨质减少BMD)或甚至高于-1.0(即正常BMD)，这损害了这种“金标准”方法的敏感性及其作为筛查工具的潜在作用(BMJ. 1996;312(7041):1254-1259)。脊柱(椎骨)、髋部(股骨近端)、肩部(肱骨近端)和腕部(前臂远端、桡骨远端)骨折已显示与后续骨折风险增加、生活质量下降、残疾以及除前臂远端骨折外死亡率增加(Qual Life Res. 2018;27(3):707-716；J Bone Miner Res. 2000;15(4):721-739；Osteoporos Int. 2017;28(3):775-780；J Clin Endocrinol Metab. 2018;103(9):3205-3214)。因此，也称其为严重骨质疏松性骨折。据估计，50岁女性遭受严重骨质疏松性骨折的平均终生风险接近50%，男性接近22%，在全球范围内，骨质疏松症每年导致约900万例骨折，每3秒钟就会导致一例骨质疏松性骨折(Osteoporos Int. 2005;16(Suppl 2):S3-S7；Osteoporos Int. 2006;17(12):1726-1733)。

　　当前意义上的人工智能最有可能是在20世纪50年代中期创造的，当时一群数学家、认知科学家和计算机科学家在美国Dartmouth学院召开了一次会议。虽然会议本身没有达到与会者的预期，但它仍然可以被认为是随后人工智能研究热潮的最初火花。然而，这种繁荣预期至少被两次研究衰退所打断，有时也被称为“人工智能研究的冬天/ winters of AI research”，第一次持续于20世纪70年代中期至后期，第二次持续于20世纪80年代末至90年代初。在这两个“冬天”之前，几乎没有令人鼓舞的研究结果，这反过来导致与人工智能相关的研究项目资金的减少。幸运的是，随着计算能力近乎指数级的增长，研究和资金在那之后又开始回升。1997年，一台名为IBM深蓝(IBM Deep Blue?)的电脑击败了世界象棋冠军加里·卡斯帕罗夫，2011年，另一台名为Watson?的IBM电脑在数百万电视观众面前击败了《Jeopardy 》游戏中有史以来最成功的人类玩家中的两个。毫无疑问，这些以及随后在人工智能发展中的许多亮点,已经形成了人类医学中基于人工智能的研究努力的完美基础。事实上，在过去的十年里，人类医学的许多领域都取得了长足的进步(Nat Med. 2019;25(1):44-56；Nat Med. 2022;28(1):31-38)。一般而言，医学上的人工智能可以分为虚拟和物理两种亚型，前者包括如成像解决方案和治疗决策支持工具，后者包括如智能假体和机器人辅助手术(Metab Clin Exp. 2017;69S:S36-S40)。在骨质疏松症的管理方面，虚拟AI亚型目前发挥着主要作用，其解决方案可用于(或正在开发中) (J Bone Miner Res. 2021;36(5):833-851) (图1)：

　　促进诊断

　　骨折风险评估

　　骨折检测

　　骨质量评估治疗决策。图1 骨质疏松症管理中，当前可用人工智能解决方案选择

　　临床医学中人工智能的一些基础知识

　　非常简单，考虑到目前还没有国际认可的定义，人工智能构成了一个将计算能力与数据集(理想情况下是大数据)相结合的系统，从而能够解决问题。人工智能的一个典型分支是机器学习，它使用各种算法从数据中学习，因此明显不同于(人类)试图显式编写特定计算机程序来完成特定任务(Bishop CM, ed. Pattern Recognition and Machine Learning. Springer; 2006)。机器学习(ML)可以基于不同的学习方法，其中最重要的是监督学习和非监督学习(Curr Genomics. 2021;22(4):291-300)。在过去的十年里，监督式ML被证明是最有效的，因此已经成为人工智能支持的医疗应用的主要支柱。为了训练一个基于监督学习的系统，机器必须被输入已经可用和足够的数据，因为这些输入数据的质量将决定输出的质量。例如，要训练机器在常规X光片上检测髋部骨折，必须向ML算法提供一组包含骨折和未骨折髋部的常规髋关节X光片。此外，人们必须告诉系统哪些髋部骨折，哪些没有，这个过程也被称为图像的“注释”。一般而言，算法得到的注释图像越多，它在检测骨折方面就越好。深度学习是ML的一个更强大的子集，其体系结构类似于人脑，因为多层“神经元”彼此互连，形成了所谓的神经网络(Nature. 2015; 521(7553):436-444)。在目前可用的神经网络中，所谓的卷积神经网络(CNNs)是在医疗保健应用中最广泛使用的神经网络。

　　一般而言，开发特定的人工智能算法需要一个训练数据集和一个测试数据集。在某些情况下，第三个数据集被放在一边，仅供验证之用。理想情况下，在开发过程之前，将整个可用数据集(如一组X光片)随机分为这2或3组。这确保了来自同一患者的数据不被用于多于1个这些数据集，这种情况通常被称为“数据泄漏/data leakage”，并且将损害测试和验证结果并且导致临床实践中的错误分类和误诊(Med Image Anal. 2020;63:101694)。训练数据集用于算法训练，并且通常涉及也分别称为“特征”和对应预测的表征数据点的集合(Curr Genomics. 2021;22(4):291-300)。这些特征可以仅仅是从电子病历中提取的X光照片、临床诊断或实验室参数中的像素或体素。典型地，训练数据集比测试数据集大得多，例如，比率为80:20到60:40。然而，目前还没有可用的国际标准，例如，关于此类数据集的最小样本量。为了找到最佳模型，开发的算法必须通过交叉验证过程(Kubben P, Dumontier M, Dekker A. Fundamentals of Clinical Data Science (Open Access). Springer; 2019)。交叉验证的经典形式被称为“留出法/ holdout method(仅用部分作为训练集，另外部分作为测试集)”，它只涉及数据训练集和数据测试集。然而，这种方法对于如比较多个模型是无效的。出于此目的和其他目的，使用所谓的k折交叉验证（k-fold cross-validation）。简单而言，在这个方法中，整个数据集被分成k组(即指定数量的)数据。在其最简单的形式中，这也可以是1个训练数据集和1个测试数据集。然而，与“留出法”相反，测试数据集和训练数据集可互换使用。换句话说，如果例如k是10，整个数据集将被分成10组，并且将建立10个单独的模型。在第一次迭代中，十分之九的数据集将被用于训练目的，而十分之一的数据将被保留下来用于测试。在第二次迭代中，另一组将被搁置起来进行测试，而剩下的9组将用于训练等目的。该过程将重复8次。

　　一旦发现新开发的模型足以用于例如髋部骨折检测，就根据人类的表现对其性能进行测试/验证。对于髋部骨折检测算法，可以由放射科医生和/或骨科医生等专业医生进行。性能结果通常采用经典的性能指标来表示，例如灵敏度、特异性和接收器工作特性的曲线下面积(AUC)。如果测试一个以上的模型，则可以选择性能最佳的模型，以在临床研究中进行进一步测试和验证，获得监管机构的批准，并实施到各自的临床应用中。

　　骨质疏松症的机会性诊断

　　骨质疏松的机会性诊断，我个人理解是指患者因为其他原因而进行了与骨质疏松相关的检查如牙科照相的骨片、胸腹CT形成脊柱影像等等，可能会对骨质疏松的诊断有很大帮助；但此类非针对骨质疏松的检查所获得的资料需要进行一定的处理才可能用于骨折风险等评估，由于涉及的因素很多，在此过程中应用AI算法可能有很大的价值。

　　在骨质疏松症的手术诊断中应用机会性方法的原因有很多。例如，根据WHO的建议，诊断骨质疏松症的金标准方法是基于使用DXA测量BMD(J Clin Densitom. 2019;22(4): 453-471)。然而，对DXA设备的应用在很大程度上取决于它们的可用性。除了一个国家内可用的DXA医疗单位数量以及一些与患者相关的障碍(如旅行时间和交通机会)之外，监管限制和报销障碍也起着重要作用。最近的一项调查显示，一个国家每百万人口中的DXA单位数量从不到10个(这被认为是不够的)到超过50个(Arch Osteoporos. 2021;16(1):82)。在全球大多数国家，可用的DXA设备数量均被视为不足。因此，显然需要应用理想情况下更广泛可用的替代方法，如常规放射照相术。

　　例如，在牙科医学和特定的牙科植入术中，全景射线照片已被使用多年以获得关于下颌骨的定量和定性性质的信息，但结果并不令人很满意 (Dentomaxillofac Radiol. 2006;35(1):1-9；Osteoporos Int. 2005;16(3): 339-346)。此外，如果根据全景X光片怀疑骨质疏松症，建议将患者转诊至医疗专业人员(Dentomaxillofac Radiol. 2019;48(1): 20170344)。因此，有充分的理由开发人工智能支持的工具，以提高此类机会性骨质疏松症筛查方法的诊断性能。例如，在一项初步研究中(迄今尚未发表随后的完整研究)，将一组不同的CNN应用于全景X光片以诊断骨质疏松症(Dentomaxillofac Radiol. 2019;48(1): 20170344)。根据所用的CNN，AUC值的范围为0.98-0.99。然而，如果由2名经验丰富的口腔颌面放射科医生在同一张X光片中观察到皮质侵蚀，则诊断为骨质疏松，而不是使用DXA作为金标准参考技术。在另一项研究中，对4种不同的CNN模型进行了研究，发现迁移学习（transfer learning）和微调此类CNNs可显著提高诊断性能，最高AUC为0.86(J Clin Med. 2020;9(2):392)。然而，不仅本研究的结果听起来不太有希望，而且，由于未提供所用参考技术的信息，临床相关性也受到严重影响。

　　基于人工智能的骨质疏松症机会性诊断软件解决方案也已开发出来，使用的是手和腕部的常规X光片。事实上，在1项研究中，使用了来自第三掌骨轴的皮质放射测量法和来自桡骨远端的松质骨纹理分析来训练和测试该算法，并使用DXA作为参考标准(Comput Med Imaging Graph. 2018;68:25-39；Osteoporos Int. 2018;29(3):665-673.)。开发的软件显示出接近89%的准确率，这可能使其成为更广泛临床应用的一个有意思的选择。

　　已提出的用于骨质疏松症机会性诊断的其他方法有，例如，计算机断层扫描(CT)、定量计算机断层扫描(QCT)和定量超声。一般而言，此类方法可提供T评分，从而可将其分为“正常”、“骨质减少”和“骨质疏松”。“然而，由于所有这些替代技术都捕捉到不同的骨特性，导致不同的风险梯度，因此所获得的T评分不能简单地与从DXA得出的T评分互换使用(J Clin Densitom. 2013;16(4):455-466)。另一方面，应记住，无论DXA的金标准状态如何，有证据表明脊柱机会性QCT评估的BMD与意外椎骨骨折风险的相关性可能比DXA测量的T评分更高(Eur Radiol. 2019;29(9):4980-4989)。

　　考虑到这些方面，许多研究通过应用人工智能支持的软件工具，努力提高这些机会性方法的敏感性、特异性和准确性。例如，在1项研究中，用于肺癌筛查的胸部CT用于测量脊柱的BMD，并通过使用全自动AI算法将患者分配到WHO分类中的1个(Clin Radiol. 2020;75(9):713.e17-713.e28)。发现诊断性能非常好，骨量减少的AUC为0.83，骨质疏松的AUC为0.97。此外，研究发现，CT值每增加10 HU，骨量减少的风险降低32%-44%，骨质疏松的风险降低61%-80%。作者得出结论，常规胸部CT联合AI在机会性筛查骨量减少和骨质疏松症中具有重要价值。然而，这些发现的临床相关性有限，因为基于DXA的脊柱BMD测量是使用腰椎L1-L4进行的，而基于胸部CT的BMD测量主要基于胸椎。考虑到这种方法学上的弱点，在1项研究中，使用腰椎的DXA作为参考标准，开发了一个CNN模型来预测腹部CT扫描的BMD(Eur Radiol. 2020;30(6):3549-3557)。正确诊断了骨质疏松症，内部验证数据集的AUC为0.965，外部数据集的AUC为0.970。在另一项也使用DXA作为参考标准的腹部/骨盆CT研究中也发现了类似的有希望的结果(J Am Coll Radiol. 2019;16(10):1473-1479)。在另一项旨在开发基于人工智能的工具以使用腹部或骨盆CT诊断骨质疏松症的研究中，未使用DXA作为参考标准，从而限制了其他有希望的研究结果的临床相关性(Eur Radiol. 2021;31(4):1831-1842)。

　　由于已有骨质疏松症的机会性诊断的众多基于成像的AI工具，因此出现了最近的第一次系统综述和荟萃分析(Osteoporos Int. 2021;32(7): 1279-1286)。共有7项研究(包括3000多名患者)符合纳入条件。采用随机效应模型，汇总敏感性为0.96，汇总特异性为0.95。然而，正如作者指出的，由于患者选择存在偏倚的高风险和高度异质性，因此应谨慎解释结果。尽管如此，还应注意，在所包含的7项研究中，只有3项使用了DXA技术作为参考标准。

　　最后，通过磁共振成像评估的骨髓脂肪分数已显示与异常骨密度相关(J Magn Reson Imaging. 2019;49(2):390-399)。然而，这种方法的临床实用性受到图像分割必须手动执行的事实的限制。在一项涉及约200名健康志愿者的研究中，开发了一种通过CNN使用图像分割的全自动端对端放射组学通道(Quant Imaging Med Surg. 2022;12(2):1198-1213)。采用腰椎QCT作为参考方法，所开发的骨髓脂肪分数图放射组学在预测骨量减少和骨质疏松症方面取得了出色性能。

　　骨质疏松性骨折的检测

　　骨质疏松治疗的支柱之一是常规X光片的骨折检测。因此，到目前为止已经开发相当数量的人工智能支持的骨折检测软件工具也就不足为奇了。通常，它们中的大多数涉及1种特定的CNN算法，如Inception、Xception或DenseNet，但在某些情况下，会使用不同CNN的组合，有时也称为“集合（ensemble）”(J Digit Imaging. 2019;32(4):672-677)。一般而言，已经表明这种AI工具在骨折诊断中是可靠的，并且它们具有高诊断准确度，类似于诸如放射科医生或骨科医生的专家医师的诊断准确度(Acta Orthop. 2019;90(4): 394-400)。个别研究的这些证据也得到一些系统综述和荟萃分析的结果的支持(Clin Radiol. 2020;75(9):713.e17-713.e28；Radiology. 2022;304(1):50-62)。然而，在1项荟萃分析中发现，与仅包括无椎骨、锁骨和肋骨的“长骨”组的亚组分析结果相反，当考虑所有符合纳入条件的研究时，诊断性能(即汇总的敏感性和特异性)不太令人信服。这一发现具有临床相关性，因为它提供证据，表明如果感兴趣的骨骼部位及其周围组织的结构更复杂，则人工智能支持的骨折检测工具可能工作更不可靠，这不仅使感兴趣区域的正确分类更困难，还使骨折线本身的检测更困难。在这点上，许多这样的分类问题已经被证明是由于所使用的训练数据集的不足(大小)( Skeletal Radiol. 2022;51(2):271-278)。在最近的荟萃分析中，除异质性和研究偏倚问题外，还指出了研究方法中的重大缺陷(Radiology. 2022;304(1):50-62)。例如，在纳入的所有研究中，只有1项研究提供了样本量计算。此外，只有1项研究为临床医生提供了背景临床信息，因此临床医生的表现很可能被低估，整个研究过程并不代表真实世界的情况。

　　椎体骨折是最常见的骨质疏松性骨折，但仅有三分之一会立即引起临床注意，其余或多或少是偶然发现的或在慢性背痛的诊断评估过程中发现的(J Clin Densitom. 2016;19(1):8-22)。在脊柱或胸部的常规射线照片中，特别是如果出于除了椎骨骨折的排除或诊断之外的其他原因而进行，椎骨骨折的检测率已经显示为低(J Bone Miner Res. 2005;20(4):557-563；J Orthop Sci. 2003;8(4):463-466)。因此，在全球范围内开展了诸如“捕获骨折（the Capture the Fracture）”计划等提高认识计划，以提高专业医师在这方面的诊断绩效(Osteoporos Int. 2013;24(8):2135-2152)。除了提高认识，基于人工智能的软件工具形式的技术支持似乎是一个合乎逻辑的附加产品。因此，在常规胸部和脊柱X光片中自动检测椎骨骨折最近成为人工智能开发人员的关注点。例如，开发了一个基于人工智能的软件程序，用于在老年女性侧位胸片上检测椎骨骨折(Quant Imaging Med Surg. 2022;12(8):4259-4271.)。软件考虑根据Genant分类对这些骨折进行半定量分类，Genant分类包括3个不同级别的身高丧失，即轻度(20-25%；1级)、中度(25-40%；2级)，严重(> 40%；3级) (J Bone Miner Res. 1993;8(9):1137-1148)。椎体骨折的严重程度(即身高损失量)具有重要的临床意义，因为3级椎体骨折患者发生后续骨折的风险最高。此外，已经表明骨质疏松药物的抗骨折功效取决于椎骨骨折的严重程度(和数目)( Bone. 2003;33(4): 522-532)。总体而言，该工具的诊断性能(即敏感性、特异性和准确性)似乎有希望，但仅出现1级和2级损失的椎骨骨折的性能结果不太令人信服。

　　由于创伤后立即拍摄的常规脊柱X光片有时不会显示形态变化，因此还使用了磁共振断层扫描(MRT)和CT等先进的医学成像方法。例如，MRT常被用于检测骨髓水肿，作为椎体骨折的近期指标。临床上，如果考虑椎体强化，则此类信息可作为决策支持(AJNR Am J Neuroradiol. 2018;39(5):798-806)。在这方面，最近开发了一种基于AI的算法，用于自动检测新鲜的骨质疏松性椎骨骨折，其中“新鲜”被定义为在相应损伤后的3个月期间(Spine J. 2021;21(10):1652-1658)。最终选择的人工智能算法是4种不同CNN模型的组合(即“集成”)，其性能最佳，与2名经验丰富的脊柱外科医生的性能相当。该人工智能工具的图像输出提供了椎骨的颜色编码分类，分为“正常”、“新鲜骨折”和“陈旧性骨折”(图2)。作者得出结论，本研究中开发的算法可能有助于减少新鲜骨质疏松性椎体骨折的误诊，从而有助于骨质疏松症患者的日常护理，尤其是在没有放射科医生或脊柱外科医生的医院中。然而，独立于一些方法上的限制，例如相对较小的训练数据集，1个主要的限制是该算法没有被训练来识别病理性骨折，例如与转移性骨疾病相关的病理性骨折。图2 (A)自动骨折检测并分类为“正常”(白色)、“新鲜骨折”(红色)和“陈旧性骨折(蓝色)”后的图像输出。(B)基线；原始图像。http://creativecommons.org/licenses/by/4.0。

　　用于在CT扫描中自动检测椎骨骨折的第一个基于人工智能的算法是在大约十年前发表的(Int J Comput Assist Radiol Surg. 2013;8(3):461-469)。虽然这些算法以及此后开发的大多数算法在技术上需要对每个椎骨进行多次分割，但是最近开发的涉及特定CNN模型的算法允许从全CT扫描中的每个切片提取放射特征(Comput Biol Med. 2018;98:8-15)。然后，通过所谓的特征聚集模块对提取的特征进行处理，以对全CT扫描进行最终诊断。该算法可应用于胸部、腹部和骨盆的CT扫描，诊断准确率接近90%，总体性能与放射科医生相当。

　　然而，从腹部和胸部ct扫描中检测椎骨骨折的最新且可能是最先进的方法涉及三维体元素（3-dimensional voxel）分类方法，其既不需要分割单个椎骨也不需要分割整个CT扫描(Computational Methods Clin Applications Spine Imaging; 2020:3-14)。此处开发的3D方法表现出色，患者级骨折检测的AUC为95%，椎骨级骨折检测的AUC为93%。

　　骨折风险与骨折预测

　　对于个人10年骨折概率的估计，全球最广泛使用的工具是FRAX，这是一个在线免费骨折风险评估工具，包含80多个国家和地区特定版本(Arch Osteoporos. 2014;9:166)。实际上，该工具约覆盖了80%的世界人口，几乎所有的国家骨质疏松指南都建议使用该工具(Arch Osteoporos. 2014;9:166；Aging Clin Exp Res. 2020;32(2):187-196；Climacteric. 2022;25(1):22-28)。它主要基于临床风险因素，例如流行性骨折、父母髋部骨折、糖皮质激素使用、吸烟和酗酒，并且它可以与基于DXA的BMD结果一起使用或不使用(Osteoporos Int. 2010;21(Suppl 2):S407-S413)。在过去的几年里，已经开发了许多基于人工智能的骨折风险预测模型。例如，在最近一项基于社区的前瞻性队列研究中，开发了一种新的基于人工智能的骨折预测模型，并将其性能与特定国家版本的FRAX进行了比较(JBMR Plus. 2020;4(3):e10337)。在所开发的3种不同模型中，表现最佳的1种模型的骨折预测AUC为0.688，明显优于FRAX模型。预测风险最大的因素是全髋关节、腰椎和股骨颈的BMD。令人惊讶的是，甚至主观关节痛评分、血清肌酸酐和同型半胱氨酸等因素也被列为高于年龄或普遍骨折等常规预测因素。在另一项基于更大队列纵向数据的研究中，使用常规脊柱X光片开发了基于CNN的模型(Endocrinol Metab (Seoul). 2022;37(4):674-683)。发现仅使用基线X光片的模型提供了与FRAX模型相当的椎骨骨折风险预测。使用包含DXA结果的数据集，人工智能模型的预测性能甚至高于FRAX模型。然而，同样必须谨慎解释此类结果，因为FRAX提供了10年骨折概率，而此处提及的研究均未设计用于涵盖10年的预测。此外，应记住，尽管这些AI模型在所研究人群中的表现令人印象深刻，但不能简单地将结果外推至其他人群，因为不同人群的基线骨折风险可能存在显著差异(Osteoporos Int. 2012;23(9): 2239-2256)。

　　骨矿物质密度以外的骨属性

　　骨质量不仅取决于BMD(实际上主要提供有关骨量及其矿化程度的信息)，还取决于其几何形状、显微结构和组织组成(Clin Orthop Relat Res. 2011;469(8): 2128-2138)。在宏观尺度上，骨强度可以通过全骨力学测试来评估(体外或死后)，其中骨在压缩、弯曲或扭转下加载失效(Curr Osteoporos Rep. 2018;16(4): 423-433)。近年来，通过使用可以被集成到不同成像模态的软件中的有限元模型，骨强度的无创估计在体内也变得可能(与微创体内微牙齿植入方法相反)，所述软件例如QCT(Osteoporos Int. 2019;30(2):323-331)。在最近的一项人工智能研究中，从亚洲男性受试者的QCT图像中提取椎体的材料属性和几何特征，并开发了一种ML算法，旨在为椎体的临床强度预测提供一种方便实用的方法(Osteoporos Int. 2019;30(11):2271-2282)。就预测能力和一致性而言，研究结果是有希望的，作者得出结论，此处开发的算法可能在无创评估椎骨骨折风险方面具有巨大潜力。然而，同样需要记住的是，这些研究结果不能推广到不同的年龄、种族或女性。在另一项涉及普遍骨折女性人群的DXA结果和临床变量的近期研究中，开发了一种模型来识别易于随后发生脆性骨折的患者(Eur Radiol Exp. 2021;5(1):47；J Clin Med. 2022;11(9):2284)。开发的基于CNN的骨应变指数（Bone Strain Index）预测准确度接近80%，敏感性为75%，特异性为84%。作者的结论是，骨应变指数似乎是一个有用的DXA指数，可用于识别有进一步椎体骨折风险的患者。在一项基于超声技术(即超声衰减)的研究中，开发了一种基于CNN的模型来估计皮质骨的微结构特性(Comput Biol Med. 2019;114:103457)。最终模型能够以高精度预测(即量化)皮质孔隙度的微观结构参数。这在治疗监测中可能特别有用，以便在不暴露于辐射的情况下检测例如骨活性药物的骨合成代谢特性。另一个有趣的方法旨在开发用于脊柱的直接自动定量测量的ML算法，该算法用于在诸如骨质疏松症、椎间盘退化或椎间盘突出症(Med Image Anal. 2019;55:103-115)。对照T1和T2加权MR图像对模型进行了测试，所选30项基于MRT的腰椎指数的平均绝对误差分别为1.22±1.04mm和1.24±1.07mm，表现令人印象深刻。毫无疑问，此研究中开发的模型有潜力支持临床决策，但与大多数早期基于人工智能的解决方案相似，在大规模研究中需要进一步确认/验证。

　　基于DXA的骨小梁评分(TBS)是另一种间接测量骨强度的方法。已经表明通过使用基于像素的灰度级变化来捕获椎骨的形态计量特性，因此提供了超出DXA BMD单独提供的信息(J Bone Miner Res. 2011; 26(11):2762-2769)。出于这一原因，且不考虑某些限制，将TBS集成到骨折风险预测工具FRAX中，以调整计算出的10年骨折概率(如有指征)( Curr Opin Rheumatol. 2018;30(4):412-419)。到目前为止，尚未进行涉及AI支持的TBS的更大规模前瞻性临床研究，但在一项涉及接受骨合成代谢药物特立帕肽治疗的患者的更小规模回顾性研究中，人工神经网络分析显示TBS显著改善，这可能解释了已知的与BMD无关的骨折风险降低(PLoS One. 2020;15(3): e0229820)。

　　治疗决策支持

　　在过去的30年里，谁来治疗、何时使用以及使用哪种骨质疏松药物来最有效地降低患者骨折概率的问题一直是一个有争议的问题。目前，在全球大多数与骨质疏松症相关的科学协会中有一种共识，即遭受低创伤性骨折的患者应接受经证实的抗骨折效率的骨质疏松症治疗(Endocr Pract. 2020;26(Suppl 1):1-46；J Clin Endocrinol Metab. 2020;105(3):587-594；Osteoporos Int. 2019;30(1):3-44)。该方法基于强有力的证据，即首次骨折(有时也称为前哨骨折)是后续骨折的强有力预测因素，在骨折后的前12-24个月内发生概率最高(Osteoporos Int. 2017;28(3):775-780)。因此，在过去12至24个月内发生骨质疏松性骨折的个体被视为处于非常高(或即将发生)的风险(Osteoporos Int. 2020;31(1):1-12)。此外，目前推荐将骨合成代谢药物如特立帕肽或罗莫索珠单抗作为这些患者的一线治疗，因为与抗再吸收药物相比，它们具有更早和更显著的抗骨折功效(Osteoporos Int. 2017;28(3):775-780；Osteoporos Int. 2020;31(10):1817-1)。然而，对于何时在没有普遍骨折的患者中开始治疗存在较少的共识，尽管当前的概念基于这样的逻辑推断，即如果具有普遍骨折的患者必须接受骨质疏松症治疗，则任何其他人必须在他或她的骨折概率至少等于相同年龄和性别的患者的骨折概率的情况下接受治疗(Osteoporos Int. 2019;30(1):3-44)。但是，可使用不同的工具来计算患者的骨折风险，风险的分类(例如，分为高或非常高)可能根据各自的指南和/或建议而有所不同(Osteoporos Int. 2019;30(1):3-44；J Clin Endocrinol Metab. 2020;105(3):587-59；Endocr Pract. 2020;26(Suppl 1):1-46)。也就是说，相当大比例的骨质疏松症患者在接受“充分”治疗且已证实具有抗骨折功效时未能做出反应(J Bone Miner Res. 2014;29(1):260-267；J Br Menopause Soc. 2004;10(2))。

　　考虑到这些事实，毫不奇怪，在最近的过去，软件开发人员越来越努力地利用由不同医疗系统和供应商提供的以电子病历形式提供的大数据。例如，最近开发的预测治疗相关BMD反应的AI算法基于10年间随访的15 000多名骨质疏松症患者的电子病历( Sci Rep. 2021;11(1): 13811)。除了5200国际疾病分类代码（International Classification of Diseases）之外，该算法还考虑了约30 000个BMD结果和3500多种不同药物，但值得注意的是只有7个不同的实验室参数，其中总碱性磷酸酶是唯一一个与骨转换相关的参数。维生素D和已确定的骨吸收或形成标记物均不包括在内。然而，在所开发的7种不同ML算法中，在BMD增加方面预测治疗反应的性能最佳的一种算法显示接收器工作特性为0.70，准确度为0.69。除了任何相关的临床信息之外，这种基于人工智能的软件的典型打印输出还提供了潜在合格药物的列表，包括关于这些药物中的哪一种最可能与最高BMD增加相关的信息(图3)。图3 针对治疗反应不足的骨质疏松症患者提供的典型报告。药物名称由连续的数字代替。建议使用药物#3，因为它表明充分的骨矿物质密度反应的可能性最高。http://creativecommons.org/licenses/by/4.0。

　　小结

　　在过去的几年中，为了方便骨质疏松症的管理，已经开发了大量的人工智能算法，包括诊断、骨折风险评估、骨折检测、骨质量评估和治疗决策。在适用的情况下，此类解决方案与人类医师专家之间的性能比较显示出类似的结果，甚至支持人工智能算法。具体而言，包括AI支持的BMD评估机会性方法在内的放射组学与临床数据一起，似乎对骨折风险增加的患者的早期检测具有巨大潜力。然而，即使乍看之下研究结果似乎很有希望，但在新开发的人工智能算法背后的方法学方法应始终得到仔细阅读和批判性评估。使用不适当的参考标准或选择在临床实践中几乎没有或没有价值的特征(即变量)是在人工智能发展研究中经常发现的局限性。此外，并不总是很明显，所选择或开发的人工智能算法将导致优于简单的传统统计方法的性能。因此，在骨质疏松管理的人工智能领域，显然需要高质量的临床研究。这可以通过建立一个国际认可的最佳实践框架来实现，该框架考虑了人工智能开发人员、骨质疏松症专家及其各自的科学协会以及医疗机构(包括参与批准过程的机构)。一旦这些质量要求得到满足，人工智能变革骨质疏松症管理的潜力可能会被完全释放，并且对医生、患者和一般医疗保健的益处在未来可能会变得更明显和更有意义。全文约12000字

　　陈康 2022-04CK注：未来篇精选当前最前沿的内容，属于小众话题，很重要，但可以忽略......未来篇 l 2023ChatGPT和自然语言人工智能模型在糖尿病教育中的缺陷和潜力**未来篇｜2023肾上腺皮质癌的生物学和基因组学最新进展:新治疗的基本原理**

　　未来篇｜2021肾上腺脑白质营养不良的变迁（速览版,M）**

　　未来篇 l 2021糖尿病新机制药物临床研究进展**未来篇 l 2021新闭环胰岛素系统-传感器、胰岛素泵和控制系统**未来篇 l 2021基因筛查的伦理考虑**未来篇 l 2022改进2型糖尿病的分类**未来篇 l 2020全球疾病负担和内分泌代谢临床医生的责任**未来篇 l 2021缺氧途径的与PPGL临床进展：HIF2α抑制剂临床应用**未来篇 l 内分泌肿瘤系列-嗜PPGL进展PPT未来篇 l 内分泌肿瘤系列-PPGL临床分子分型*未来篇 l 2019恶性嗜铬细胞瘤和副神经节瘤的治疗：癌症标志的启示**未来篇 l 2021光声成像在内分泌和代谢中的应用(M)**未来篇 l 2020未来罕见病临床研究：ENSAT的ACC登记**未来篇 l 2021骨质疏松：分子和基因/遗传因素及多组学方法(全文)**未来篇 l 2019肾上腺皮质癌-基因组学指导临床治疗的价值（全文）**未来篇 l 肾上腺类固醇生物合成和代谢障碍及类固醇代谢组学分析-概述**

　　未来篇 l 单基因病/基因治疗系列-基因编辑治疗的起源、进展和伦理*

　　内分泌代谢病疾病 @CK医学

　　内分泌代谢病知识架构 @CK医学

　　内分泌代谢病分级诊疗 @CK医学PS：想入专业群的内分泌专科医生可以加微信CK-ENDO；仅限内分泌专科医生；加微信请标明身份：XX医院-科室-姓名-职称，否则拒绝加群，入群后也请将群内昵称改为：XX医院-科室-姓名。专业群仅限内分泌专科医生交流学习，暂不对其他科室人员或患者开放。其实能忍受上面如此枯燥的专科内容并且看到这个“PS”的，基本只剩下内分泌的专科医生了，但是，如果你是非内分泌专科医生，竟然也对这些内容如此感兴趣以至于看到了这两段PS的内容，甚至还想加群，那就按照PS中的步骤来吧，欢迎你