患者登记研究的策划与患者登记数据库构建:基于观察性设计的真实世界研究
目前,真实世界数据(real world data,RWD)和真实世界证据(real world evidence,RWE)逐渐受到专家和学者的广泛重视。2017 年 8 月,美国 FDA 提出将 RWE 用于医疗器械的监管和决策[],此举引起了各界学者对 RWD 和 RWE 的关注。值得注意的是,RWD 和 RWE 都属于广义的概念,并非某一种数据来源或某一种研究形成的证据[]。RWD 需要通过开展研究转变成 RWE。这些研究常被称为真实世界研究(real world study,RWS),包括试验性设计(实效性随机对照试验[])和观察性设计的研究。
观察性 RWS 根据原始数据是否基于特定研究目的分为两类。一类是基于具体的研究假设收集数据开展研究,如患者登记研究。这类研究与传统的研究方式类似,都是首先建立明确的研究假设,形成清晰的研究目的,继而建立研究方案,在不破坏实际医疗方案的基础上(仅观察)收集数据,建立研究数据库,进行数据处理和分析。第二类是在已有的数据库基础上(如医院电子病历数据、医保理赔数据库、民政部门和公共卫生部门的出生/死亡登记、公共卫生调查和公共健康监测数据等[])设定研究假设,然后利用数据库已有数据开展研究。这类研究的过程与传统研究方式存在较大差异。本文作为观察性 RWS 系列文章的第一篇,将详细介绍基于患者登记研究的策划与数据库构建。
美国医疗保健研究与质量局(Agency for Healthcare Research and Quality,AHRQ)在 2007 年首次发布了《评估患者结局的登记研究的使用者手册》(Registries for evaluating patient outcomes: a user’s guide),对患者登记的概念、流程、设计和评估等方面做了详细阐述,并在 2014 年进行了第三次更新[]。该手册所指的“登记”是指收集、储存数据和数据记录产生的过程。
登记研究(registry study),又称患者登记研究,是以临床治疗或卫生政策制定为研究目的,采用观察性研究方法来收集一致性数据的组织系统,用于评估某种疾病、状态或者暴露人群的特定结局,通常具备几个要素()[]。
首先,患者登记研究往往有明确的研究目的,或至少部分数据需要基于特定目的专门进行收集,这是区分于其他登记系统的重要特征;其次,患者登记的数据来源于医疗环境中的“自然”状态,是属于真实世界数据的范畴;再次,研究设计者并不干预患者诊疗方案,仅属于观察性研究;最后,患者登记是在既定研究目的基础上,收集真实世界患者数据,建立患者登记数据库,研究并回答多种与医疗相关的问题,其研究设计与观察性研究无异。
从形式上看,患者登记研究与传统前瞻性队列研究具有许多共同点。但前者具有更大的灵活性,包括在研究过程中调整研究目的、研究人群、收集数据、数据收集方式等。而传统前瞻性队列研究往往在研究过程中,对整个方案调整较少,尤其是针对主要结局指标等关键设定的修改较少。
在医学领域中,现存很多不同的登记系统。常见的包括:临床试验登记系统[, ]、器官移植登记系统[]、出生缺陷登记[]、法定传染病监测系统[]等。这些登记系统和本文涉及的患者登记研究存在本质上的区别。前者尽管在名义上也称为登记,但这些系统建立的初衷主要用于管理和监测,在建立之初可能并未考虑研究的需求和目的。当然,基于这些系统收集的数据仍可用于研究,但和本文阐述的患者登记研究不同。
根据研究对象不同,患者登记研究大致可分为 3 类:① 医疗产品登记,是指患者暴露于某种医疗产品。纳入标准是患者服用某种药品或使用某项医疗器械,此类研究目的往往是评价医疗产品的安全性、在真实医疗环境中的有效性和患者依从性等,如接受药物洗脱支架患者的登记研究[]。② 特定疾病或医疗状态的患者登记。纳入标准是患者诊断为特定疾病或具备特定医疗状态,如急性缺血性脑卒中患者登记[]。③ 医疗服务登记。将暴露于某种医疗服务的人群作为患者人群纳入标准,如冠状动脉旁路搭桥手术登记[, ],此外还包括参与某种疾病管理方案、质量控制措施或评估计划患者人群[]。此类登记一般是评估特定的医疗服务患者结局,是开展预后研究的重要数据来源。
当然,上述患者登记的类型可能有交叉和混合。如笔者正开展的非小细胞肺癌患者登记研究,属于特定疾病的患者登记;基于相同的人群可能同时开展特定靶向治疗药物的医疗产品登记,也可能开展针对特定手术切除术式的医疗服务登记。
患者登记研究可解决的科学问题多种多样,本文主要介绍目前最主要应用。相比回顾性数据库数据(如医院电子病历系统),患者登记能收集影响预后的因素(如生活行为因素、生物标志物等),形成较完整随访,获得患者远期结局,明显提高预测效果。同时,患者登记的数据收集流程和质量控制措施更加严格,尽可能控制了错分偏倚(misclassification bias)、回忆偏倚(recall bias)等,为进一步研究提供了高质量的数据来源。
通过开展特定疾病人群的登记研究了解疾病情况和分布特征,如我国开展的国家肿瘤登记[]、国家血友病登记[]等。患者登记也是病因研究的重要工具,尤其是对生活行为习惯、环境因素等患者自报变量与结局的相关性研究[, ]。此外,患者登记前瞻性随访患者结局,对研究疾病自然史也起到重要作用。
患者登记是研究治疗结局的重要手段,目前在效果比较研究(comparative effectiveness research,CER)和以患者为中心的结局指标研究(patient-centered outcomes research,PCOR)中广泛应用[, ],以评价多种干预措施在实际医疗环境中的疗效、危害和对患者报告结局影响。患者登记研究在治疗领域的应用主要集中于以下几个方面:治疗方式和模式调查,尤其是对于干预复杂的疾病[];治疗依从性和相关影响因素[];现有诊疗过程中未满足的需求调查;实际疗效和比较效果分析;对纳入人群的限制较少、可能存在多种合并症和合并用药情况[, ];治疗安全性及其影响因素分析[];治疗异质性分析[]等。
由于较完整地记录了患者诊疗过程,并可随访获得患者结局,因此患者登记可适用于临床预后研究。即可探索疾病发展的相关预后因素,也可基于多种预后因素建立风险预测模型。我国在多个领域开展了基于预后问题的患者登记研究,如急性中风患者预后研究[, ]、急性冠脉事件预后研究[]、乙肝孕妇预后研究[, ]等。
患者登记同样适用于医疗管理和医疗政策领域研究。一方面可开展与医疗费用和成本相关的卫生/药物经济学研究[],患者登记可获得患者完整诊疗过程和转归结局,又可获得相关费用信息。另一方面,开展临床医疗质量评价,特别是在干预复杂、目标结局多元化的情况下,多来源和多维度的信息可全面评价某项医疗政策对医疗质量的影响[]。
除上述 4 个方面外,登记研究还适用于临床试验不符合伦理要求而无法实施的情况。如少数医疗器械的临床研究与评价中,由于无法设立相关对照,而采用器械登记研究方式。此外,罕见病治疗也是基于注册登记开展研究。
一个成功的患者登记研究,其基础是研究策划。这不仅包含了科学层面的考虑,同时也包含对研究组织、资源考量。患者登记研究由于需要前瞻性收集数据和设计患者随访,因此在人力、物力和财力的需求往往较回顾性数据库研究更高。以下将具体介绍患者登记研究在策划过程中需要考虑的内容。
明确患者登记研究的目的是患者登记研究的第一步,也是最重要的一步。在策划研究时,首先需要明确拟解决的科学问题:这可能是一个问题,也可能是多个问题;在考虑多个问题时,需要明确哪些是主要问题,哪些是次要问题。有时,临床医生或决策者可能会关心众多的研究问题,因此,需要评估这些研究问题能被回答的可行性。此外,还需要明确需要什么样的核心数据,才能回答这些研究问题。
判断是否有必要开展患者登记研究受多个因素影响。首要考虑的是,所需数据是否已存在?回顾性数据库(如医院电子病历数据、医保数据、区域医疗数据)已为研究者提供了不同类型的医疗、成本和健康数据。在可能的情况下,使用这些数据是相对便捷和快速解决问题的办法。但在特定情况下,一些重要的数据并未被常规收集,如肿瘤患者生活质量数据、患者的院外结局、自购药情况、患者的生活行为习惯、社会经济特征等,回顾性数据库一般无法获得。在这样的情况下,需要开展患者登记研究。
此外,需要同等考虑的重要问题是这些数据是否可使用?如数据存在,但无使用权,基于回顾性数据库开展研究的计划也只能放弃,从而选择开展前瞻性的登记研究。
最后,数据质量是否能满足分析的要求?基于管理目的形成回顾性数据库往往存在数据缺失、变量定义不一致、没有严格质量控制等局限性。因此,即使能通过上述数据库获得部分研究所需数据,但受数据准确性、完整性的限制,可能仍然无法回答研究者想要了解的问题。这时患者登记研究是较好的选择。判断是否开展患者登记研究的框架见。
患者登记的可行性判断主要基于研究目的、研究资源、项目经费和人员配备方面等因素。研究者需要根据研究目的从科学层面考虑人群纳入的范围和数量、随访时间长短、获得数据方式、需前瞻收集的数据量。但这些问题并不是固定不变的,需要根据研究发起者拥有的资源、经费和能力进行调整。如开展多中心患者登记研究,研究者首先需要确定能否在多个医疗机构获得患者资源;其次,当部分数据需要从医院电子病历数据库中获得时,研究者是否能在各个医疗机构获得这部分数据;此外,数据收集的严谨程度与数据质量密切相关,采用电子化的收集模式可以实现在线传输、中央监控、即时报错等功能,但会增加成本。这些问题将大大影响研究的可行性,在资源和能力范围内开展研究是研究成功的关键。
患者登记研究团队的人员构成与研究目的、人群数量和范围等因素相关。小型、单中心患者登记可由单个研究者及其团队组织。但大规模多中心患者登记研究通常需要跨学科团队构成,至少应该包括:临床团队(主要由临床专业人员构成)、方法学团队(主要由临床流行病、药物流行病、统计专业人员构成)、研究管理和协调团队(主要由具备临床研究经验的协调人员构成)、信息化团队(主要由信息技术专业人员构成)。这些团队在研究中的职责存在差异,具体职责的划分会根据不同研究略有差异,需团队间协商确定。在一些研究中,也可能存在多个团队职责由同一群人承担的情况。此外,大规模多中心患者登记研究最核心的构成是由主要临床专业人员、主要方法学人员和主要项目管理人员组成的协调小组,整体负责研究的策划、实施、报告和分析,通常也称为指导委员会(steering committee)。
研究计划书是一个多学科共同协作完成的结果。通常,质量高、可行性强的研究计划书是由指导委员会完成的。研究计划书内容至少包括:研究目的、研究内容、研究团队及其职责、目标人群、数据来源、数据收集方法、数据收集流程、数据变量定义和规则、研究进度安排、质量控制措施等。与临床随机对照试验不同,患者登记研究虽然不需要强制性在公共平台注册,但我们仍推荐研究者注册患者登记研究,目前已有多个注册平台可供选择[, ]。此外,还会涉及到伦理以及知情同意的考虑,不再赘述。
构建患者登记数据库是开展患者登记的核心内容,涉及两个重要方面,即人和数据。因此,接下来我们将从这两方面阐述患者登记数据库的构建流程[]。
根据患者登记的分类,目标人群大致有以下 3 类:诊断为特定疾病、出现特定结局或具备某种状态的人群;涉及某种具体暴露的人群,这里的“暴露”是广义的概念,包括服药、使用医疗器械、诊疗流程或者其它医疗卫生服务[, ];参与某种疾病管理方案、质量控制措施或者评估计划的人群[]。在确定了患者类型后,需要进一步明确患者的分布和范围,以及明确的纳入标准。
上述目标人群可根据研究目的不同而存在 3 个层次的招募。首先是招募个体患者,如招募被诊断为某种罕见疾病的个体;其次是招募医生,即在该医生处就诊的所有目标个体都被纳入研究;最后是招募医院,即在该医院就诊的所有目标个体都被纳入研究。采用何种招募形式取决于研究目的、疾病患病率或发病率高低、研究时间安排、研究资源多少等,最终目的是为了获得偏倚较小的代表性人群。连续性纳入是常用的入组方法,可减少选择偏倚。
对于患者登记而言,根据研究目的不同,不一定需要进行样本量的估算。当建立患者登记数据库的目的是医疗管理时,可能存在多维度的目标结局,需要连续收集患者数据持续评估和监测,往往也缺乏样本量计算所需参数,此时样本量的计算不是必要。其次,在有明确的研究目的且需要样本量计算时,登记样本量计算主要考虑主要结局指标、登记的时间安排、临床效应的大小、研究设计、拟分析的数据结构和预算影响。在资源充分时,更多应考虑在计划样本量情况下如何确保数据收集质量。
由于需要前瞻性收集数据,如何进行登记的随访和维持是保障研究质量的关键。常用的随访方法有多种,如电话随访、网络随访等。为减少失访发生,在常见的随访方法上可能还需要采用多种技巧提高患者在随访期间的应答率。如对研究人员定期开展培训会,加强项目进展的沟通和宣传;对参与研究的各个研究地点或者医生开展定期数据质量评价和反馈;采用专门调查人员协助临床医生追踪患者;共享数据资源,提高研究人员的积极性等。总的来说,与回顾性数据库研究相比,患者登记研究的开展需要更多的人力、财力和周密的计划,因此专业的研究设计和数据管理团队的参与能有效提高研究质量。
建立高质量的患者登记数据库需要严格的数据收集和管理流程,主要的流程和步骤总结如 所示。
制作 CRF 表是临床研究的重要内容,首先应根据研究目的筛选数据要素,常见的数据要素包括:研究对象联系信息、纳入标准、疾病史、环境暴露、人口社会学特征、医疗服务提供者特征、经济学信息、主要结局指标、次要结局指标等。对于数据要素的选择除了研究对象联系信息、纳入标准等必要项目外,主要应平衡研究目标和资源。在资源有限的情况下,CRF 表过于冗繁,如随访次数过多或者随访期过长,都可能导致明显的数据缺失和研究对象拒答,降低数据收集的质量。
制定标准化的数据收集手册的目的是采用统一和系统化的方法收集研究数据。标准化的数据收集手册至少应包含以下内容:研究计划书、患者纳入排除标准、数据收集工具、数据要素的定义和规则、患者识别号的产生和分配规则、重复记录的预防和处理、CRF 表使用者手册等。其中数据要素的定义和规则具有重要意义,包括以下两个方面,一是数据字典,涵盖数据定义、数据来源、编码信息等;二是数据验证规则,包括数据逻辑核查规则、参考值范围等。
虽然患者登记研究没有人为干预患者接受何种医疗措施,但仍需将研究方案提交当地伦理审查委员会(institutional review board,IRB)接受审查和批准。对于多中心研究,建议在各中心均提交方案至当地伦理审查委员会以供审查;对于无伦理委员会的单位,一般可由项目负责单位完成伦理审查。由于需要前瞻性收集患者数据,患者登记研究需研究对象签署患者知情同意书,说明此次调查的数据和从其他来源获得的供研究使用的患者数据等相关内容。同时应特别注意隐藏患者个人信息,采取措施保障患者隐私和数据安全。
预试验是对患者登记研究中的研究流程、CRF 表、数据收集工具等方面进行测试,从而改进和优化研究。选择预实验的对象和范围应充分考虑我国医疗环境的异质性,不同医疗机构诊疗流程、疾病管理模式有较大差异,可能会出现既定的研究流程在部分研究现场无法开展的情况。开展预试验能帮助研究人员熟悉研究流程,及时沟通和反馈研究各个环节可能存在的问题。
患者登记需要较多人力投入,故需在研究开始前明确所有研究人员的职责。除患者和提供医疗服务的医生外,可能还需要现场调查员、现场协调员、数据录入员、数据审查员、数据分析员、数据工程师等。
根据研究目的和计划,数据来源可分为主要数据和次要数据。前者主要是指与登记目的直接相关的数据,需要通过事先制定标准化数据收集方法主动性收集。后者主要指与登记主要目的以外另需收集的数据,可通过整合已有数据库获得,如 HIS/EMR 数据库、医保数据库、人口出生/死亡登记等。
根据数据收集对象的不同,数据来源也可分为:需要向患者主动收集的新数据;临床医生或病历系统中新的或已存在的数据;医疗辅助系统中存在的其他数据,如实验室检查。第一种属于患者自报数据,后两种属于医生或医院报告数据。一般情况,患者自报数据需要主动性收集,医生或者医院报告数据可来自已有的医院管理数据库。
由于患者登记的部分数据可能来自已有的数据库,所以需要将部分数据从各种管理档案或者数据库中提取出来。数据提取与回顾性观察性研究类似,需要明确指标定义、规范化培训调查员、标准化的数据提取工具、采用重复录入的方式报告数据提取的准确率。从纸质病历或者 EMR 系统中提取数据是常见的提取方式,然后将数据转化成登记所需格式,再上传到登记数据库。
多种数据录入方式可供选择,包括纸质 CRF 填写后再录入登记数据库、电子 CRF 直接录入、移动客服端(如微信、app)录入、语音录入、扫描录入等。不同录入方式的选择主要取决与数据要素的数量、参与的研究单位数、研究单位的分布、登记的研究时间跨度、随访频率等因素。
目前,基于网络的电子化数据收集系统(electronic data capturing,EDC)在大型患者登记研究中使用非常广泛[]。除能实现本地录入/在线录入外,还能基于网络上传,以实现中央监控和云端储存,其功能已大大超过数据录入的范畴。通过设定数据逻辑和数据参考值范围,能在录入时尽可能减少错误的发生,自动完成第一次数据核查。通过连接网络,还能实时监控数据,了解数据收集进度,便于统计人员进行绩效评价,并能实现初步的统计分析,是数据管理的有利工具,推荐有条件的研究组织者使用该系统。
数据清理是对数据核查和纠错过程。首先应提前制作数据清理手册,包括需要清理的变量、预设的逻辑问题、数据的参考值范围等;其次,在数据录入时基于数据录入系统开展第一次自动数据清理,然后再对获得数据进行人工数据清理;对可疑的问题生成数据质疑报告,返回数据收集单位进行核实和更正;最后进行数据编码,并储存数据。
患者登记研究与传统队列研究有较多相似之处。有时,部分研究者甚至会将两者等同起来。总体而言,随着医学和信息技术的发展,两者融合越来越高,两者间确实有较大程度重叠,这在临床医疗(而非公共卫生)研究环境中尤其如此。但两者之间仍存在重要差异。
患者登记研究首先是一种数据收集模式,在明确研究目的和数据收集流程下,建立患者登记数据库。基于患者登记数据库,可根据不同研究目的,采用不同的流行病学研究设计,如队列研究[]、病例-对照研究[]、病例-队列研究[]、横断面研究[]、甚至包括基于登记的随机对照试验[]等。严格意义上讲,患者登记并不是某一种研究设计,而是先围绕目的形成的数据来源。此外,患者登记研究具有较强的灵活性,可在过程中调整研究目的、变换相关数据收集等。这在传统队列研究中是较少发生的。
传统队列研究是一种具体的流行病学研究设计,用于探讨特定暴露与结局的关系,常采用前瞻性随访。传统队列研究的数据也可来源于患者登记(这也是许多研究者将患者登记等同于前瞻性队列的原因之一)。在研究策划阶段,传统队列研究会形成明确的分组(即建立确切的暴露和非暴露),而患者登记根据类型的不同,不一定有分组。如在基于疾病的患者登记中(如非小细胞肺癌登记),临床医生和研究者关心的暴露因素可能会随着研究问题的变化而发生改变。
患者登记研究在众多临床医疗和卫生决策领域具有重要价值。同其他临床研究一样,高质量患者登记研究需要科学的研究设计、严谨的研究实施、准确的数据分析和多学科的紧密合作。由于篇幅限制,患者登记研究的其他内容将在后文撰述。