科普一下!统计分析计划(SAP)的5个W: What, Why, When, W

  统计分析计划(SAP)的5个W:

  What, Why, When, Who,Where

  生物医学研究目前被大量的不可重复性的研究结果所困扰。随着大型数据库和功能强大的统计软件的出现,无需合理的假设,研究者就可以基于数据即可轻松找到关联并从中得出结论。

  这种方法产生的关联性往往缺乏临床意义,充斥着假阳性或者偏倚结果。为了提高临床试验的可重复性,透明度和有效性,很多顶级的期刊都需要提交原始统计数据分析计划(Statistical Analysis Plan)以及研究方案。

  进入21世纪以来,临床研究特别是临床试验,统计分析计划愈发重要,2020年,我们公众号和想对临床试验的研究设计与统计分析说两句。首先,今天郑老师特来说道说道,SAP的5个W: What, Why, When, Who, Where。

  

  What?

  SAP是什么?SAP中文名为统计分析计划,又被称之为数据分析计划。它主要作用是描述如何分析我们研究项目的数据。简单来说,它描述一个医学项目中,如何采集变量和结局资料、如何运用合适的统计学方法来分析它们。

  提到SAP,就不得不提到研究方案(Protocol),两者有一定的重叠之处。研究方案内容主要包括研究设计、入组标准、主要和次要结局指标、统计分析方法、偏倚控制方法和样本量计算。研究方案将会包括SAP的主要内容,但是SAP会展示更详细的分析结局的统计分析方法、测量结局和预测变量的设置,要考虑的协变量和控制变量、置信区间(95% or 99%)、多重比较问题,以及缺失值如何处理等事宜。一般来说,SAP和研究方案形影不离。我们撰写和提交研究方案同时都需要附上SAP,特别是临床试验研究。

  一篇优秀论文的方法部分,都要提及你的论文有没有统计分析计划。如果有,需要写清楚是否在锁库之前撰写SAP、数据分析方法是否按照SAP执行。如果没有按照SAP进行统计分析,那么方法部分需要写明是哪些结果是事后分析(post hoc)分析产生,俗称马后炮分析法。它就意味着你的结果是数据驱动产生,属于探索性的结果。

  Why?

  为什么要撰写SAP?目前,生物医学研究结果的不可重复性、方法的不透明、潜在的不正确的临床实践建议推动了统计分析计划。理论上来说,如果给我们某个临床研究项目的最终数据库、研究设计方案、CRF表、数据采集过程和SAP,我们完全可以按照SAP分析得到与研究者完全一致的结果。这将意味着一项医学研究的结果可重复。因此,SAP的作用非常明显,保证医学数据研究过程及分析过程的完全透明,提供研究质量。

  很多期刊都要求论文投稿者提供详细的统计分析方法,要求论文报告遵循论文规范指南,比如临床试验的CONSORT、观察性研究的STROBE。

  SAP另外一个好处是,它可以促进统计分析人员和研究者的沟通,提高数据分析的效率,提高结果的内部真实性和外部真实性。

  When?

  SAP应该与研究方案同时完成,必须数据分析之前完善。在试验性研究中,SAP可在揭盲前和分析前进行进一步的修改和完善。如果SAP需要进行完善,我们必须写明修改SAP的理由以保证透明度和外部真实性,必须阐明这些改变在揭盲之前。在观察性研究中,SAP必须在锁库和数据分析前完成,这样可以预防为实现我们想要结果而实施带有偏倚的“数据挖掘”。

  历次SAP的修改应该注明版本号和时间。

  Where?

  SAP放在哪里呢?SAP是一个独立文件,类似于研究方案、知情同意书、标准化操作流程(SOP)和CRF。SAP一般和其他文件一起方便阅读和查阅,统计分析人员和数据安全监察委员会各持一份,一般来说,临床注册中心,无论是中国的还是美国的,希望研究者递交他们的SAP。虽然观察性研究对SAP规定不那么严格,但是很多研究者同样递交了他们的SAP。

  Who?

  谁负责撰写SAP呢?SAP一般由研究者和统计师共同完成。研究者主要负责研究目标、研究变量(干预或者暴露因素、协变量、结局变量)等,统计师主要阐明研究的问题或者假设,明确研究问题相应的结局变量,阐明如何控制偏倚,计算样本量,决定应该采用何种统计学方法进行数据分析。

  统计师一般是会被列为共同研究人员,在研究设计和统计决策中都少不了他们的身影。临床研究项目从研究设计开始必须让统计师参与项目和SAP。统计师熟悉研究设计、抽样方法和统计分析方法,比如如何计算样本量,统计分析软件和相应的不足之处。

  

  现在我简要罗列一下,SAP撰写涉及的10点关键内容。

  1. 目标和假设

  清晰的研究目标和假设对于任何研究都十分关键,它们应该在设计阶段获得清晰地鉴定。尤其在回顾性研究中,我们可能对数据库不熟悉,因此必须首先阐明假设或者研究问题。清晰的研究目标可以避免为得到阳性结果而进行的投机取巧式数据分析。其实,阴性结果也同样重要。

  2. 主要和次要结局

  我们们必须清晰地阐明研究的主要结局和次要结局指标。比如,如果血压是一个结局,那么我们必须指明是干预之后的收缩压,还是收缩压的差值,还是冠状动脉压?何时测量的血压?结局必须明确,定义必须清晰。

  3. 抽样和样本量

  临床研究存在着很多形式的抽样来减少偏倚,虽然随机抽样最为常见,但它不一定都能够实现。所以任何SAP都要阐明抽样方法。当然,还包括样本量,这十分关键。除了大数据临床研究,SAP必须要介绍样本量和计算方法。

  4.效应值

  研究需要明确效应值是什么?如果不明确效应值,我们就难以评价治疗措施的效果。如果不明确效应值,我们也无法计算样本量。比如两组均数比较,需要均数差值和标准差。

  5.置信区间

  统计分析中,P值很重要,但比P值更重要的是置信区间。SAP必须指明置信区间的置信度95%或者99%,同时也要指出计算置信区间的方法,比如需指明率的置信区间要用到Clopper-pearson 还是正态法。同时,置信区间要注意是单侧还是双侧,也要注意多重比较调整检验水准a时,是否要调整置信度的问题。

  6.期中分析

  在前瞻性临床研究中,期中分析往往能够起到很大的帮助,它在学术上、经济上、伦理学上都有很大的好处。正式的期中分析计划要有个临床试验提前终止规则,SAP中需要写明因为有利或者有害的终止条件。后续的统计分析应该按照既定的期中分析计划进行,非计划内的分析会产生偏倚。

  7.次要分析和多重性问题

  很多研究中,亚组分析是非常重要的内容。一般可靠的亚组分析,必须要在统计分析计划中写明,否则也是post hoc分析,其结论不可靠。亚组分析一般建议基于分层随机的前提下进行。

  多重比较是临床研究重要的话题,统计分析计划必须明确如何控制多重比较带来的一类错误,或者family‐wise error rate (FWER).一类错误会发生在多组比较、多结局指标以及亚组分析中。常见的多重比较控制一类错误的方法包括Bonferroni 校正、固定序列检验等。

  8.偏倚

  SAP不具体介绍如何控制偏倚,但实际上SAP本身的目的之一就是为了控制各种偏倚,包括选择偏倚、测量偏倚、混杂偏倚等。统计分析计划撰写时候,需要考虑本研究存在着的各种可能偏倚,并且逐一想办法控制在最低水平。

  9.分析方法

  研究的任何有目的,都应该专属的统计方法,同时各种统计学方法都要进行论证应用条件是否成立。统计分析应该报告P值和置信区间。除了主要结局分析,也要指明主要进行哪一些亚组分析和次要结局,采用的统计学方法是什么,尽量减少post hoc 分析。

  10. 缺失数据处理

  无论是临床试验还是观察性研究,数据缺失现象不可避免。因此,在SAP应该写明缺失数据的处理方式,用什么机制、采用什么统计模型来处理。同时样本计算也要考虑失访问题而增加一定比例。

  参考文献

  1.国家药监局:药物临床试验数据管理与统计分析的计划与报告原则。2016

  2.贺佳.临床试验统计分析计划及统计分析报告的考虑[J].中国卫生统计, 2015, 32(03): 550-553.

  本文到此结束,欢迎分享。部分文字来自于网络,若有不合适,请联系公众号删除!

  详情请点击下方:

  科普一下!统计分析计划(SAP)的5个W: What, Why, When, Who,Where关注“医学论文与统计分析”,获取更多精彩内容