基层卫生研究中的数据缺失:重要性,影响和解决方法

2021
07/13

+
分享
评论
中国全科医学
A-
A+

基层卫生研究是多方面的,在患者,临床医生和卫生机构水平都会出现数据缺失情况,这可能会对研究结论产生负面影响。


本期公众号对英国牛津大学家庭医学期刊38卷第2期文章翻译整理,对基层卫生研究中数据缺失的定义、机制以及解决方法进行介绍,希望与各位研究者及临床工作者共同学习。

介绍:

 

在关于基层卫生的所有研究设计(随机试验,观察性研究,质量改进研究等)中,数据丢失是一个普遍现象。我们将缺失的数据定义为调查人员无法获得的但对最终分析结果产生影响的数据。例如失访造成的数据缺失因部分患者调查表填写和医疗记录不完整造成的数据缺失等数据缺失可能会损害研究结果的有效性(例如,偏倚风险增加,样本代表性不足,信息丢失,统计能力下降等)。多项研究表明,数据缺失发生率很高,可能会对基层卫生研究的结论产生负面影响解决数据缺失的整体方法应涉及设计阶段(研究之前),实施阶段(研究期间)和分析阶段(数据收集完成之后)

本文介绍了有关丢数据缺失的关键概念,并讨论了在有数据缺失情况下,进行基层卫生研究时应遵循的做法。

在设计阶段(研究之前)处理数据缺失




无论使用哪种方法来解决数据缺失,都需要对导致数据缺失的机制进行假设。这些机制可能不精确且无法验证。因此,首先采取措施防止数据缺失,和数据缺失的分析方法同等重要

 

在基层卫生中有许多独特的随机试验设计。这些设计运用管理信息,如电子健康记录(EHR)和患者自我报告数据。在随机试验的设计中,有大量文献为如何避免数据丢失提供指导。通常,这些方法包括:(1)确定干预措施服务不足的目标人群,这些干预措施可能会促使他们继续留在研究中;(2)在适当的研究问题中,利用以患者为中心的适应性干预措施,以满足不同医疗机构中患者的具体需求,并通过激励患者/医师在整个研究过程中保持参与状态,避免患者/诊所的治疗终止;(3)将干预措施添加到现有研究设计;(4)选择不易受到广泛数据缺失影响的结局(例如易于定义的标准化质量指标或临床结局,可广泛使用的可收集标准化协议的生物标志物以及简洁,已经过验证,语言适当的调查工具)。

 

对于利用行政管理和临床数据(例如EHR)(这是基层卫生研究中的常见数据源)的观察性研究,可以考虑以下几点以减少数据缺失:(1注重可作为常规临床实践的一部分且可以不断收集的变量;(2)设计明确的数据收集程序,仅着眼于有意义的数据,以最大程度减少数据收集者的工作量;(3)识别并链接多个数据源以更好地捕获重要变量(例如,可以将行政管理和EHR数据中的种族/民族字段设置链接并用于填充缺失值);加强流行病学观察研究的报告(Strengthening the Reporting of Observational Studies in EpidemiologySTROBE)为如何将设计观察研究考虑在内提供了很好的指导,并为如何记录缺失的数据提供建议。

 

简而言之,重点在于在大规模实施之前减少调查负担(例如,限制调查时间)并进行预调查,以确保捕获解决主要研究问题的要素以及可能对解决这些问题方法有用的信息,从而确定缺失的数据。


在实施阶段(研究过程中)处理数据缺失




对于前瞻性研究设计,在研究进行期间(分析之前)也可能会有数据丢失。下表根据已发表的研究提出了有关在此阶段如何最大程度减少数据缺失的建议。

 

在研究实施阶段减少数据缺失的建议

考虑多种评估方法。如果患者无法前往医疗机构接受对研究的措施评估,考虑进行远程居家访问,对患者自我管理情况进行调查。

考虑使用辅助数据源进行检索。如果征得患者同意,考虑从他的电子健康记录,图表审查等结果中纳入一些措施进行检索。

如果出现随访中断,请尝试收集中断原因。如果患者或机构决定中断,考虑最后一次与他们联系结果,以了解其退出原因,并将该信息纳入分析阶段或为研究结果提供背景信息。

监测数据的收集。在研究过程中定期进行数据检查可发现丢失的数据并及时采取解决措施。行动可以包括对数据收集过程的修改和收集人员的培训。

与专家合作。招募和聘用在入组方面有良好记录并成功追踪先前研究中患者/机构的研究团队成员。

提醒研究团队和研究参与者有关完整数据的重要性。定期提醒成员,无论患者还是机构,继续在指定的研究部门工作,信息收集同样重要。

更新联系信息。定期对机构和/或患者进行查询以保持其最新信息,以避免因失去诊所和随访患者导致的数据缺失。

采用吸引策略。对于机构和参与者,利用新闻通讯,博客和激励措施来促使其完成调查(例如完成调查可进行随机抽奖或优惠券发放等)。

与诊所合作以了解基本的临床研究。在临床限制范围内,与临床医生和工作人员一起审定研究方法和数据收集的基本原则,包括完整数据的重要性。


在分析阶段(研究后)处理数据缺失




即使在研究过程中非常谨慎,数据缺失也是不可避免的。在设计阶段计划独立采用分析方法来解决数据缺失是一个良好习惯。由于研究设计和数据丢失的原因可能会有所不同,因此没有一种适合所有情况解决数据缺失的最佳方法。在选择一种方法之前,重要的是要确定导致数据缺失的潜在机制。


数据缺失类型




数据缺失可分为三种类型:完全随机缺失(Missing Completely at RandomMCAR),随机缺失(Missing at RandomMAR)和非随机丢失(Missing Not at RandomMNAR)。当数据为MCAR时,所有观测值缺失的可能性均相等。如果数据为MAR,则表明缺失的可能性仅在由观察到数据定义的组内相等。当数据为MNAR时,由于不可观察的原因,丢失的可能性有所不同。为了说明这些概念,请考虑以下情况:例如假设研究人员想要研究在他们的医疗系统中是否可通过种族/种族差异进行大肠癌筛查。由于随机故障在邮件中丢失了患者粪便潜血测试(FOBT)邮寄工具包的样本,我们可以说该数据为MCAR。与正在研究的患者无关的数据缺失情况(例如体重秤损坏,邮件丢失等)通常被认为是MCAR。在MCAR情况下,大多数处理数据缺失简单解决方案(例如完整案例分析,指标缺失方法,单值插补,最佳/最坏情况下的敏感性分析)仅能提供非偏倚数据,尽管估计可能不够精确。

如果数据缺失确实因患者引起,则数据为MAR,但是可以从有关患者的其他信息中预测缺失成分。例如,如果患者因为说明不会英语而不能使用FOBT工具箱邮寄,但他们会西班牙语,并且已知患者的首选语言,同时患者未发送工具箱的原因与筛查结果无关,这些缺失的数据是MAR。在MAR情况下,可以利用其他的可用数据来解决数据缺失;解决数据缺失的大多数统计方法都假定存在MAR

 

不符合MCARMAR的数据缺失属于MNAR。当数据为MNAR时,这是因为缺失的数据之间密切相关。例如,如果患者因为对标本的采集感到不舒服而没有邮寄FOBT试剂盒,那么我们可以说这些缺失的数据是MNAR;每当缺失的数据与缺失的内容相关时,即表示为MNARMNAR存在问题较多,也是最复杂的情况。在一项研究中,数据可能是MAR/MNAR,很少是MCAR


解决数据缺失的常用分析方法




解决缺失数据的方法有四种常见类型:(1完整的案例分析;(2)单次归因;(3)逆概率加权;(4)多重归因。

 

完整的案例分析(即逐列表删除)是一种从分析中删除所有缺少数据患者的方法。这通常是处理多种统计软件程序中数据缺失的默认方法,虽然实现起来很方便,但它通常依赖于不切实际的假设,即假设数据丢失类型是MCAR,这可能会导致估计偏差并降低统计能力。

 

单次归因是用单个数值填充数据缺失的方法。包括末次观察推进(例如在纵向研究中,使用观察到的最后一个值作为缺失值),均值插补(例如缺少体重指数[BMI],估计观察到BMI患者的均值并使用该平均值)等。

 

逆概率加权是仅利用完整病例(即具有完全观察数据的患者)的方法。这些完整病例的权重是它们成为完整病例概率的倒数。直觉上,完整的病例可能与缺少数据的病例有所不同,因此可能无法代表更广泛的人群。因此,逆概率加权可以为样本中代表性不足的患者分配较大的权重,为样本过多的患者分配较低的权重,以使样本看起来更像人群。

 

适用于横断面和纵向设计的多重归因是单次归因的扩展,通常使用标准回归方法填充缺失的数据,并使用多个合理的值来说明估算值的不确定性。下图显示了涉及多重归因的三个主要阶段:(1)根据之前的分析研究计划生成m个归因数据集;(2)分析m个归因数据集;(3)使用多重归并合并规则产生一个单一的估计值。


例如,在多个归因阶段中,患者之间的平均血红蛋白A1cHbA1c)是目标参数,并执行了m = 3归因。

注:多重归因从不完整的数据库开始。通常根据回归模型,在基于专门针对缺失值建模的分布中随机抽取,通过将缺失值替换为合理值来创建多个估算数据集。对每个估算数据集进行分析,以估计合适的参数。这些估计值合并为参数及其方差的单个估计值。

 

从观察到不完整数据开始,多次归因通过用合理的数值替换缺失的数值来创建数据的多个版本作为每个估算数据集的参数,然后将多个参数估计值合并为一个估计值。虽然没有通用的准则规定要执行的归因数量,但建议归因的数量应与不完整病例的百分比相似。


数据缺失超过多少被认为是丢失过多


 



 

即使统计推断出现有效影响的缺失数据量,没有通用准则。包括丢失量(例如数据丢失的百分比),丢失原因与包含缺失变量之间的相关性,以及丢失原因与缺失本身之间的相关性在内的几个特征。通常,缺失数据的百分比越低越好。小于5%的缺失百分比被认为是微不足道的。一项研究发现,如果缺少10%或更多的数据,分析可能会产生偏差。另一个建议是,如果缺少40%以上的重要变量数据,则应将结果视为假设生成的结果,而不是经过证实的结果。但是,另一项模拟研究表明,不应将缺失数据的比例作为是否使用多重归因等方法的准则。相反,研究鼓励使用诸如多重归因之类的方法,来减少偏差并在缺失任何比例的数据时提高效率。

 

在不同的调查研究中,可接受的回应率各不相同。一个“经验法则”确定的可接受回应率为60%。一些机构可能会要求使用回应率达到75%的调查方法,而在已发表的研究中发现存在回应率低于30%的调查研究。回应偏倚(即回应者与非回应者不同,不能代表整个调查人群的想法)在回应率较低的调查中更有可能出现。

 

即使在数据缺失最少的情况下,通常也建议使用一种解决数据缺失的分析方法,将数据缺失类型假设为MNAR进行敏感性分析,以检查研究结果的稳健性,例如模式混合模型(pattern-mixture models)和选择模型(selection models


结论




基层卫生研究是多方面的,在患者,临床医生和卫生机构水平都会出现数据缺失情况,这可能会对研究结论产生负面影响。研究人员应与统计学专家合作,在设计阶段(研究之前),实施阶段(研究期间)和分析阶段(研究完成数据收集之后)中识别并采取方法缓解数据缺失。了解数据缺失机制(MCAR/MAR/MNAR)对于指导研究人员了解研究局限性和确定合适的分析方法非常重要。若有多种方法可以解决丢失的数据,应固定选择其中的一种或多种方法。通过确保正确处理数据缺失,基层卫生研究将继续提高严谨性并为循证实践提供依据。


-END-

编辑:曹新阳

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
重要性,基层,缺失,数据,卫生,影响

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!