EP标准解读:应用ROC曲线评价诊断测试准确性必须了解的干货

2023
05/11

+
分享
评论
国瑞中安
A-
A+

对于如何通过评估诊断测试准确性来判断新诊断测试的临床表现是否优于现有产品,对企业的发展尤为重要,因此更需要专业人员或团队对标准进行深入的理解,以便更好的评估产品的诊断准确性。

1. 引言 当企业开发一款新的体外诊断试剂时,往往会关注体外诊断试剂的临床表现。我们如何来评估新诊断测试的临床表现?通常,我们可以通过评估其诊断准确性来判断新诊断测试的临床表现是否优于现有产品。为进行诊断测试准确性的评价,我们可以参考CLSI EP24标准

下面,小编将梳理EP24标准中框架及核心的内容并分享给大家,希望能够对大家理解如何应用ROC曲线评价诊断测试准确性有一定的帮助。

2. EP24 大纲

92921683767625131

EP24主要从基本评估研究的设计,ROC曲线的构建及解读这几个方面来讲述如何应用ROC曲线来进行诊断测试准确性的评价,小编将详细讲述相关重点内容。

3.  EP24重点内容解读

3.1 基本评估研究的设计

在进行临床准确度评估研究的设计考虑时,我们通常需要重点考虑受试者的选择、受试者真实临床状态的确定和受试者测试等关键因素。下面小编将梳理具体的需求来呈现给大家。

3.1.1 选择能够有效统计并符合预期的受试者

评估一种测试作为筛查工具的准确性时,那么研究样本应该代表要筛查的人群。通俗来说,就是要针对其预期用途来筛选受试者。在进行受试者选择时需考虑以下几点因素:

1) 选择偏差

当受试者不能正确地代表相关的目标群体时,就会出现选择偏差。为了避免可能影响研究的有效性或与所提出的问题的相关性的选择偏差,需要选择符合明确定义的入组/排除标准的受试者。

2)数据回顾性的选择或更改

不允许结果或测试程序影响受试者的筛选。排除非预期、模棱两可或结果不一致的样本,可能会使测试数据更完美,但同样也会扭曲测试的性能。

3)测试前选择

为了避免产生任何偏倚,将在测试中入组包括所有符合目标(预期使用)人群定义的受试者,直到样本量满足设定需求。一旦被选中,受试者不应该从研究中删除。如果一些受试者由于技术错误、分析干扰、死亡或缺乏随访没有完成研究,应在最终报告中说明它们(或者与其他数据一起制成表格,并讨论结果)。这同样也适用于不确定的测试结果,除非“不确定的”本身可以被视为一个测试结果。此外,还需要对负责从测试结果中确定临床状态的人员进行设盲,以确保客观性。

4)样本量的选择

在确定ROC曲线时,在不同决策水平上检测的受影响受试者的诊断准确性与之在相同决策水平上检测未受影响受试者的诊断准确性是互相独立的。该评估和ROC曲线的不确定性随着样本量的增加而减小。为了将受影响和未受影响的受试者的诊断准确性评估的不确定性降至最低,通常希望受试者中真正受影响和真正未受影响的数量大致相等。

3.1.2 受试者真实临床状态的确定 

诊断测试结果的标准要可靠,并且独立于进行评估的诊断测试来建立。对诊断测试准确性的客观评估需要将测试提供的结果与一些独立的、外部的真实定义进行比较。因为受试者的病情可能会随着时间的推移而改变,无论是自发的还是对治疗的反应,所以诊断的真相应该与测试同时确定。

1)评估的有效性

在评估一个测试的诊断准确性时,评价的有效性受到受试者真实状态准确性的影响。如果 “truth” 没有准确地给到每个受试者,那么一个完美的测试可能也会表现得很差。因为测试结果与设定的“truth”诊断不一致。另一方面,当测试结果与不准确的分类一致时,测试的评估结果会比实际情况更好。因此,需要尽可能正确地对个人进行分类,并考虑到分类方案所导致的结果中可能存在的偏差。分类越接近事实,任何被评估测试的性能失真的可能性就越小。

2)真正的临床亚组 

常规的临床诊断可能不足以用于评估研究。确定患者真正的临床亚组可能需要进行活检、手术探查、尸检、尸检、血管造影或对治疗反应和临床结果的长期随访。

3)分类方法 

在许多临床情况下,获得一个独立的、准确的患者的真实临床状况的分类是困难的。已经制定了几种方法来处理在确定真实健康状况方面遇到的困难。一种方法是根据可测量的临床结果来定义诊断问题(诊断分类或类别);第二种方法是采用共识、多数决定规则或专家审查,以得出一个较不那么容易出错的识别过程。

为了避免在评估一个试验的诊断准确性时存在偏差,真实的临床状态也应独立于正在调查或用于比较的试验来确定。

4)盲法评估

为了确保分类不受评估测试结果的影响,应该进行掩蔽(或盲法),即在不知道测试结果的情况下进行。此外,将每个患者划分为一个管理亚组的标准应该尽可能客观。例如当分类取决于主观评价临床或形态学模式,如放射性核素扫描或骨髓涂片,对每个病人的决定应该由专家对每个设盲的材料独立于其他而投票,从而达成共识。

3.1.3 受试者测试 

1)设盲

应对进行评估测试的技术员设盲,也就是说,不知道受试者的临床状态。否则容易产生偏倚。

2)同一样本

当比较两个或两个以上的测试时,最好是所有测试的受试者都是相同的,否则容易产生偏差。

3)测试环境 

在可能的情况下,建议使用同一批次产品测试所有样品,以减少中间不精确度。但是,应注意通过适当的储存条件来保持被测物质的稳定性。作为定义要回答的临床问题的一部分,必须定义测试环境。这包括诸如谁获得标本、在何时何地获得标本(如“到达后立即到急诊科”)、病人的准备、样本的储存以及实验室过程的技术监控等问题。如果当下测量值不稳定,则不应进行重复测试。

3.2 ROC曲线的构建

3.2.1评估该测试的诊断准确性

一项测试的诊断准确性是通过检查其正确地将个人分为两个亚组的能力来评估的,例如,受某种疾病或条件影响(因此需要治疗)的人的亚组和第二个未受影响的人的亚组。被评估的条件只有二元状态:存在或不存在。如果这两个子组的测试结果没有重叠,那么该测试就可以正确地识别所有人,并完美地区分这两个子组。但是,如果这两个子组的测试结果有一些重叠,那么该测试的区分能力并不是完美的。在任何一种情况下,都希望有一种方法来表示和衡量这种鉴别能力(即诊断的准确性)。

3.2.2 ROC曲线绘制

ROC曲线以图形方式显示了受影响和未受影响的特定样本组的测试表现的整个范围。因此,它是一个“测试性能曲线”,通过绘制所有灵敏度(1−特异性)对来表示测试的基本诊断准确性,这些对是由在观察到的结果的整个测量间隔内反复改变决策阈值而产生的。在y轴由灵敏度或TPF表征。在x轴由假阳性分数(FPF)(或1−特异性)表征。

举例:

图1展示了受试者的真实临床状态和待评估诊断测试的测量浓度,图2计算出了在不同Cut off区间时,相应的灵敏度、特异性等参数。

79141683767672515

 图1

13031683767680607

图2

以图2中每个Cut off浓度区间的不同灵敏度为纵坐标,1-特异性为横坐标,可以绘制出ROC曲线,如下图3所示:

53171683767704182

 图3 ROC曲线图

我们可以使用ROC曲线来根据医疗情况和临床情况来选择适当的医疗决策水平。在ROC曲线中,该测试的敏感性和特异性的各种组合是很明显的。同样可以明显看出,随着决策水平的变化,灵敏度以牺牲特异性为代价而提高,反之亦然。

3.2.3定量范围受限时ROC曲线的构造

43901683767745998

图4

ROC曲线将“角延伸到角”,即从(0,0),即0%灵敏度和100%特异性,延伸到对角(1,1),即100%的灵敏度和0%的特异性。然而,通常在量表的低端有一个测量区间,低于这个区间,人们认为不应该信任所产生的数字。测试间隔的高端通常不是一个问题,因为被测试的样品通常可以被稀释到在测试间隔内。由于对“低”间隔不可能进行这样的调整,所有在这个低区间的人都必须作为一个群体对待。例如,在“低于定量限度”的区间的情况下(见上图4),这也是量表的受影响端,假设24%受影响的人和3%未受影响的人在该低区间内有一个值。在这种情况下,ROC曲线的第一部分是从(0,0)到(0.03,0.24)的线段,为了解释,它可以简单地标记为“低”。在这个例子中,这条线相当陡峭(坡度= 8),反了“低”结果是相当好的疾病证据的事实。事实上,当这条线段的斜率>为45度时,这意味着使可测量的水平低于定量并不是一个无信息丰富的测试结果,而是有利于目标疾病。“高”的结果可能必须以类似的方式来处理。

3.3 ROC曲线的解读

我们可以使用两种不同的框架来解释ROC曲线。首先,该ROC曲线图本身可以用来找到最适合的待解决的临床问题的相应灵敏度-特异性。其次,可以评估任何ROC曲线的诊断准确性的总体测量方法(即AUC)。在这两个框架中,每个单一的情节可以单独解释。并且,每个框架也可以比较曲线和它们背后的测试。

3.3.1 ROC曲线与灵敏度和特异性的关系

1) 使用ROC曲线来确定决策水平

当从ROC曲线中确定一个灵敏度-特异性对时,用于生成该ROC曲线图的基础数据表也将指定生成该对的决策级别。应根据测试的预期用途和/或关于设备的类型来选择决策级别,有些设备可能需要独特的方法。选择这种灵敏度-特异性对的一种常见方法是在ROC曲线上找到在适当的意义上最接近左上角的点。这是最优灵敏度和特异性对。通常,这可以通过从右下角到左上角画一条线,并找到与ROC图的交点来实现,如图5,我们可以看到这一点对应决策阈值范围为7.0-9.5 ng/mL时,灵敏度和特异性都为0.75。

32971683767768759

图5

2) 使用灵敏度-特异性对来比较ROC曲线

ROC曲线与左上角的接近程度通常被用来确定该测试作为一种诊断测试的鉴别方法,并经常被用来比较两种诊断工具。使用这个标准,下图6显示了测试A比测试B更有鉴别能力,因为它的曲线跨越图的域位于测试B的曲线之上。另一方面,图7显示了两种诊断测试,它们在鉴别特性上表现得相似,但在不同的决策水平上灵敏度和特异性表现有差异。除了在两条曲线交叉的点,测试A在高特异性下的灵敏度高于测试B,但在较低特异性下,测试B的灵敏度高于测试A。

98371683767846110

图6

29411683767863338

图7

除了基于与左上角的接近程度来评估测试,另一种方法是先将灵敏度或特异性固定在一个预定的水平上来比较。

例如:为了排除症状不明原因患者的严重病理问题,我们可以通过指定灵敏度值和相对应的特异性来确保假阴性的低发生率。在图8(Figure 9)中,当预定的灵敏度为0.80时,测试A的特异性比测试B高得多。同样,我们也可以通过预定特异性值,然后确定相应的灵敏度来确保假阳性的低发生率。在图8(Figure 10)中,在预定的特异性为0.90时,测试A的灵敏度远高于测试B。

75301683767885656

图8

3) 利用灵敏度和特异性来确定样本量

可以通过设定预期的灵敏度和特异性来计算样本量,公式如下:nD表示有疾病的受试者数量,31481683767936384表示无疾病的受试者数量。

68811683767979537

其中,L是灵敏度或特异性的置信区间(CI)的一半的期望宽度,G(1−α/2)是标准正态分布的 1−α/2百分位,α是估计值的期望置信水平。当参数设定为95% CI(α = 0.05),L为0.05或0.1时,相应样本量的计算结果如下图9所示。

40171683767997439

图9

3.3.2  AUC (ROC曲线下面积)

量化具有单一数字的诊断测试准确性的一个常用的测量方法是AUC。数值范围从1.0(完美)到0(理论上) 。当根本没有诊断信息时(即,两个种群的测试结果具有相同的分布,ROC曲线沿对角线运行),则面积为0.5。所有具有实际价值的测试都应高于0.5,否则测试结果还没有优于偶然性结果,测试也就无意义了。

1) 计算AUC

AUC及其标准误的计算方法很多,统计学方法可用Wilcoxon非参数方法进行推算,目前已有相应的计算机软件可供使用。AUC值在 1.0 和 0.5 之间,当AUC 在 0.5~0.7 区间时有较低准确度,AUC 在0.7~0.9区间时有一定准确度,AUC 在 0.9以上时有较高准确度。AUC=0.5 时,说明试验方法完全不起作用,无诊断价值。AUC<0.5 不符合真实情况,在实际中极少出现。

AUC的测量可以被视为所有可能特异性的平均灵敏度值(特异性范围为1.0)或所有可能灵敏度的平均特异性值(灵敏度范围为1.0)。如下图10(Figure 11)所示,在一个确定的特异性区间内的平均灵敏度也可以通过计算部分AUC并除以这个特异性区间的宽度得到。以类似的方式,平均特异性可以在一个确定的灵敏度范围内被确定,如图10(Figure 12)所示。

66881683768099463

图10

这种平均测量在只有一个确定的准确性范围(灵敏度或特异性)是临床可接受的情况下是合适的。

2) 两种测试的AUC结果比较

多种诊断试验的直接统计比较在临床实验室中是常见的。通常,对相同的受试者(或样本)进行两次(或更多)测试。这通常被称为“成对设计”。

一种全局方法是通过使用整体测量,如AUC来比较整个ROC曲线。这可以非参数或参数地执行。这对实验室尤其有吸引力,因为比较并不依赖于特定决策阈值的选择。然而,在比较测试时,用户应该始终直观地检查ROC图,而不是仅仅依赖于将所有信息压缩成一个数字的汇总度量。图7提供了一个很好的示例。在本例中,两个测试具有相似的AUC,但一种向右倾斜,另一种向左倾斜,这使得测试A在高特异性下比测试B更灵敏。

比较两个AUC的一个看似自然的统计选择是AUC的差值除以差值的标准误(SE)。假设H0:AUC1 = AUC2,通过比较z的值与标准正态分布来检验,因为z统计量近似有一个标准正态分布。如果|z|为> 1.96,则两个AUC在α=0.05的显著性水平上存在显著性差异。

63851683768037154 3) AUC结果比较的不同方法

如上节,Hanley和McNeil讨论了在配对设计中比较两个AUC(即平等检验)的方法。(这种方法使用了Dorfman和Alf计算AUC及其SE的方法)。

另外,还有一种非参数方法来比较配对设计中的两个AUC。配对设计的检验统计量有引入附加的项:相关系数r。

28591683768124863

下图11列出了不同的平均相关值和平均面积的相关系数r。行值是通过取两个相关性(rN + rA)/ 2的平均值得到的。这里,rN是两种不同测试未受影响受试者的相关系数,rA是受影响受试者的相关系数。列值是两个AUC的平均值(A1 + A2)/ 2。

81601683768139312

图11

4)  利用AUC比较平均敏感度或特异性

当我们想要比较两条曲线时,AUC并不总是一个有用的汇总统计量。最明显的例子是,当两条ROC曲线交叉,但具有相同的AUC时,如图7所示。曲线交叉的事实告诉我们,一种测试在某些临床环境中比另一种表现更好,在其他临床环境中反之亦然。在这类情况下,应根据临床需求来设定测试的比较方式。

例如,如果必须在两个测试中进行选择,并且它们的ROC曲线发生交叉,但AUC几乎相等,则可以考虑仅在高特异性水平下比较测试的灵敏度。先确定可接受的特异性水平,然后比较受该特异性(或FP)间隔限制的测试的平均灵敏度。

5)  利用AUC来确定样本量 

确定ROC分析的样本量要求的两个经典参考文献是Hanley和McNeil的论文。这些论文中描述的技术涵盖了三种不同的案例:一个样本案例、具有独立样本的双样本案例,以及在同一受试者上进行两种测量的双样本案例(如配对设计)。

4. ROC曲线的作用

ROC曲线方法简单、直观、通过图示就可以观察分析诊断测试的准确性。

ROC曲线的主要作用如下:

1)可以判断一个测试结果是否优于偶然性结果

2)选择最佳的诊断阈值,ROC 曲线越靠近左上角,试验的灵敏度和特异性越高,试验的准确度就越高

3)ROC曲线能很直观地看出不同决策阈值对疾病的识别能力

4)用于两种成两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC 曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的 ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC 最大,则哪一种试验的诊断价值最佳。

5. 总结

以上是对EP24:应用ROC曲线评价诊断测试准确性的解读,通过这篇文章,相信大家对ROC曲线已经有了基本了解。对于如何通过评估诊断测试准确性来判断新诊断测试的临床表现是否优于现有产品,对企业的发展尤为重要,因此更需要专业人员或团队对标准进行深入的理解,以便更好的评估产品的诊断准确性。

38161683768182699

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
ROC,灵敏度,受试者,AUC,样本量,EP,诊断

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交