更长的中位PFS疗效就一定好吗?小心这可能是个陷阱
在针对晚期肿瘤的临床研究中,中位无进展生存期(PFS)经常被用来反映研究方案的治疗效果。但同样的方案和设计在不同的研究中取得的中位PFS可能有很大的差异;另外有一些试验组和对照组中位PFS没有差异的研究却可能依然是阳性的结论。这些问题可能就是 “中位PFS陷阱” 造成的。
首先我们从总生存期(OS)开始说起。 晚期癌症的治疗目的是延长患者的OS,所以对于晚期癌症的临床研究,OS是有效性评价的金标准。同时,OS还具有测量方法简单、数据准确的特点。但选择OS为终点依然存在一些缺点:

PFS在很多研究中被视作评估研究方案疗效的替代终点。相比于OS,以PFS为终点所需样本量较少,随访时间更短,并且不受后线治疗的影响。 但是PFS依然有一些缺点,比如:

同时,OS和PFS一样,受患者基线状态影响很大,因此很难将不同研究的中位PFS直接进行比较。如果采用PFS为主要终点,监管部门一般要求采用RCT的研究设计,增加风险比(hazard ratio,HR)的指标,从而对研究结果进行更好的判断。 虽然OS和PFS各有优劣,但是为了促进肿瘤患者有更多药物可以选择,美国食品和药物管理局(FDA)近期考虑推出一个促进肿瘤早期治疗药物加速审批的计划,鼓励用随机对照试验的非生存数据(即替代终点,surrogate endpoints)进行上市申请。也许在未来,PFS的结果可能会作为更多药物获批上市的依据。 在解读一项研究的PFS时,往往会关注两个结果:中位PFS和两组PFS事件的HR。那么这两个结果有什么异同呢?为什么说中位PFS存在解读陷阱呢? 以TAGS研究为例。该研究是一项随机、双盲、3期临床研究,共随机507例晚期后线胃癌患者。试验组接受复方制剂TAS-102联合最佳支持治疗(BSC),对照组接受安慰剂联合BSC。关键次要研究终点PFS分析结果显示,相比较对照组,试验组降低了43%的疾病进展和复发风险(HR=0.57,95%CI 0.47–0.70;P<0.0001),但是如果我们看中位PFS会发现,两组区别并不大(2.0个月 vs. 1.8个月)。而研究方案规定随访间隔为每8周一次,这导致第一次进行进展评估时,试验组超过50%,对照组超过80%的患者都已经进展,实际中位PFS无法估计,整个研究的PFS结果出现了偏倚。为避免这种偏移,可能在研究设计之初就需要考虑研究评估间隔是否小于两组预设中位PFS的差值,当然,对于这项研究来说,差值实在很小。
图1:TAGS研究PFS结果
从两组患者PFS的K-M曲线我们可以看出,由于随访间隔的问题,两组中位PFS很接近,但2个月之后两组PFS有分开趋势。虽然这样的分开趋势是不能从中位PFS的结果中看到的,而HR值却可以相对更好的反映两组方案的治疗差异。实际上,TOGAS研究的主要研究终点OS结果显示,试验组明显优于对照组。
我们知道HR和中位PFS都用来评估临床获益的大小,不同的是,中位PFS是一类绝对指标,更直观,但它反映的是某一个点的数据,并不能完全反映整体的获益情况,在某些情况下甚至会夸大或降低临床获益。
而HR更加全面、稳定,它更多反映两组数据整体的差异。一个临床研究阳性,表明HR的95%CI上限<1,并不代表中位PFS之间一定存在统计学差异。 以LUX-Lung 7研究为例,该研究是一项随机、开放、2b期临床研究,共随机319例晚期一线EGFR突变非小细胞肺癌患者。试验组接受阿法替尼,对照组接受吉非替尼。研究结果显示,两组中位PFS分别为11.0个月和10.9个月,绝对值仅相差0.1个月,从中位PFS看两组治疗效果似乎并没有区别。但是,两组HR为0.73 (95% CI,0.57–0.95; P = 0.017),结果具有统计学显著性。
图2:LUX-Lung 7研究PFS结果
再来看一个更极端的例子,304研究是一项随机、开放、3期临床研究,共随机530例晚期后线乳腺癌患者。试验组接受艾立布林,对照组接受长春瑞滨治疗。结果显示,两组中位PFS相同,均为2.8个月。那是不是两组PFS就没有差异呢?从PFS的K-M曲线可以直观看到两组结果并未完全重叠。而分析结果显示,两组PFS的HR为0.80 (95% CI,0.65–0.98; P = 0.036),结果具有统计学显著性。
图3 | 304研究PFS结果
与以上例子中中位PFS未能反映两组差异不同,有些情况下中位PFS会夸大两组的差异。CheckMate 057研究是一项随机、开放、3期临床研究,共随机含铂双药方案经治进展的晚期非鳞非小细胞肺癌582例。其中试验组接受纳武利尤单抗,对照组接受多西他赛。结果显示,两组中位PFS分别为2.3个月和4.1个月,试验组中位PFS接近对照组的一半。如果单看中位PFS,我们可能会觉得试验组大概率劣于对照组。但两组HR值为0.92 (95% CI, 0.77–1.11; P = 0.39),提示两组PFS没有显著差异,因此,我们无法从中位PFS的结果得出试验组一定比对照组差。从PFS的K-M曲线我们可以看到后续存在交叉,试验组出现优于对照组的结果,因此HR值更好的体现了整体PFS比较的结论。实际上,该研究OS结论与中位PFS结论相反,纳武利尤单抗显著优于多西他赛。
图4 | CheckMate 057研究PFS结果
从以上例子可以看到,在某些情况下,中位PFS稳定性不高,导致其可信度较差。那么怎样的中位PFS结果比较稳健,可以排除掉入中位PFS陷阱的可能呢?大概总结以下几种情况:

在ACCR会议中,针对晚期一线鼻咽癌治疗的JUPITER-02研究更新了其PFS结果。相比首次公布时试验组中位PFS为11.7个月,此次更新的试验组中位PFS达到21.4个月,直观上数据延长明显。但有意思的是试验组中位PFS的延长并没有改变两组PFS的HR,依然为0.52。同时,中位PFS的置信区间大小以及中位PFS时的随访人数并不明确,而中位随访时间(22.1个月)与中位PFS的差距并不大,那么此次更新的PFS结果是否可能落入中位PFS陷阱需要谨慎分析。本次PFS数据更新并未达到研究方案预设PFS最终分析事件数,我们期待后续PFS的更新是否可以带来更多信息。
当然,HR也并不是完美的评价指标。如果两组有效性随访频率不一致,那么HR的估计同样会产生有利于较不频繁一组的偏倚。因此,在评估临床研究结果时,除了关注中位PFS这一直观的指标之外,我们还需要同时关注两组患者生存曲线的风险比,两者结合在一起,这样得出的结论对临床的参考意义更大。
参考文献
[1] Trifluridine/tipiracil versus placebo in patients with heavily pretreated metastatic gastric cancer (TAGS): a randomised, double-blind, placebo-controlled, phase 3 trial. Lancet Oncol. 2018 Nov;19(11):1437-1448.
[2] Afatinib versus gefitinib as first-line treatment of patients with EGFR mutation-positive non-small-cell lung cancer (LUX-Lung 7): a phase 2B, open-label, randomised controlled trial. Lancet Oncol. 2016 May;17(5):577-89.
[3] Eribulin mesilate versus vinorelbine in women with locally recurrent or metastatic breast cancer: A randomised clinical trial. Eur J Cancer. 2019 May;112:57-65.
[4] Nivolumab versus Docetaxel in Advanced Non-squamous Non-Small-Cell Lung Cancer. N Engl J Med. 2015 Oct 22;373(17):1627-39.
[5] Toripalimab or placebo plus chemotherapy as first-line treatment in advanced nasopharyngeal carcinoma: a multicenter randomized phase 3 trial. Nat Med. 2021 Sep;27(9):1536-1543.
内容来源 | 医药魔方Med
编辑 | 刘雪丽
排版 | luping
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读