港大教授公开质疑国产阿尔兹海默症新药疗效
撰文 | 尹国圣(香港大学统计与精算学系潘燊昌基金教授)
责编 | 叶水送
随着人们的寿命越来越长且预期会持续增长,阿尔茨海默病(Alzheimer’s disease)在老龄化的人口中变得司空见惯。阿尔茨海默病的主要特征是大脑进行性退化及神经紊乱,患者会经受进行性记忆和认知能力严重下降,出现神经精神症状和行为障碍,这会危害其日常生活和独立能力。
美国食品药品监督管理局(FDA)已批准了五种用于阿尔兹海默病的药物:1993年批准的针对轻度至中度阶段患者的Tacrine;1996年批准的适用于所有阶段患者的 Donepezil;2000年批准的对轻度至中度阶段患者使用的 Rivastigmine;2001年批准的针对轻度至中度阶段患者的 Galantamine;以及2003年获批的适用于中度至重度阶段患者的 Memantine。
前四种药物是胆碱酯酶抑制剂(cholinesterase inhibitor),可提高大脑中的乙酰胆碱水平。第五种药物是一种N-甲基-D-天冬氨酸(N-methyl-D-aspartate,NMDA)受体拮抗剂,其作用是保护脑细胞免受过量谷氨酸的侵害。平均而言,这五种获批的阿尔兹海默病药物仅对接受治疗的患者中的一半有效,并且有效期约为六至十二个月。
当前的阿尔兹海默病药物有助于缓解疾病的症状,但是不能治疗潜在疾病或治愈病人。阿尔兹海默病药物研发的突破性的创新药应该能够治疗潜在的疾病,并停止或延缓导致症状恶化的脑细胞损伤。
作为一种慢性疾病,为了表征阿尔兹海默病的发展,病人的认知功能评分需要随着时间的推移被反复测量。临床试验中最常用的评分是阿尔茨海默病评估量表(Alzheimer’s Disease Assessment Scale, ADAS),它是一种基于表现的测试,用于测量特定的认知和行为功能障碍 [1-2]。ADAS的认知估量表(ADAS-Cog12)包含12个项目,总计分数范围在0到80之间,较低的分数表示病症较轻。
在阿尔兹海默病的药物研发中,治疗药物可以分为缓解症状或改善疾病的两大类功效。缓解症状的药物通常可以在短时间内改善病人认知,功能和整体指标,或推迟其健康状况的下降过程;而疾病改善的药物则可以改变疾病进程并减慢疾病发展速度(曲线的斜率)。
从统计学的角度,可分延迟启动设计以及交错撤回设计。延迟启动设计,又称随机启动设计,为检验疾病改善效果提供了一种方法 [3-4]。该试验设计包括两个阶段:在第一阶段,将患者随机分为试验组和安慰剂组,并对其进行随访;在第二阶段,接受安慰剂的患者转为接受试验药物治疗,而接受试验药物的患者仍保持不变,即继续接受试验药物。如果延迟启动组(最初的安慰剂组)能够 “追赶上” 从一开始就接受试验药物治疗的试验组,则表明该药物只具有缓解症状的疗效,但无改善疾病的作用。如果延迟治疗组未能 “追赶上” 从一开始就接受治疗的试验组,那么在第二阶段结束时,两组测试结果的差别就体现了药物的疾病改善作用。另一种方法称为交错撤回设计,从理念上讲该方法与延迟启动设计恰恰相反。接受药物治疗的患者将从治疗中退出,如果他们回到和安慰剂组的相同水平,则药物没有疾病改善作用。如果停药后治疗组的水平仍高于安慰剂组,则药物可能会有疾病改善的功效。
GV-971治疗阿尔茨海默综合征的原理示意图
绿谷制药在2014年阿尔兹海默病临床试验会议(CTAD)上展示了 GV-971 [5] 在255名轻度到中度阿尔兹海默病患者中的二期临床试验结果 [6]。该研究表明,与安慰剂组相比,每日接受900毫克 GV-971 的试验组在 ADAS-Cog12 得分指标上无显著性改善趋势。
尽管二期临床试验的结果没有达到统计显著性水平,GV-971 的三期临床试验仍于2014年在中国的34个地点启动。根据绿谷制药在2019年 CTAD 会议上的报告,三期临床试验共招募818名轻度到中度的阿尔兹海默病患者,其中约一半患者被随机分配到试验组接受每日两次450mg GV-971 治疗,另一半患者被随机分配到安慰剂组。在试验期间,参与者不得服用其他治疗阿尔兹海默病的药物,如胆碱酯酶抑制剂。自从去年 GV-971 获得中国国家药品监督管理局批准上市已经过了近一年,而至今,GV-971 相关的临床试验数据仍未在任何文献中发表。
从统计学的角度 [7],GV-971 临床试验设计及数据分析存在如下6点问题:
1. 在第4,12,24和36周分别进行了四个假设检验,并报告了相关的p值 [6]。由于随着时间的推移进行了多次假设检验,也就是统计学上的多重检验问题,这会导致试验总体的第一类错误(假阳性)率升高。因此,这四个假设检验不应使用0.05作为显著性水平。
2. 跟随时间测量的试验数据会有很强的相关性,尤其对于这种慢性疾病。因此,数据分析应该使用多变量联合检验,而不是分别或独立进行四个单独的假设检验。
3. 通常,一种新药的批准需要进行两个三期临床试验的验证,即结果可重复性。先前的二期试验在主要终点ADAS-Cog12上未达到统计显著性,这已经质疑了三期试验的结果,应该进行另一个独立的三期试验来复现或验证该三期试验的结果。
4. 尽管在第36周时试验组与安慰剂组的ADAS-Cog12得分相对基线变化值的差为-2.54,并在统计上具有显著性(p值小于0.0001),这样的差距是否在临床上也具有实际意义?统计上的显著性并不意味着临床上的显著性或临床意义。
5. 二期临床试验的数据可以作为历史数据,提供相关先验信息,进行更全面的贝叶斯分析。更无法理解的是,为什么在二期试验失败的情况下三期试验仍能启动?并且药物剂量和试验的主要终点都相同。
制版编辑 | 皮皮鱼