年轻的蛋白质组学:成长的烦恼
►图源:http://www.biodiscover.com
撰文 | 郭天南(西湖大学生命科学学院特聘研究员)
● ● ●
在生命体内,各个蛋白质就像机械钟表的齿轮般协同合作、互相调控,从而实现一系列精密且复杂的生命活动。因此,检测生物体中蛋白质的种类和含量,对探究生命活动的奥秘有着不可替代的重要意义。
在科研人员的不断探索下,一个新兴的学科——蛋白质组学(proteomics)在1997年诞生了。
蛋白质组学的诞生和发展,离不开多学科和技术的逐渐交叉融合。这些学科技术包括(但不限于)基因组学、生物化学、分析化学、自动化、基于电磁场的精密质谱仪、信号处理、数理统计和计算机科学。近年来,分子医学、大数据技术和人工智能的发展,进一步加速推动了蛋白质组学的成长,使之在精准医疗领域展示出越来越大的应用潜力。
蛋白质组学的华丽诞生
1994年,当27岁的博士研究生马克·威尔金斯(Marc Wilkins)在地广人稀的澳大利亚尝试把蛋白质(protein)和基因组(genome)拼成一个新的英语单词蛋白质组(proteome),用以描述基因组编码的所有蛋白质,并将这一单词放在他的博士毕业论文中时,他不会想到,3年后,瑞士苏黎世联邦理工大学的皮特·詹姆斯(Peter James)在他发表于剑桥大学《生物物理学》季刊的一篇53页的长文中借用了这个概念,并首次提出蛋白质组学(proteomics)一词,系统总结了当时已发表的对生物体内所有蛋白质种类的研究以及该类研究的进展。
蛋白质组学不是凭空诞生的一个新学科,而是基于一系列蛋白质的生物化学研究和多肽质谱的研究衍生发展而来的,所有这些相关学科的研究都被串起来,成为这一新学科的基石。
威尔金斯更不会想到蛋白质组学会受到如此广泛的关注。1997年,人类基因组计划进行得如火如荼,2001年,《科学》(Science)杂志和《自然》(Nature)杂志分别出版专刊,报道了人类基因组计划草图的完成,兴奋地宣告解读了人类生命的编码。
生命科学的中心法则清楚地表明,基因只是遗传编码,在生命活动中真正发挥作用的主要是蛋白质。
因此,在《科学》杂志报道人类基因组计划完成的专刊上,华盛顿大学的斯坦利·菲尔茨(Stanley Fields)预言蛋白质组学将很快取代基因组学成为生命科学研究的焦点;
《自然》杂志的专刊则在显著版面报道了人类蛋白质组学组织(HUPO)的成立,并宣告生命科学正式进入蛋白质组学时代。因为人类基因组计划的巨大成功,蛋白质组学在诞生之初,光环熠熠,世界各国对蛋白质组学予以大量投入,工业界也热情洋溢,不可谓不华丽。
现在,回顾蛋白质组学的华丽诞生,我们感情复杂。一方面,基因组学的巨大成功让全世界认识到蛋白质组学毋庸置疑的重要性;另一方面,蛋白质组学直到今天也还没有完全摆脱基因组学的巨大成功映射出的阴影带来的困扰。例如,在相当长一段时间内(直到今天仍然存在),蛋白质组学的别名是“功能基因组学”,因而其常常被列为基因组学的一部分而存在。
基因组学巨大成功背后的阴影
人类基因组计划是将基因按照染色体的分布承包给各个研究团队,协同开发技术,分别测序,然后拼装成全基因组。这个化整为零、逐个击破的简单思路取得的成功,是迄今为止全世界不同国家的科学家互相协作、进行超大项目研究的成功典范。
早期参与人类蛋白质组计划的研究人员萧规曹随,选择了同样的思路,将蛋白质组按照染色体分组,然后分配给世界各国的参与团队。
后来的数据表明,这个复制和迎合基因组学的思路在蛋白质组学领域并未获得同行的一致认可,也没有取得其他生命科学领域的认可。
基于染色体的蛋白质组研究确实取得了不少成果,但与巨大的资金和热情投入而急速鼓吹起来的期望值相比,这些成果微小得几乎不能被人们看到。这一段至今尚未完全结束的历程,极大地消费了人们对蛋白质组学的期望和热情。
蛋白质组学的华丽诞生在其第一个10年感受到了全球各界的热情,出现了一段时间繁荣的景象:学术界和工业界的大量投入,专业杂志接二连三地涌现,影响因子逐年升高。今天,当我们拥有了高精度质谱仪和比较完善的算法后,回顾历史,我们不得不汗颜地承认:当时很多蛋白质组学研究所产生的数据信息量是非常低的,有些甚至是经不起时间考验的。
2014年,《自然》杂志仓促地发表了两篇号称是完成了人类蛋白质组草图的论文,认为其代表了当时蛋白质组学的最好研究。这两项研究在若干种不同人源样本中对超过17000个蛋白质进行了鉴定,给观望蛋白质组学的大众打了两针兴奋剂。
但是后来,蛋白质组研究领域的多位同行对这两篇论文中所使用的数据分析方法提出了质疑,并证明其中有些数据是错误的,从而引发了大量的后续讨论。事实上,仅仅在多种样本中鉴定到这些蛋白质的表达,而不对它们进行精确的定量,并不会产生太大的生物学价值。
换言之,仅仅让大家看到蛋白质组学在经过17年的努力后终于在蛋白质鉴定水平达到了基因组测序覆盖率的70%(暂不考虑多肽水平的覆盖率),勉强及格,只是进一步加深了大家对“蛋白质组学从属于基因组学”这一误区的认同而已。
蛋白质组学的牛刀小试
鉴于蛋白质的复杂性和多变性,完全意义上的蛋白质组学至今仍是一个科学目标或者科学理想,因为至今无人知道一个生物体内到底有多少蛋白质。比蛋白质组学本身更加繁荣的,并令所有人毫无争议的、振奋的乃是色谱-质谱方法学的巨大进展。
色谱-质谱技术在过去的20年高速发展,越来越多的生物医学科学家的研究受益于色谱-质谱技术的发展,比如未知蛋白质的鉴定、蛋白质相互作用的鉴定、翻译后修饰的鉴定、蛋白质结构的解析、靶向蛋白质定量、蛋白质降解的研究等。有些方法比如靶向蛋白质组学,正在走向临床试验。但是严格意义上讲,这些都不是蛋白质组学的主要内涵。令人尴尬的是,虽然色谱-质谱技术取得了长足的进步,但蛋白质组学这一学科却逐渐淡出主流研究的视野。
蛋白质组学不是没有获得过大众认可的成功。比如,基于同位素标记的定量蛋白质组学可以对2~4个样本的蛋白质组进行准确定量,在进行良好的实验设计和实施后,8000个以上的蛋白质(基因产物)可以被鉴定到,并且含有准确的定量信息,进而引导新的生物学发现。虽然这些成功往往只出现在一部分拥有高超实验技巧的蛋白质组学实验室,但这已经可以让大众慢慢意识到蛋白质组学在生物研究中实实在在的强大力量,从而获得了一部分支持。实际上,跟蛋白质组学博大的内涵相比,这些成功只能算是牛刀小试。
蛋白质组学和精准医疗
人类的几乎所有生命活动都是由人体内的蛋白质执行的。人类的健康和疾病同蛋白质息息相关,而疾病治疗的效果也取决于蛋白质机器的调控。所有熟悉生物学中心法则的大众应该没有人会质疑蛋白质在精准医疗中不可替代的作用。
蛋白质组学作为研究所有蛋白质的科学,毫无疑问将在精准医疗领域发挥最关键的作用。然而,直到最近,这些作用还只能被称为“潜力”。
蛋白质组学发展到今天,才刚刚走过21个年头。被撇在基因组巨大的身形背后,21岁的蛋白质组学常常有意无意被人遗忘,或者被认为是可有可无的“跟班”或“锦上之花”。生物学的中心法则在基因组的灿烂光环下黯然失色。
基因组学在种类众多但数量有限的遗传性单基因疾病和产前诊断中展示了显著争议的作用后,一般被大众误解为精准医疗的主要甚至是唯一的方式。
笔者认为,对基因组学与其实际生物学功能不相称的期望,为今后基因组学在数量更多的人类复杂疾病(比如绝大部分肿瘤、代谢性疾病、心脑系统疾病等)中的临床应用的跌宕,埋下了伏笔。
近年来,越来越多的科学家开始重新思考蛋白质组学在精准医疗中的应用,并且一系列切实的蛋白质组项目正在开展。
虽然年轻的蛋白质组学已经经历了一系列盛衰荣辱,但其成长在跌宕起伏中一刻也未停止过,尤其是近5年来,已在各个技术环节取得了突破性的进展。
现在,我们已经有新技术可以对极小量的临床样本进行高通量的、快速、准确的蛋白质组学水平的定量,并且在越来越多的临床应用中展示出独特的、有效的作用,主流生命科学界和医学界的关注与日俱增,其他领域比如医疗大数据和人工智能的研究人员也展示出了极大的兴趣。
我们关注到越来越多的蛋白质组学家勇敢地走出基因组学的阴影,根据蛋白质独特的生物化学特征和生物学功能,从蛋白质组学独特的视角出发,重新审视生物学现象和临床问题,开发出切实可行的技术,解决了基因组学因自身固有局限而无能为力的临床应用问题。我们可以乐观地预测,蛋白质组学在精准医疗中广泛应用的黄金时代正在来临。
本文经授权转载自微信公众号:张江评论
制版编辑 | 杨枭