他开发了基因界的百科全书,贡献却少有人知
日本京都大学金久实(Minoru Kanehisa)教授| 图源:kanehisa.jp/
生物信息要解决的问题是生物数据的产生、管理和挖掘。这种旷日持久的系统性推动与支撑,与通常意义上星光灿烂的概念和技术进展相比,似乎更容易被人们忽略低估。
生物信息确实在各个方向上有力地推动了生物学研究和应用的发展。其尴尬之处在于,作为实用工具缺乏深度,而概念和技术突破又非常依赖实验设计和数据质量。就诺奖而言,生物信息最大的痛点是自身很难闭环,很难达到普遍接受的高度。
撰文|张小牛
责编|陈晓雪
● ● ●
2018年,日本京都大学金久实教授被美国咨询公司科睿维安列为可能获诺贝尔生理医学奖的人选之一,提名理由是 “对生物信息学的杰出贡献,特别是开发了京都基因和基因组大百科全书”。京都基因和基因组大百科全书英文全称是 “Kyoto Encyclopedia of Genes and Genomes”,简称KEGG。即使从事专业生物信息工作的人也未必知道金久实教授,但略微接触过生物信息的人都会知道KEGG。
基因之间通过相互作用实现生物功能,发挥特定生物功能的基因集合被称之为通路,例如代谢通路、信号转导通路等等。KEGG正是通过不断整理收录通路数据集,并在此基础上开发了一系列生物信息工具,长期为日常生物学研究提供基因功能信息支撑。这是一项庞大繁复的系统性工作,显然对现代生物学研究贡献卓著。
但是这种旷日持久的系统性推动与支撑,与通常意义上星光灿烂的概念和技术进展相比,似乎更容易被人们忽略低估。这可能是金久实教授至今没有获得诺贝尔奖的原因之一。这也反映了传统生物信息学的窘状,作为实用工具而言缺乏深度,而概念和技术突破又非常依赖实验设计和数据质量。
金久实教授1976年毕业于东京大学物理系,后在霍普金斯医学院从事博士后研究,1981年成为阿拉莫斯国家实验室的研究科学家。在此期间,他参与了生物数据库GenBank的开发工作。这个经历显然对他此后开发KEGG专业数据库有很大帮助。时至今日,GenBank已经是全世界最重要的一级基因数据库之一,绝大多数人类研究产生的生物序列相关信息都能在这个数据库中找到。
1985年,他回到京都大学担任副教授,并于1987年晋升为正教授。1995年,他开始了人生中最重要的项目,KEGG数据库建设。KEGG数据库收录了大量通路信息,通路以基因互作(指非等位基因之间通过相互作用影响同一性状表现的现象)的形式呈现。随着研究技术的发展,通路信息数据不断积累更新。KEGG数据库最典型的应用是通路映射,通过对目标基因的富集分析,预测目标基因可能的生物学功能。
金久实 | 图源kyoto-u.ac.jp/
他在1999年成为日本生物信息学会第一任主席,2013年成为国际计算生物学会荣誉资深会员。可以说,金久实教授为日本生物信息学乃至国际生物信息学的发展做出了许多坚实的推动工作。
KEGG的核心价值
KEGG数据库于1999年首次见刊,目标是把各物种的实验数据在通路层面上组织起来,开发生物信息工具注释和比较通路。KEGG中的基础数据单元是基因,基因具有不同功能身份,通过与其他基因或者小分子互作实现特定功能,特定功能相关的基因和小分子在数据库中被组织为通路。
Kegg数据库的Logo 图源:Kegg官网(https://www.genome.jp/kegg/)
最开始,KEGG数据库只有若干完成测序的物种,上百个来源于生物化学实验的手绘通路。经过多年发展,目前KEGG2版本由四个部分组成:系统信息、基因组信息、化学信息和健康信息。
系统信息是在通路的基础上进一步构建了结构化的功能模块,从而可以将不同通路组织在一个统一的架构下进行分析。基因组信息包括了基因组序列信息、基因注释和直系同源基因映射。化学信息主要是各类代谢物、糖蛋白、生物化学反应信息和酶。健康信息包括了疾病相关的突变和网络信息、人类疾病信息和药物相关信息。
可以说,KEGG是传统关联数据库的技术形式在基因功能注释方向上的极致发展,通过对基因的功能注释,在各个方向上有力地推动了生物学研究和应用的发展。
KEGG的历史定位
人类基因组草图2001年发布,这意味着KEGG的设计早于大规模基因组数据的产生。实际上KEGG早期核心通路信息也是基于实验数据人工绘制。在数据量相对少的年代,流程式的数据组织方式能够非常好地反应基因功能。然而,随着测序技术的快速发展,生物序列信息爆炸式增长,对基因功能的解读就不仅仅停留在通路层面,例如近年来生物学研究从基因为基本功能单位,逐步拓展到单细胞为基本功能单位。
本质上,自然选择在各个层面发挥作用,基因、细胞、器官、个体、群体、物种乃至生态系统。基因类型和基因调控的组合形成细胞,细胞类型和细胞分布的组合形成器官,以此类推。
KEGG通过记录基因之间或者基因和代谢物之间的相互关系来提供静态功能信息。然而,更为复杂的生命现象,例如细胞类型是由不同通路组合而成,这超越了KEGG现有数据架构的能力。
KEGG是生物信息早期数据库形态,是生物信息学发展的重要里程碑,今后也将是生物信息学重要的基础工具,但是KEGG对于复杂生命现象探索的支撑呈现很明显的天花板效应。
生物信息的诺奖会从哪里来?
生物信息领域有一些很奇怪的现象。一方面,到处招不到做生物信息的人,而做生物信息研究的人又常常被主流认为提不出科学问题。另一方面,谁都可以宣称自己是做生物信息的,而生物信息具体包括哪些方向又众说纷纭。
本质上,生物信息是一个工学学科,而不是理学学科。生物信息要解决的问题是生物数据的产生、管理和挖掘。生物信息并不需要解决生物学问题,因为生物学问题也可以通过实验技术进步而绕开生物信息。那么,生物信息的重点应当是围绕特定生物数据开展的一系列研究和开发工作。
重大而有影响力的工作应当针对有长远存续价值的目标。例如,基于某种特定测序技术开发的数据分析方法会因为测序技术的发展而失去价值,但是针对基因功能的数据分析,例如KEGG,并不会因为时间的推移而失去价值。
金久实教授目前尚未获得诺贝尔奖认可,很可能只是因为通路作为功能的表征略显平实,同时KEGG本身的架构也限制了其对更复杂生命现象的解析。现代生物信息学面对的两大数据类型分别是生物序列和生物图像,方法学上基于大数据的机器学习工具也越来越强大。那么,下一波生物信息学的高点基本也就明确了。概念上具有长期存续价值,同时能够完整解决一些重要问题的数据对象,无疑是细胞类型。
细胞类型与基因类型比较,同时增加了空间复杂性和时间复杂性,那么数据对象显然也就具备了多模态的性质。具体而言,整合生物学大数据在细胞层面解决问题,例如在理解生物脑结构的基础上推动人工智能发展,有机会做出诺奖级别的工作。
制版编辑 | 卢卡斯