别再叫它“垃圾DNA”了!AlphaGenome一秒看穿生命幕后的调控开关-创新-知识分子

别再叫它“垃圾DNA”了!AlphaGenome一秒看穿生命幕后的调控开关

1小时前
导读
非蛋白编码的DNA从前被称为垃圾DNA。但是现在,人工智能模型AlphaGenome可以预测这部分DNA变异的不同影响,从RNA剪接到基因表达量,一次做到。

图片

图片

图源:Unsplash / Sangharsh Lohakare

图片

导读:

     非蛋白编码的DNA从前被称为垃圾DNA。但是现在,人工智能模型AlphaGenome可以预测这部分DNA变异的不同影响,从RNA剪接到基因表达量,一次做到。

郭瑞东撰文

在人类基因组中,只有2%的区域编码蛋白质。而剩下的非蛋白编码DNA,过去被学界称为“垃圾DNA”。后来研究人员发现,发生在这些非蛋白编码DNA区域的变异,对蛋白在不同细胞,不同环境下的特异性表达起到了调控作用,对生物的性状与疾病有深远影响,因此这些区域又被称为调控区变异(regulatory variant)

非编码基因组变异占人类已观察遗传变异的98%以上,但其功能解读仍是重大生物学挑战。除了耗时耗力的实验方法,通过序列,基于已有实验数据直接预测未知序列、变异的影响一直面临两难,要么是只能预测10k以内的单碱基变异的影响,要么是长间隔,但只能预测更大片段序列变异的影响。此外,专用模型,如SpliceAI用于RNA剪接、ChromBPNet用于染色质可及性,在特定任务上表现优异,但无法全面捕捉变异跨模态的多样效应;而通用模型,如Enformer、Borzoi虽覆盖多模态,但在某些任务上性能不及专用模型。

1月29日,Nature刊发了来自DeepMind团队的大模型AlphaGenome对于非编码基因变异的预测结果,该模型首次实现了长序列上下文和单碱基分辨率的调控区变异影响准确预测。且仅仅一个模型,就能够预测距离基因区1M范围内单碱基变异的各种影响,准确性在许多方面还超越了现有最佳的专用模型。

图片
SAIXIANSHENG
通用、准确且快速的预测

AlphaGenome以一个1M长度的DNA碱基序列作为输入,一次性预测数千个由该段序列调控活性的分子特征,例如不同组织的基因表达量,RNA剪接位点,染色质状态,染色质构象等。它还可以通过比较突变序列与未突变序列的预测结果,来评估遗传变异或突变的影响。

图片

图1:AlphaGenome的输入与输出

相比之前模型,AlphaGenome能够接收1M长度的序列,并以单碱基的分辨率进行预测。长序列意味着能够覆盖从远处进行调控的DNA序列,单碱基分辨率能捕捉单个突变带来的影响。

先前的模型必须在序列长度和分辨率之间进行权衡,这限制了它们能够联合建模和准确预测的模式范围。之前最好的基因组学模型Enformer,其输入序列长度是196,608 bp,分辨率为128 bp

AlphaGenome突破了这一限制。它可以在一秒钟内高效地评估一个遗传变异的各类调控效应。

来源于公开的大型数据库,AlphaGeneme构建在基因组学模型Enformer的基础上,使用卷积层初步检测基因组序列中的短模式,使用Transformer在序列的所有位置之间传递信息,并使用最后一组层将检测到的模式转换为对不同模式的预测。它与Deepmind之前推出的,预测编码区变异影响的AlphaMissense互补,实现对所有基因变异影响预测的全覆盖。

图片

图2:相比现有最好工具,AlphaGenome在基于DNA序列预测DNA分子哪些部分将彼此靠近、遗传变异是会增加还是减少基因表达,或者是否会改变基因剪接模式上的准确性提升。

在使用DNA序列进行预测时,AlphaGenome在24项评估中的22项上优于当前的最佳模型。在预测变异的调控效应时,它在26项评估中的24项上达到或超过了当前最佳模型。这一比较包括了针对单项任务专门优化的模型。这说明了模型的性能提升。

“这是该领域的一个里程碑。我们首次拥有了一个单一模型,可以统一长程上下文、碱基级精度以及跨整个基因组学任务范围的顶尖性能。"未参与这项研究的纪念斯隆-凯特琳癌症中心的Caleb Lareau博士评论道。

AlphaGenome能够联合预测所有被评估模式,这突显了其通用性。对于使用者来说,这意味着可以一个api调用,就能更快地生成和检验假设,而无需使用多个模型来预测不同的模式。

SAIXIANSHENG
对单基因病及基础研究的帮助

论文作者指出,研究者可使用AlphaGenome,更精确地确定单基因遗传病的潜在原因,并更好地解释与某些性状相关的变异的功能影响,可能发现新的罕见病治疗靶点。

若将我们的DNA序列看成一部电影剧本,基因剪接可以看成是电影剪辑师。正常情况下,剪辑师会精确地剪掉"广告片段"(内含子),只保留"精彩剧情"(外显子),拼接成一部完整的电影(成熟的mRNA)。但有时候,基因序列上出现了一个小小的"错别字"(变异),就会让剪辑师犯糊涂,这对应着产生异常的蛋白质,从而引发疾病。

根据这一最新研究,AlphaGenome能根据变异位点,准确预测受影响的外显子剪接位点使用率降低、跳过外显子的连接点丢失,以及外显子旁路的新连接点出现,同时预测该外显子的RNA-seq覆盖度显著下降。这意味着能够扩大遗传变异的解读范围,尽管AlphaGenome还不能直接应用于医学诊断。但当医生发现一个患者有某个基因变异,但不确定它是否致病时,AlphaGenome可以提供"辅助证据":如果预测显示这个变异会严重影响剪接或表达调控,那么它致病的可能性就大大增加,从而帮助医生做出更准确的诊断。

图片

图3:AlphaGenome预测基因外显子跳跃

AlphaGenome另一项能力是预测基因在特定细胞及组织中的表达量。如果把基因比作灯泡,那么非编码DNA就是控制灯泡亮度的开关和调光器。这些开关和调光器决定了基因在什么时间、什么细胞里、以多大强度"发光"(表达)

大多数疾病相关的遗传变异并不在基因本身,而是在这些"开关区域"。这些变异可能让基因过度表达,就像灯泡一直亮着不关,或灯泡完全不亮。更多的时候,变异的影响是让原本不该相互影响的开关开始串线,导致基因在错误的时间地点表达。

AlphaGenome可以预测调控区的变异是否会影响附近基因的表达,这同样有助于遗传病的诊断。不过值得注意的是,当前的准确度还无法用于医疗诊断,判别变异对表达量上调或下调的定性准确率(使用Roc评价),仅仅从之前最好工具Borzoi的0.75提升至0.80。

论文作者指出,合成生物学从业者可利用AlphaGenome对表达量的预测,指导设计具有特定调控功能的合成DNA,例如,只在神经细胞中激活某个基因,而在肌肉细胞中不激活。

在论文中,该研究还介绍了一个使用AlphaGenome进行医学研究的案例。在一项现有的T细胞急性淋巴细胞白血病患者研究中,研究人员观察到了基因组特定位置的突变。使用AlphaGenome,他们预测这些突变会通过引入一个MYB DNA结合基序来激活附近一个名为TAL1的基因,这复制了已知的疾病机制,并突显了AlphaGenome将特定非编码变异与疾病基因联系起来的能力。

伦敦大学学院教授Marc Mansour指出,AlphaGenome将成为医学研究的强大工具。确定不同非编码变异的相关性可能极具挑战性,尤其是在大规模进行时。该工具将提供关键线索,使我们能够建立更好的联系以理解像癌症这样的疾病。

虽然当前AlphaGenome只支持人和小鼠这两种模式生物的研究,但训练单个AlphaGenome模型只需要4小时,当模型完全开源后,得益于AlphaGenome的灵活及可扩展架构,研究者可通过将来自非模式生物的数据,以及更多模态的数据当成训练数据,扩展AlphaGenome的能力,以获得更好的性能、覆盖更多物种或包含更多模式,这将使得模型更加全面。

研究人员在讨论部分强调,虽然AlphaGenome能够读取上下文长度有1M,但准确捕捉非常遥远的调控元件所造成的影响仍是一个持续的挑战。未来工作的另一个重点是进一步提高模型捕捉细胞和组织特异性模式的能力。图片

参考资料:

Avsec, Ž., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026). https://doi.org/10.1038/s41586-025-10014-0


参与讨论
0 条评论
评论
暂无评论内容
《赛先生》微信公众号创刊于2014年7月,创始人为饶毅、鲁白、谢宇三位学者,成为国内首个由知名科学家创办并担任主编的科学传播新媒体平台,共同致力于让科学文化在中国本土扎根。
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO