追踪“超级突变”D614G-深度-知识分子

追踪“超级突变”D614G

2020/08/19
导读
从慕尼黑到西城唐大爷,这个突变增强了病毒的传播能力,幸而并未增强病毒的毒性。

导语

8月16日,一则来自马来西亚的新闻让新冠病毒上的一个变异:D614G一下子声名鹊起。根据那则新闻,携带D614G变异的毒株传播速度可能比一般毒株快10倍,然而被新闻忽略的一点是,D614G病毒并不新鲜,在广大公众熟悉这个名称之前,它其实曾横扫欧洲大陆,还是北京的新发地疫情中的元凶。目前的研究显示,这个突变可能会加快病毒传播速度,却对毒性影响不大,且该突变涉及到新冠病毒最外侧突起蛋白,因可能会改变与细胞受体或抗体而备受关注,好在最新研究表明,D614G对在研疫苗的中和效力影响不大。


下文是一篇读者投稿,使用GISAID的新冠病毒数据库,利用生物信息学的手段,追踪了携带D614G突变横扫欧亚大陆的B.1与B.1.1型病毒,从病毒基因入手,为我们演示了利用生物信息学对病毒进行追踪的方法和过程。


撰文 | 傅毓涛

责编 | 李珊珊


2020年盛夏,原本该是奥运盛会如火如荼的日子里,现实世界里上演的却只有全人类对抗新冠病毒的竞赛。在率先走出隔离的中国,6月,北京新发地市场见证了病毒的回马枪。继而风波不断的香港在7月初开始了新一波疫情,新疆乌鲁木齐和辽宁大连也先后在7月中下旬出现本地病例,一时间让人不禁又绷紧了心弦。


前度刘郎今又来,好在这回种桃道士准备好了应对之道,不象在武汉那时手足无措了。追踪病毒来源的最有效手段莫过于全基因组测序。在世界范围内快速共享新冠病毒测序数据早已成为全体研究者的共识,目前规模最大的平台是GISAID 【1】


GISAID建立于2008年,全称为Global Initiative on Sharing All Influenza Data,从中可以看出,该平台是专注于流感研究的。GISAID的新冠病毒数据库虽然今年才登场,至今已经收录了近8万条新冠全基因组序列,开放给公众经简单注册后即可免费访问。从中,我们可以很快锁定这些与北京(Beijing)、香港(Hong Kong)、新疆和辽宁(Liaoning)疫情相关的近期记录。


 GISAID新冠病毒数据库中的部分记录。


上表为GISAID新冠病毒数据库中的部分新冠病毒基因序列记录。

按照采样时间排序,最早的是6月北京新发地疫情的样本,至今只公开了3份,下文有详述。而来自香港的7月样本记录多达70余条,我们只选取了比较有代表性的两例,分别采集于7月1日和14日。值得注意的是,虽然尚未出现新疆或乌鲁木齐的标注,但据新疆疾控中心的消息,当地疫情病例基因测序,“结果显示为多个检测样本序列相同,表明此次疫情来源于同一传染源暴露所致”【2】。因此一名新疆籍旅客7月15日在浙江绍兴确诊的样本(上表第6行Zhejiang)无疑提供了管中窥豹之利【3】。最后,4份辽宁样本7月22日样本序列主体完全一致,符合官方定性的早期“聚集性疫情”的特征。

用以上序列直接在数据库中暴力搜索,寻找与全球哪里的样本最接近,这可能是大多数读者的第一反应。为了了解这一点,我们使用了GISAID自带的地理匹配功能,结果如下。

各代表序列在GISAID中前10条最佳匹配样本的地理分布。数字代表该地区匹配样本数。


上图中的四组匹配有相似的地理分布,特别是都包含来自欧洲的样本。来自北京、辽宁、新疆和7月14日的香港样本序列确实高度相似,都属于B.1.1型新冠病毒。该型有案可查的首例样本是2020年2月16日在英国采集的(hCoV-19/England/20168037604/2020)

与新冠病毒参考基准基因组,即来自武汉华南海鲜批发市场的B型毒株比较,B.1.1的突变特征含7个连锁位置(241,3037,14408,23403,28881,28882,28883),其中的23403所对应的正是最近很多报道中提到的D614G突变B.1.1是由只含前4个突变位置的B.1进化而来的支系,同样也包含D614G突变(23403)。


而未包含在上图中的香港7月1日样本(表格中第4行)正是B.1的直系后代,也呈现出截然不同的的匹配地理分布(见下图。由于B.1和B.1.1现有成员在时间和空间上共存,因而并不能判定香港7月1日样本是7月14日样本或其他内地样本的直接祖先。

香港7月1日样本在GISAID中前10条最佳匹配样本的地理分布


由此,除了在新发新冠病例较多的香港,病毒类型和来源比较多样化以外,北京、新疆、辽宁的疫情都是由B.1型病毒进化而来并直接起源于欧洲的B.1.1传入所引发的。那么再往前推,B.1又是从何而来的呢?我们不妨按照公开报道中的时间线进一步梳理GISAID中的信息。


2020年1月,德国汽车零部件供应商伟巴斯特(Webasto)在上海分公司的一名女员工先接待了从武汉来探亲的父母,后赴德国巴伐利亚州慕尼黑市的公司总部出差。她在返程的飞机上开始出现新冠肺炎症状,这天正好是武汉开始封城的1月23日【4】。次日,两份采集于四川(hCoV-19/China/SC-PHCC1-022/2020)和浙江杭州(hCoV-19/Zhejiang/HZ103/2020)的样本序列中分别出现了B.1的4个特征突变中的各3个,其中的四川样本与后来的慕尼黑传播链病毒序列完全一致。而在海外,一名21岁女中国留学生武汉封城前飞抵澳洲后发病【5】,她1月25日的样本(hCoV-19/Australia/NSW2153/2020)已具备B.1全部4个特征突变。

以上种种,令探寻B.1及其起源的工作无法绕开对武汉早期疫情的回溯。

1月后很长一段时间,很多研究者关注的是以8782和28144位置祖先型为特征的A型与参考基准B型新冠病毒孰先孰后的问题,直到B.1开始如洪水决堤般在欧洲泛滥开来,再到B.1.1后浪推前浪席卷全世界,几乎把A型和B型淹没其中【6】


全球新冠病毒突变累计频率每日变化。来源:中国国家生物信息中心


让我们把目光拉回到当前样本的分析。除了直接序列匹配和汇总统计之外,专业研究者更擅长统筹全局的生物信息学方法,通过与参考基准比较识别基因组序列中的突变,辅以采样时间线索,构建系统发育树,从而更精细地确定各样本间的传承关系。另一个新冠病毒序列分析网站Nextstrain就是这一思路的代表【9】

以北京新发地疫情为例,下表总结了3份样本序列和参考基准之间的差异。第3行的病例是中国肉类食品综合研究中心25岁职员刘某某(以下简称为刘郎),6月5日曾到过新发地,之前曾去外地多家市场调研【7】。第4行在GISAID详细信息中的样品编号BJ-TJZ-01,53岁男,大概就是如今声誉鹊起的西城唐大爷,去新发地的日期为6月3日。最后1行则是环境样本,编号BJ0614-45-HJ,实际采样日期并非GISAID显示的6月11日,而应当是6月14日【8】


北京新发地病毒样本序列所含突变。灰色部分为B.1.1特征突变。


由这三条序列的突变情况推测,如果排除回复突变等少见情况,刘郎样本更接近参考基准,应该最接近新发地疫情的源头。虽然唐大爷自述去新发地的时间更早,但他所感染的病毒基因组序列似乎比较新。而环境样本无论从采集时间还是突变组成看,也都比刘郎样本要新。这三份B.1.1型样本共有的在6026位置上的新突变,最早见于2020年2月2日采集于上海的一份B型样本(hCoV-19/Shanghai/SH01/2020),这暗示发生过基因组重组的可能,但也可能只是巧合。

在Nextstrain上,这3个样本及相似序列的关系如下:

北京新发地病毒样本及相似序列的系统发育树。


在系统发育树上,越近的邻居通常代表越近的亲缘关系。上图中蓝色分支是北京新发地样本,最接近的橙色一支来自南美州的哥伦比亚,其他样本分别来自欧洲的葡萄牙、爱尔兰、英国和俄罗斯。虽然以目前的样本数量和分析精度,尚无法指认北京疫情到底从何处输入,但是这种系统性的基因组序列分析无疑为多次疫情间的比较和后续研究指明了大方向。


同样,我们能够方便地查找新疆和辽宁样本序列的邻居,并用英国格拉斯哥大学发布的CoV-GLUE工具对两份香港样本序列做类似分析【10】。从结果可以看出,北京、香港、新疆和辽宁疫情相互独立,各有不同的输入模式。

新疆和辽宁样本及相似序列的系统发育树


香港7月1日(B.1,左)和14日(B.1.1,右)样本及相似序列的系统发育树


除基因组序列以外,还有很多研究人员关注新冠病毒在氨基酸和蛋白水平的变化,特别是对人体免疫方面的影响。在B.1和B.1.1型病毒共享的特征突变位置里,D614G突变(23403)涉及到新冠病毒最外侧突起蛋白,可能会改变与细胞受体或抗体结合从而备受关注。好在最新的研究表明,D614G对在研疫苗的中和效力影响不大,免疫学家们这才松了一口气。


当然,生物信息学分析并不能完全代替流行病调查的传统手段。确定单次疫情的具体源头仍然需要更多实地调查、实验室重现和跨学科合作的不懈努力。

进入8月,北京西城的唐大爷已经回到了正常生活,新发地病例业已清零。辽宁和新疆的疫情正在走向尾声,香港每日新增病例数也开始掉头向下。2020年剩余的日子里,愿山河无恙,新冠病毒相关话题热度不再,也祝各位读者消夏有方。


中国大陆(上)和香港(下)7月每日新增病例数。来源:Google COVID-19动态统计板。


参考资料:


1. GISAID (https://www.epicov.org)并特别感谢以下数据提供者:

2. 新疆疾控中心:基因测序显示此次疫情来源于同一传染源 (央视新闻客户端,http://m.news.cctv.com/2020/08/04/ARTICKNL5lkn4gLsIHQKOFVQ200804.shtml)

3. 乌鲁木齐,确诊1例!浙江新增无症状感染者为新疆输入 (新浪科技, https://tech.sina.cn/2020-07-16/detail-iivhuipn3382768.d.html)

4. Germany confirms human transmission of coronavirus. (Deutsche Welle, https://www.dw.com/en/germany-confirms-human-transmission-of-coronavirus/a-52169007

5. 澳洲确诊第五例新型肺炎病例 患者为中国女留学生 (新浪财经,https://finance.sina.com.cn/stock/usstock/c/2020-01-27/doc-iihnzahk6564107.shtml)

6. 中国国家生物信息中心2019新型冠状病毒信息库(https://bigd.big.ac.cn/ncov)。特别感谢他们的工作,使得业内业外人士对新冠病毒的数据分析都便捷了许多。

7. 关于北京市丰台区新冠肺炎确诊病例刘某某在青活动情况通报 (新华网,http://www.xinhuanet.com/local/2020-06/12/c_1126108721.htm)

8. 三进新发地,中国疾控中心病毒病所发现了什么 (观察者网,https://www.guancha.cn/politics/2020_06_19_554692.shtml)

9. Nextstrain – Real-time tracking of pathogen evolution(https://nextstrain.org/ncov/global)

10. CoV-GLUE(http://cov-glue.cvr.gla.ac.uk)

制版编辑 | 栗子

参与讨论
0 条评论
评论
暂无评论内容
《赛先生》微信公众号创刊于2014年7月,创始人为饶毅、鲁白、谢宇三位学者,成为国内首个由知名科学家创办并担任主编的科学传播新媒体平台,共同致力于让科学文化在中国本土扎根。
订阅Newsletter

我们会定期将电子期刊发送到您的邮箱

GO