新冠预测模型，到底哪个更“准”？-资讯-知识分子

新冠预测模型，到底哪个更“准”？

2023/01/08

导读

不同的新冠预测结果，究竟该相信谁？到底哪个更“准”？图源：Marco Verch Professional Photographer

https://foto.wuestenigel.com/graph-showing-new-covid-19-cases-during-the-third-wave-of-the-pandemic/ ，CC BY 2.0

导读

随着国家防疫政策的调整，各地迎来新冠疫情的考验。在全国医疗和公共卫生系统面临空前压力的时刻，各式各样新冠预测的结果纷纷出炉，预测我国未来因为新冠疫情死亡的人数。公众面对这些不同的新冠预测结果，不免感到焦虑，甚至心生疑惑：这些不同的预测结果，究竟该相信谁？到底哪个更“准”？

本文作者认为，在面对这些新冠预测结果的时候，首先需要理解这些预测是基于某些模型的，依赖于一定数据的计算结果；而模型是基于对现实世界的简化，依赖于当下人们对于世界的认识。模型预测的准确度，会受到模型本身、数据质量和非线性系统特征等多方面的制约。此外，新冠预测的结果还会在大众传播的过程中经历逐渐碎片化的过程，甚至最终脱离作者的原意。

这些形形色色的新冠预测模型，究竟哪个更“准”呢？这里并没有一个简单的答案，但作者想提醒公众，在面对各色新冠预测结果的时候，理解模型的前提假设和局限条件，和知晓模型预测的结果同样重要。这对于我们全面而准确地理解模型预测的结果，有重要意义。

撰文｜底骞（清华大学万科公共卫生与健康学院）

责编｜陈晓雪

1. 新冠预测模型回顾

在本文最开始，让我们简单了解一下新冠模型预测的大致原理。

新冠预测模型大多是基于SIR模型。这种模型将人群划分为还未感染新冠的易感者（S），感染新冠的感染者（I），和从新冠恢复具有抗体短时间不会再次感染的康复者（R），一共三个状态。模型根据接触系数等参数，一些人口学参数，以及一系列偏微分方程，描述人群在三个状态之间的转变速率，预测未来某个时间点三个状态的人数。当然，我们可以将这个模型做得稍微复杂一些。例如，感染者有一定的几率死亡，模型的参数是按年龄设定的，等等[1]。不同的防疫政策，例如疫苗接种，保持社交距离等等，可以体现为模型中不同参数的变化。这样，我们可以调整模型参数来预测不同政策情形下新冠疫情的可能发展情况。

还有一种常见的方法会考虑到现实世界中的互动网络，例如交通、国际航班等等，通过考虑不同地区之间人类的活动，来动态模拟新冠疫情在不同地区之间的传播。此外，还有其他的一些稍微小众的方法。在众多方法中，SIR模型无疑是最常用的。因此，本文的讨论也主要就SIR模型展开。

2. 模型是对现实世界的简化

对于新冠的预测，无论使用SIR模型还是基于网络的模型，都是基于模型的预测；我们无法在真实世界中找到一群人，施加不同的防疫政策来观察新冠传播的情况。既然是基于模型的方法，新冠预测就继承了所有模型预测的优点和缺点：优点不言而喻，模型对现实世界情况做了适当简化，让我们不需要操作真实世界就可以推测新冠传播的情况；缺点也恰恰来自于简化。

在建立模型的过程中，我们需要对现实世界的复杂情况进行简化和抽象，而这个简化抽象的过程本身存在的缺陷，会影响模型预测的结果。例如，某些SIR模型将人群简化抽象成为易感者、感染者和康复者三类。但是，一个人感染新冠之后不会马上发病并传染其他人，而会经历一段时间潜伏期，上述的SIR模型未能考虑这种情况。固然，我们还可以再改进模型，将这部分人定义为一个新的类别“暴露者（或接触者）”，但这依然无法完美刻画现实世界的各种情况，例如接触者还可以分为“密接”或“次密接”等等。而且，增加新的类别也会不可避免增加模型参数估计的难度和模型预测的不确定性。又例如，某些SIR模型的参数设定，如接触系数等，对于每个人都是一样的。但是，一个感染新冠还四处活动的人，和一个感染之后自我隔离的人，对于新冠传播的影响显然是不同的，在模型中给他们赋予相同的接触系数肯定不妥。固然，我们可以进一步改进模型，对不同年龄不同职业的人设置不同的接触系数，但是这一方面增加了参数估计的难度，另一方面，模型中加入更多估计的参数，会增加模型预测结果的不确定性。

从上面的例子看出：过分简化的模型，分析起来比较简单，结果也比较确定，但是有可能因为过分简化和实际情况相距甚远；而复杂的模型，固然可以更好地反映现实情况，但分析和运算难度增加，结果不确定性增加。

模型是如何建立的，是如何对现实世界进行简化和抽象的，是预测模型建立中的重要信息。该信息指示着模型成立的条件，适用范围，以及可能失效的情形。我们甚至可以说，模型对现实世界的简化，一定会伴随对现实世界的扭曲和失真。所以乔治·博克斯（George Box）会发出“所有的模型都是错的，但有的模型会有用”的感慨。

模型的简化，确实是一个难以拿捏的微妙平衡，普通的统计模型中有一些经验判断指标帮助确定合适的简化程度，但是对于SIR等模型，找到合适的简化模型，与其说是一个科学，有些时候不如说是一项艺术。

3. 模型客观规律的局限

退一步讲，就算我们能够找到合适的简化的方法，但如果我们对于客观规律的认识或者假设有局限，我们对于未来的估计仍然会出错。

例如，玻尔的氢原子模型非常经典和优美，但是他对于原子内电子运动的假设依然是基于经典物理，不符合我们现代对原子内电子运动的认识，所以玻尔模型也只能适用于氢原子，无法推广到更加复杂的情况。

又例如，谷歌曾经基于搜索引擎中和流感相关的关键词数量变化，来预测流感的趋势，基于的假设是人们在感染流感之后会去搜索引擎中寻找症状和治疗方案，所以搜索关键词的数量变化和流感趋势会有相关性，可以用于预测流感趋势。后来，研究人员确实发现了一批搜索关键词数量变化和流感趋势高度相关。基于此，谷歌公司制作了名为“谷歌流感趋势”（Google Flu Trends）的应用，并于2009年在某国际顶级期刊上发表了学术论文[2]。但是这项应用基于的假设是有偏差的：因为有接近30%的人在感染流感之后是无症状的；这些无症状的感染者不知道自己患流感，不太会闲来无事去搜索流感相关的关键词；同时，他们仍然是有感染能力的。所以，流感相关搜索关键词的数量和流感趋势之间的相关性并不存在，搜索关键词数量变化无法用于预测流感。事实上，谷歌流感趋势之后没能预测2013年流感流行，之后的预测结果更加糟糕，于2015年完全停止运行；当初发现和流感趋势碰巧“高度相关”的搜索关键词，很可能因为数据的过分拟合。

以上的例子都说明，我们对于现实世界的认识和假设，就是模型的根基，会直接影响模型的预测结果；如果认知和假设出现错误和偏差，会釜底抽薪般地影响预测结果的可靠性。

而对于新冠这样快速发展的传染病，我们甚至难以有时间去全面收集信息认识事物发展的规律，不得不在信息不完备的情形之下做决策。完全有可能，我们现在对于疾病规律的认识是有局限的，而新出现的证据，会改变我们对于新冠的认识进而改变预测结果。例如，在2020年1月，随着医务工作者感染的出现，钟南山给出了新冠疫情人传人的新判断，这在当时极大改变了人们对于新冠传播的预期。现在，随着新冠疫情在全国范围内的快速发展，病毒本身的变异会改变其传播的规律；同时，我们的防疫政策也在因时而变，也会改变疫情的形势。层出不穷的新信息，随时更新着我们对于疫情的认识，但这些新信息如果无法及时反映在预测模型中，将使得我们无法对新冠疫情的发展做出准确预测，尤其是不太可能做出长期的准确预测。

总之，人类对于现实世界的认识不可能完备，而且往往落后于疫情本身的快速变化；基于滞后认知的模型，也不可避免具有局限性。

4. 模型数据的掣肘

再退一步讲，就算我们在充分认识世界的基础上，开发出了合适简化的模型，我们对于新冠的预测仍会受到数据的限制。

上面提到的SIR模型，其模型预测依赖于一些关键参数。这些参数固然可以来自既往文献，但归根结底依赖于真实世界数据。而真实世界数据的质量，会对新冠预测产生多方面的影响。

首先，诸如疫情感染人数的数据，相对来说比较缺乏，尤其是对长时间大规模人群而言。现在，随着疫情防控和检测政策的调整，新冠预测模型依赖的基础数据处于缺乏或者失真的状态，使用这些数据做出的预测质量，可想而知。

而且，更加致命的是，这些基础数据和参数引入的误差，会以非线性的方式在预测模型中繁殖，最终达到“失之毫厘谬以千里”的效果[3]。所以，预测模型往往会进行敏感性分析，考察输入数据的变化会如何影响最终的模型预测结果。但是这种敏感性分析，依然是在模型假设和数据划定的范围内进行不确定性估计，无法完全排除模型假设和数据不正确的影响。另一方面，这种关于模型预测结果限制条件的敏感性分析，在论文向大众传播的过程中会逐渐被丢失，我们在后面会讨论。

读到这里，可能有读者会提出疑问：天气预报、气候预测、大气模拟、分子动力学模拟，这些都是高度非线性的复杂系统，但是学术界在这些问题上仍取得了长足的进步。对于某些关键科学问题，例如气候变化，尽管预测的细节存在差异，但学术界已经达成某些共识。新冠预测为何没能达到类似的程度？

这个问题的回答要回到科学共同体的发展和科研合作的模式上。现代的科学研究早已不是一百年前“小作坊式”的单打独斗，而是高度分工协作的大规模群体活动。科研人员的研究需要在数据和模型上密切合作。

例如，在预测气候变化的领域，学术共同体建立了一系列的机制（如CMIP），用于预测模型和数据的共享，帮助研究人员评估和改进气候模式的预测结果。例如，在空气质量模拟领域，某些重要的预测模型（如GEOS-Chem, CMAQ等）已成为研究人员常用的工具，而且研究人员还开发新的组件，集成到现有的预测模型中，进一步为整个学术共同体改进模型。再例如，在机器学习领域，众多的机器学习模型不仅可以轻松获取，而且这些模型已经经过预训练，省去了用户自己从头训练参数的时间和计算资源。再例如，在蛋白模拟领域，研究人员构建了蛋白数据库（如RCSB PDB，Uniprot）用于集成蛋白结构等相关信息。近年来Meta AI和谷歌的AlphaFold在蛋白结构预测的突破，和这些基础数据的积累和共享是分不开的。以上都是学术共同体在这些领域深度合作和参与的例子。

反观新冠预测模型，一个重要的特点是不同模型团队间的合作远未达到其他领域的深度。固然，不同的模型团队可以在模型的架构、概念和重要参数选择上彼此借鉴，但并未产生像上面那种共同协作的平台。缺乏这种学术共同体的深度共享合作，使得各个团队需要花大量的时间完成一些基础性的重复工作，这限制了新冠预测模型能够达到的精细程度，阻碍了科研人员之间互相协作改进模型提升预测结果。最终，预测模型就变成你预测你的，我预测我的；因为未能在模型和数据上深度共享合作，大家也不知道彼此预测结果究竟差在哪里。

5. 混沌是预测模型的天花板

就算是我们充分认识新冠传播的规律，有高质量的数据，并开发出合适的简化模型，我们可能仍然无法准确预测新冠，因为这个动力学系统很可能是混沌的。

混沌是某些非线性系统的特征，指该系统对于初始条件非常敏感，从而表现出系统结果无法预测的状态。如果初始值哪怕差之毫厘，最终得到的结果也会谬以千里。一个通俗的比喻就是，南美热带雨林的蝴蝶扇动翅膀，会引发美国德克萨斯州的一场龙卷风。天气系统是典型的非线性系统，所以现在的天气预报无法做出超过2周的预测。

传染病传播，也是一个非线性的系统[4]；已经有研究使用真实世界的各国新冠数据，表明新冠的病例数据的时序变化，呈现混沌的特征。而且具体的混沌行为和该国新冠的管控政策是相关的[5]。新冠传播的混沌特征意味着，我们也许在短期可以勉强预测新冠感染人数，就像我们可以做两周之内的天气预报；但时间一旦拉长，我们就无法准确预测新冠具体的病例数目是多少，就像我们无法预测2周以后具体某天的天气情况。事实上，相当数量的新冠预测模型在论文中都坦率地表示，该模型只能在短期预测新冠疫情的走势，无法提供长期的预测结果，或者只能“帮助”我们了解疫情长期的趋势[6]。我们完全可以设想，随着预测时间的延长，模型预测结果的不确定性会迅速增加，以至于完全陷入混沌中。这和我们的SIR模型的优劣，和输入数据质量，和我们对于新冠疫情传播规律的认识无关，这就是混沌系统本身给我们的预测模型设定的天花板。

由此观之，从混沌理论来看，对于未来新冠预测，尤其是长期病例数目的预测，我们尤其要加以警惕与小心。因为混沌的存在，不允许我们在具体的病例数目上做长期精确的预测。但这并不是说对于混沌系统就无法做任何预测。

混沌系统尽管看上去捉摸不定，但是某些规律会从混沌中涌现出来，让我们在更高的维度上进行预测。就像我们虽然无法预测未来某天的天气情况，但仍然可以通过气候模型预测未来数百年的地球气候一样。例如，早在2020年5月，就有科研人员使用SIR模型，模拟了2020到2025年新冠疫情可能趋势，指出新冠疫情在最初的暴发之后很可能会出现周期性的流行；为防止医疗系统过载，社交隔离可能需要持续到2022年；具体的疫情持续时间依赖于人体对新冠病毒免疫力的持续时间[7]。此文在当时反驳了某些人认为新冠疫情会如SARS疫情一样迅速消失的“速胜论”的乐观设想，之后疫情发展基本上也证明了该文预测的前瞻性。这个例子说明，我们并非不能对新冠疫情趋势做预测；而是面对这个高度非线性的混沌系统，过分纠结于具体的病例数目是不现实的，混沌不允许我们对新冠感染人数做长期的准确预测。我们应该关注新冠传播这个混沌系统可能涌现出规律性，并依此做好准备。

6. 学术界与公众的互动

以上我们还是仅仅在学术和科研角度来分析新冠预测的问题，在现实世界中，新冠预测还会和大众互动，产生新的问题，在这个过程中，大众不是被动接受新冠预测的相关结果，而是积极参与到预测结果的解读和二次创作中。

艾布拉姆斯（Meyer Abrams）在《镜与灯》中曾描述过艺术创作活动是循环往复的，读者、作品和作者是彼此联系，读者在这个动态过程中起到了关键作用；读者这边的审美接受并非完全承接艺术创造的价值，而是有一个再创造的过程。我们甚至可以说，作品问世之后，作者和作品已经成为两个彼此独立的主体。所以罗兰·巴特会发出“作者已死”的说法。

从这个角度去观察新冠预测以及公众的接受，就会有全新的理解：公众在新冠预测的过程中完全不是处于被动的从属地位，而是积极参与和形塑了新冠预测相关信息的传播和发展。

例如，在最近一篇预印本的论文中，几位作者预测了不同政策情形之下中国在完全放开之后的新冠死亡率（注意：预印本的论文表明该论文未经过学术共同体的评审过程，该论文的学术可靠性尚待证实）[8]。在文中，作者考虑了中国完全没有任何公共卫生措施和社会干预措施，没有补充接种疫苗又完全放开的最坏情形，并计算了在这种几乎不可能出现的最坏情形下的新冠死亡率。据此可以计算出中国大陆的新冠死亡人数大约是96万。但是，这仅仅是作者构建的一种假想的最坏情形，用于模型预测的参考；现实中这样的情形并未发生，各地疫苗第四针接种和其他公共卫生干预已经展开。

令人惊讶的是，当某知名英文学术网站转述这篇论文的时候，这些模型预测结果的限制条件统统不见了，而是被简化转述成为了“……可能会在接下来几个月中导致约100万人死亡”，而在标题中，更是被耸人听闻地再次简化为“中国的新冠疫情可能会杀死一百万人——模型预测”（China COVID wave could kill one million people, models predict）。这样的标题再被某些中文媒体转载的时候，语气再次改变，成为“死亡数可能高过一百万”。本文无意分析新冠预测结果在传播过程中混杂的其他因素，但我们可以发现，科学研究的严谨性是天生不利于传播的，这些用于限制模型结果和提升严谨性的信息，会在传播过程中丢失；而且，读者会按照自己的理解，并再次传播。这种“集体创作”的过程，往往会扭曲原始的科学内容，削弱其严肃性。

在这一过程中，我们也不能忽视媒介的力量。麦克卢汉（Marshall McLuhan）曾提醒我们：“媒介即信息。”没错，媒介非常重要，它会影响我们对于传播内容的理解。在这样一个注意力稀缺，沉浸式阅读变得罕见，15秒短视频大行其道的时代，你能期待一篇几十页的新冠预测模型论文，或者几千字对于模型预测结果的严肃解读，能在大众传播中被完整保留？更可能的情形，是严肃的科学预测结果，被逐渐简化成为一些关键词，最终只剩下“新冠”“死亡”“一百万”等零碎的字眼，类似于约翰·伯纳姆（John Burnham）在《科学是怎样败给迷信》中描绘的“传播——普及——稀释——碎片化”过程。是的，我们正在目睹关于新冠预测的严肃科学，如何被迷信消解和解构。

此外，在这样一个自媒体的时代，人人都可以选择订阅自己阅读的主题，关注自己喜欢的视频作者，屏蔽不喜欢的人的朋友圈；甚至，这一切都不需要自己动手，手机应用的算法会“贴心”和“智能”地揣摩你的喜好，遴选出你喜好的信息，成为你在智能时代的数字“奶头乐”，让你活在一个个信息茧房中。最终，日常被各种新冠预测的小道消息刷屏的读者，可能永远也看不到这篇文章。

7. 预测的积极意义

也许读者到这里会质疑，这篇文章一直在论述预测模型的缺陷，那我们干嘛做预测？预测模型究竟有没有什么积极意义？

首先，对未来做预测可以说是人类的一种本能，它和寻找因果一样，属于人类的基本认知活动。例如，我国古代的商朝人，经常用火烤龟壳占卜，根据裂纹走向判断吉凶。弗雷泽（James George Frazer）在《金枝》中也记叙了人类的各种巫术，当时的人类期望通过巫术来认识事物发展的规律并预测未来。无论是商朝人的占卜，还是《金枝》中的巫术，它们从本质上讲和新冠预测模型在某些方面有类似之处：都是人们尝试认识世界运行的规律，并以此来预测未来。所以，预测未来是人类的一种本能——如果不用SIR模型，就会有其他的方式，甚至非科学的方式来预测新冠走势。当然，在预测新冠走势这件事情上，无论SIR模型还是其他的方式有再多的局限，也比其他非科学的方式可靠太多。另外，我们不可忽视新冠预测本身对于凝聚社会共识，缓解焦虑方面的心理作用。

然后，就如前面所言，在模型适当简化，基于客观规律合理，输入数据真实可靠的前提之下，尽管新冠预测模型无法对于长期的疫情病例数目做出准确的预测，但可以在系统混沌之前，给出一定预测信息，或者是超越混沌在更高维度上对疫情发展的某种规律给出预测。

只是，面对形形色色的新冠预测结果，有一点要铭记于心，新冠预测归根结底是一个科学问题。但科学不是万能的，而且是有局限的。在新冠预测模型的问题上，了解模型预测赖以成立的前提，理解模型的局限和缺陷，和关注预测的新冠数字同样重要，甚至更加重要。

作者简介：

底骞，清华大学万科公共卫生与健康学院副教授。

参考文献：

[1] Mistry, Dina, et al. "Inferring high-resolution human mixing patterns for disease modeling." Nature communications 12.1 (2021): 1-12.

[2] Ginsberg, J., Mohebbi, M., Patel, R. et al. Detecting influenza epidemics using search engine query data. Nature 457, 1012–1014 (2009). https://doi.org/10.1038/nature07634

[3] Santosh, K.C. COVID-19 Prediction Models and Unexploited Data. J Med Syst 44, 170 (2020). https://doi.org/10.1007/s10916-020-01645-z

[4] Momani, Shaher, et al. "A chaos study of fractional SIR epidemic model of childhood diseases." Results in Physics 27 (2021): 104422.

[5] Necesito, Imee V., et al. "Understanding chaos in COVID-19 and its relationship to stringency index: Applications to large-scale and granular level prediction models." PloS one 17.6 (2022): e0268023.

[6] Moein, S., Nickaeen, N., Roointan, A. et al. Inefficiency of SIR models in forecasting COVID-19 epidemic: a case study of Isfahan. Sci Rep 11, 4725 (2021).

[7] Kissler, Stephen M., et al. "Projecting the transmission dynamics of SARS-CoV-2 through the postpandemic period." Science 368.6493 (2020): 860-868.

[8] Leung, Kathy, Gabriel M. Leung, and Joseph Wu. "Modelling the adjustment of COVID-19 response and exit from dynamic zero-COVID in China." medRxiv (2022).

制版编辑 | 小毛

欢迎关注我们，投稿、授权等请联系

saixiansheng@zhishifenzi.com

参与讨论

0 条评论

暂无评论内容

新冠预测模型，到底哪个更“准”？

赛先生

相关阅读

细推物理须行乐：李政道的科学人生

用13年，抵达量子模拟无人区

游戏刚刚开始：中国科大实现光子分数量子霍尔态

订阅Newsletter