数据“卡脖子”,何谈研究话语权?
“我们国家在数据方面基本没有话语权。” | 图源:pixabay.com图源:pexels.com
在大气、海洋等研究领域,中国普遍缺乏拿得出手的高质量数据。问题出在了哪里?
撰文 | 邸利会
责编 | 陈晓雪 冯灏
● ● ●
“我们国家在数据方面基本没有话语权。”
谈到IPCC报告里鲜有来自中国的数据时,A学者不无感慨地告诉《知识分子》。
这位要求匿名的研究者举例说,在最新发布的IPCC第六次评估报告(IPCC-AR6)中(见报告附录Ⅰ,观测数据产品Annex I: Observational Products),列出了报告使用的所有数据产品,总共有283套,其中,中国贡献的只有9套(含中国香港、中国台湾),不仅数量少,且绝大部分是区域数据产品(如中国的气温、降水等)。
IPCC全称 “政府间气候变化专门委员会”,IPCC报告体现了整个气候变化科学界的智慧,对各国气候变化的政策制定有很大的影响。如此重要的一个报告,中国数据贡献寥寥,令人遗憾。
在气候变化领域,中国缺乏国际上拿得出手的高质量数据,事实上,这也是中国科学数据普遍贫弱的一个缩影。
拿不到的数据
相比国外,中国的某些科学数据很难拿到,可让一般人想不到的是,国内难拿到的数据,反而很容易从国外拿。
中国气象数据网(http://data.cma.cn,上图)和NOAA气象数据网站(下图)。下图中圆点就是站点,无须注册即可下载各个站点的气象数据(https://www.ncei.noaa.gov/),可溯至1951年。
例如,个人以普通用户的身份登陆主流的气象数据网站进行条目搜索,在中国气象数据网(http://data.cma.cn),可选择的地面逐小时观测资料被限定在七天之内;而在美国国家海洋和大气管理局NOAA的数据网站(https://www.ncei.noaa.gov/),各个站点的各项气象数据非常完备,无须注册,个人用户就可以下载到详细的气象数据,以基本的地表温度数据为例,最早可追溯至1951年。
这种 “怪事” 由来已久。
早在2016年4月发表的《公共数据不开放共享,中国就要落后》的文章中 [1],北京大学教授陈松蹊就谈过他研究雾霾的尴尬经历——北京气象局的历史数据需要花钱买,据说 “每小时只是几块钱,不贵的”。无奈之下,他们从美国一家气象研究机构的网站上找到了北京南郊观象台每半小时的气象数据,免费。
并非只有陈松蹊注意到这个问题。
在2017年11月的文章 [2] 中,Patrick Funk、薛澜、梁正等来自中美两国的学者指出,“在过去,中国大气污染数据的收集分散且经常失真。很多数据无法公开获得。” “研究人员和机构为了最大化地发表文章,把数据捏在手里。”
他们认为,由于高质量的传感器是被全国各个不同团体占有,而空气污染的分析需要来自每个区域内多个站点的高质量数据,只有克服数据共享和合作的障碍才能更好地管理和减少中国的空气污染;而且,如果只用有限的数据,还可能得到错误的结论——比如在理解臭氧空洞时,最初很多科学家和决策者不相信氯氟烃假说,但通过收集了不同范围、各个平台的数据后,这个假说得到了验证。
不仅是在环保、大气领域,在海洋研究领域,即使是作为领域内的研究者,A学者坦言,国内的数据获取同样困难——
“其实国内很多人去做测量,测量回来后,数据都是保密的,(攥)在自己手里,不给别人用。那么一个团队能测多少数据呢?所以就没办法搞全局性的研究,因为数据量太少了。这样的话就形成了类似于军阀割据,大家都用自己手里的一点点数据,发几篇小文章。中国的数据其实并没有汇聚到统一的地方去。”
在海洋研究领域,中国通过数据共享贡献给国际同行的也很少。
海洋观测领域颇为知名的Argo计划 [3],通过全球30多个国家的合作来维持一个全球海洋的观测网络,该计划强制要求所有的参与方,必须把测出来的数据共享给国际,其中中国的数据贡献少的可怜,大概不到4%。
“我们这么大的体量,其实(贡献)也是比较小的,所以我们国家长期在海洋观测领域是抬不起头来。”A学者说。
海洋极大且深,缺乏数据尚可理解,但令人惊奇的是,在普通人看来并不缺乏数据的领域,研究者想获取数据也困难重重。
今年8月5日,国家青藏高原科学数据中心主任李新等人在《自然-地球科学》发表评论文章,呼吁数据共享 [4]。
作者们在政策、管理、技术、国际化四个层面提出了具体的建议。在政策层面,他们指出,应该进一步明确敏感数据及其使用界线——
“地球科学数据,尤其是涉及到国家安全、商业秘密和个人隐私时,本身可能是敏感的。为了最大化数据共享的实践,很重要的是,要对敏感数据确立清晰的定义、共享界线和限制的规则。在共享限制规定之外的数据,共享的实践应完全基于可查找、可访问、可互操作、可重用的FAIR原则。”
李新等人提到的FAIR原则,是国际上几位学者在2016年3月发表的文章中 [5],正式提出的,可以看作是提升数据可重用性的某种指南。之后,这些原则得到了不同国际组织的广泛认可。
的确,界定清楚敏感数据以及各方的权责,是数据权利领域非常基础的问题——如果不是保密数据,理应就不该以 “保密” 为缘由拒绝合理的分享。
可喜的是,尤其是近些年,中国也在努力提升数据共享水平。
2018年,国务院办公厅印发的《科学数据管理办法》,共19处提到共享,其中第19条规定,“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。”
2019年,国家海洋科学数据中心、国家青藏高原科学数据中心、国家人口健康科学数据中心、国家天文科学数据中心等第一批20个国家数据中心上线。
但这里提到的科学数据究竟包含了哪些?里面却存在着模糊地带。
举例来说,涉及到地球科学领域的数据,很大部分来自政府部门——
其中的一大类是由各个部委,根据其业务职能,在国家财政的支持下,成体系、成规模地开展各种资源、环境调查等所得到的数据(如水利部门开展的全国河流断面的水位、流速等监测数据;林业部门开展的林业调查样方数据;环保部关于各种类型的空气质量、水域污染物等数据;自然资源部的土地调查数据等)。
这样一些部门的数据,如何界定其中的科学数据,是要讨论的地方,属于一个灰色地带。中国目前还没有明文规定什么类型的业务数据应当作为科学数据进行管理,因为一旦归入科学数据进行界定,按照《科学数据管理办法》,现在理应转移到20个科学数据中心或者其他合理的数据仓储,按照科学数据共享的原则、方式来做。
除了各个部委产生的数据,在地球观测领域,另外一大类是采用制作卫星载荷、统一发射、统一接受、统一管控、统一处理,然后分发到主要牵头的部和委(作为卫星数据的主用户)而获得的数据。
从实际情况看,这两大类数据,因为未被明确划入科学数据,科研界都难以获取。
在之前的文章中,陈松蹊表示,“气象局、环保局已经开始对气象、环境信息通过网站即时发布。但对各学科的研究者来说,规范的长时间的历史数据更有科学价值。然而获取规范的长时间的历史数据仍是无路可循。往往要通过关系,甚至高价购买。”
可国内拿不到的数据,从国外却可以免费拿到。陈教授在上述文章中提到,“我后来和北大一数学院士谈起此事,他说北大一同事所研究的中国地表方面的数据也是从美国得到的。看来这不是一个部门的问题。”
外国的数据更“香”吗?
一些学者能够方便地从国外拿数据(包括产生于中国的数据),得益于这些国家较成熟的数据政策和实践。
以遥感数据为例,在欧洲、日本、澳大利亚、德国,这些发达国家里,美国对地观测的科学数据在本身的质量,国际开放的程度等一直是比较领先的。
据刘润达等 [6],美国很早就鼓励信息自由流通,希望信息在流通中增值。
具体来说,美国的《自由信息法》要求联邦政府部门将政府信息向公众开放并接受公众的监督,允许向任何的公共或私人事物进行拷贝;此外,美国的《版权法》明确规定,版权保护条款下的版权保护 “不适合于美国政府的作品”。
在地学领域,1991年7月,美国白宫总统科技政策办公室发布了 “全球变化研究数据管理政策声明” [7],从此,美国联邦政府明确提出,将 “完全与开放”(Full and Open)的数据共享政策作为国家科学数据共享的基本国策。美国国家研究委员会在其研究报告中指出,要遵循 “数据的价值在于使用” 的原则 [8],科学数据的 “完全与开放” 获取原则应被采纳, 并将其作为公共资助研究所产生的科学数据交换的国际标准。
美国国家航空航天局(National Aeronautics and Space Administration, NASA)、美国地质调查局(United States Geological Survey, USGS)、美国国家大气研究中心(The US National Center for Atmospheric Research, NCAR)、美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)等机构,也很大程度上秉承了这些理念,在数据的收集、储存、分析、共享方面走在世界的前列。
在美国,这些机构也是属于典型的业务部门,因为美国联邦相关的法律规定,这些部委对于数据开放和共享的认识、共识等要比较深入,所以数据开放,彻底和免费的程度等还是非常高的。
除了 “公开” “免费” 的好处,这些机构的数据之所以有吸引力,还有两个特点:首先,具备长时间的特征,比如有长达几十年的地表环境变化研究或者全球变化研究的数据;其次,数据的一致性等方面质量较高。
这方面知名的一个例证是USGS的Landsat项目。该项目从1972年开始已经发射了8颗系列陆地观测卫星,是目前为止地球持续观测时间最长的一个卫星系列。美国政府通常免费提供由政府资助的地球观测卫星获得的图像,而Landsat此前是个例外,直到 2008年USGS通过互联网免费提供了Landsat数据。
Zhe Zhu 等人的研究指出,“随之而来的是 Landsat 图像下载量的大幅增加,并导致科学和业务应用程序的迅速扩展,为政府、私营部门和民间社会提供服务。Landsat计划因此为世界各地的航天机构提供了一个关于开放获取地球观测数据的价值的例子,并刺激了全球,包括欧洲的哥白尼计划,采取了类似的政策。” [9]
而在海洋研究领域,A学者表示,美国的数据中心也是最受国际尊重的。
“因为他们确实做了大量的工作,我们之前的很多研究也都是和美国、欧洲的数据中心的人一起合作完成的。他们也比较开放,我们研发的方法他们也会用,已经用到美国的数据中心去了,所以是一个非常健康的良性的互动。” A学者说。
不仅是数据的开放,开放的思维也贯彻在整个数据中心的建设上,比如充分利用 “外脑”。
NASA就有这方面的例子——
马里兰大学,因为地域的原因,开车几十分钟就可以到达戈达德太空飞行中心(Goddard Space Flight Center),该校很多老师是NASA数据卫星的科学团队成员。
就整个数据处理流程和人员安排来说,根据每颗卫星任务的不同,NASA每次会组建不一样的科学团队,指导卫星的设计。等卫星上天,数据传回后,科学团队紧接着为数据产品的研制和将来的数据生产设计算法。
之后,NASA的数据中心内部的一支专门的工程师团队,做硬件的、做基础和应用软件的,接过手来,把科学团队的算法在计算机系统上实现。
最后,NASA还有一支专门做对外服务的团队,不定期对外宣讲,丰富数据产品文档、实验过程、地面控制以及各种数据库。
充分利用 “外脑” 组建的科学家团队、专职的工程师团队、专业的对外服务,如此三位一体的安排,除了NASA,也被USGS、NOAA、NCAR所采用。相比较而言,国内的数据中心在这三个方面都存在一定程度的差距。
国内的人才困境
相比国外这些较为成熟的数据政策、体制机制,制约中国科学数据发展的核心还在于专业人才的缺乏以及不合理的评价体制。
他山之石或可攻玉。以上文提到的Landsat为例,这个跨越了40多年的项目,USGS的数据中心团队几十年如一日,跨越不同的物质形态和技术手段,整理分析甚至是胶片的、磁带的记录,持续性地保证Landsat科学数据的国际共享价值。
但这种几十年如一日的工作,如果是放在国内做,在科技评价中则不占便宜。
作为海洋数据研究领域的学者,A学者对此有深刻的体会——
“我个人的感受就是我们国家的基础研究其实还是非常弱的。对于全球变化,要判断全球到底有没有变暖,海洋温度的上升,冰川的融化,这些主要的判断要依据数据,这个很基础,只有知道了怎么变才能去应对它…… 其实国内有很多人去做测量,但没有专门去做数据的,因为做数据的人在现行的体制下,很难活下去,(当前的评价体制)要求你不断去写论文,但是做数据天然地需要花大量的时间去了解数据是长什么样子。这也是为什么大家不太愿意去做(数据)工作的原因。”
图灵奖得主 Jim Gray 在2007年加州山景城召开的一次会议上,发表演讲 “第四范式,数据密集型的科学发现”,提出今天的科学已经进化到可以是数据驱动的发现 [10]。从涉及到地球各个圈层的气候变化研究,到关系到人类健康的遗传基因组、蛋白组、临床试验,数据成为了必不可少的创新源泉和力量,再没有什么时候比重视数据基础建设和共享更迫切的了。
中国在数据方面的基本功建设依然任重道远。
制版编辑 | 卢卡斯