当下,科学数据已成为科学研究的关键成果和重要的战略性资源,科研也步入了数据密集型的“第四范式时代”。然而,面对喷薄而出的数据需求和数据量,如何存储、管理、共享这些科学数据,就成了全球科学家关注的前沿热点。
在今天举行的2021浦江创新论坛之新型技术论坛-“数生万物”科学数据创新大会上,来自不同领域的科学家发出了一个共同的声音:数据是一种发展治理模式,应尽快探索建立全球科学数据共享网络与机制,以适应这个前所未有的大数据时代。
41%的可持续发展目标处于“有方法、无数据”的状态
1998年图灵奖得主吉姆·格雷将科学研究的范式分为四类,除了传统的实验范式、理论范式、仿真范式之外,新的信息技术已促使新范式的诞生,即数据密集型科学发现,即“第四范式”。
近年来,科学技术发展呈现出了明显的大科学、定量化研究特点。国家科技基础条件平台中心副主任王瑞丹在论坛上表示,科技创新越来越依赖于大量系统、高可信度的科学数据以及对科学数据的综合分析和挖掘,科学研究已快速推进到一个前所未有的大数据时代。
科学数据有多重要?“没有数据,很多事都难以解决。”中国科学院院士、中国科学院空天信息创新研究院研究员郭华东提到,2015年,联合国曾提出变革世界的17个可持续发展目标,其中有41%处于“有方法、无数据”的状态,也就是说,“没有数据,即使有方法,这些目标仍将难以实现”。
身处“地球村”,人类命运已联结成一个共同体,应对流行病、气候变化、能源危机,无不需要全球大数据的支撑。郭华东介绍,于2018年元旦正式立项的“地球大数据科学工程”,目前已开放8PB(百万G)数据,“通过这一专项,我们用数据证明了中国对全球土地退化零增长做出了最大贡献,还发现1999年至2018年全球冰川储量减少了6%,等效于海平面高度上升了12毫米”。
然而,有些科学数据的获得极为困难。中国极地研究中心副主任徐韧在讲演中提到,去南极考察一次平均需要160天,而海上作业时间平均仅47天,极地科学数据门类繁多,科考人员必须昼夜连续作业,否则根本来不及完成任务。然而,北极航道缔结国际条约、南极罗斯海新站立项,乃至“雪龙2”号极地科考船的研制,无不需要以历次极地科考所获取和积累的数据为基础。
告别半自动化数据生产,构建人和机器都能理解的数据生态
科学数据已成为科学研究和发展的战略性、基础性资源,加强科学数据的管理、共享和应用,是大数据时代面临的一项十分紧迫而重要的任务。
“我们需要的数据不是太多,而是还太少。”中科院脑科学与智能技术卓越创新中心副主任孙衍刚说,线虫仅302个神经元,相互形成了7000多个联接,上世纪中后期,科学家花费了十几年才完成其联接图谱;而人类大脑神经元多达860亿个,其联接图谱的数据量将无比惊人——必须改变目前还需投入大量人工的半自动化数据生产状态,更多利用人工智能深度学习,大幅提高科研效率。
“现代技术可以对一个人产生海量数据,但这些数据的采集、管理、流通和共享,不仅涉及个人隐私,还关系国家生物安全。”复旦大学大数据学院院长冯建峰认为,应尽快探索建立相应制度。他在论坛上介绍,生物大数据是智能医疗的基础,而智能医疗的终极目标是能给人“科学算命”。他所说的“算命”,指的是精准预测个体的身体与精神健康状况。通过大数据采集与分析,冯建峰团队已可通过步态判断抑郁症,准确率超过70%。此外,团队还研发出一套软件系统,可通过核磁脑影像精准判断脑卒中病人可否进行溶栓手术。
2018年,我国发布了《国家科学数据管理办法》,以进一步加强和规范科学数据的管理,保障科学数据的安全,提高开放共享的水平。2019年,我国成立了20个国家科学数据中心,以推动不同学科领域科学数据的汇交采集、存储管理、加工挖掘和开放共享等。郭华东强调,要摆脱“拷U盘式”的数据共享模式,必须不断创新,构建起数据、计算、服务一体化的数据智能服务系统。
国际数据委员会(CODATA)副主席、中科院计算机网络信息中心科技云部主任黎建辉表示,解决复杂科学问题需要大数据、云计算及人工智能等新手段,但目前的问题是,全球科学界还缺乏有效机制与技术实现互联互通与资源共享。“未来,数据必须要能被人和机器所理解和操作,因此需要跨越学科边界,构建起两者都能理解和操作的数据生态。”黎建辉透露,未来十年,CODATA将以实现多领域数据交叉融合为目标,建立起跨领域合作网络,并挖掘示范案例。
作者:许琦敏
摄影:袁婧