探秘“气象大数据”

中国IDC圈2月18日报道:实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。

有人说,在“大数据时代”这个概念出现前,最名副其实的大数据应该数气象数据。气象数据一贯以庞杂众多数据量大而著称,但无论气象数据多么复杂,总体可以分为两类:一类数据被称为“实况数据”,一类被称为“模式数据”。

简单来说,实况数据属于“一般过去时数据”,来自不同的观测设备。采集实况数据的气象站点遍布全球,观测范围从几千米的高空到地面,观测手段从高科技的雷达卫星到最原始的人工观测,这些数据的采集都是为了更真实地反映出地球外围大气圈的运动变化,而这些宝贵的数据也可以称之为天气预报之源。

模式数据与实况数据相比,可以说更简单也可以说更复杂。简单的是,这类数据仅由各类计算机的程序运算生成,属于预测未来的“一般将来时数据”;说它复杂则是因为计算量非常庞大,运用到的计算公式也异常复杂,为了更真实地模拟全球大气的走向,运算出的数据量也是十分惊人的!

下面,我们就一一来详细揭秘这两类“气象大数据”。

天气预报之源——实况数据

实况数据是气象学科发展的最基础数据,也是模式数据产生的源头。如果没有实况数据,计算机在运算“模式数据”时就少了初始值,即使是回归到没有计算机的人工预报时代,少了实况数据也无法进行天气预报。

那么,实况数据是如何采集的呢?

很多年前,实况数据的采集和传输工作大部分都要靠人力完成。气象观测员每天要定时记录百叶箱内的温度、湿度等,并通过打电话、发电报等方式将全国观测数据进行汇总。到今天为止,仍有很多发展中国家采用这种采集传输方式。

而随着科技的发展,在计算机、电子和通信技术高度发达的今天,实况数据的采集和传输技术也有了天翻地覆的变化。所有实况数据的采集和传输几乎都可以通过自动化完成,仅有少数几个项目需要人工参与,比如地面能见度观测、施放探空气球、卫星轨道控制等。

目前,在气象观测站中温度、湿度、气压、风向、风速等物理量均由电子控制的机械设备完成,这些观测站配有嵌入式芯片,芯片上有一个精确的时钟,可以准时地周期性工作,例如在整点每隔5分钟、10分钟或1小时自动采集周围的环境数据,并自动将采集的气象数据编码为二进制数据流,发送到数据库中。截至2015年年底,我国大约有50000多个这样的地面观测站,所有观测站均为自动站。

由气象观测站观测到的数据信息会首先在各省的气象台进行汇总,然后通过“质量控制”的环节,去掉或订正某些由于观测设备故障造成的错误数据,质量控制过程同样也是由计算机程序自动实现的。完成初步的质量控制后,各省就利用FTP文件传输的方式,将该省该时刻全部观测站点全部物理量数据打包为一个大文件,上传到位于北京的国家气象信息中心的通信台。

世界其他国家的观测数据的采集和传输也基本大同小异。除此以外,国与国之间也要进行实况数据的交换,而且必须是无偿交换。这是因为大气的运动是全球性的,仅仅依靠本国的实况数据无法做出准确的天气预报,因此,世界气象组织规定各国之间必须无偿提供气象观测资料。不过,有的时候出于信息保护或军事安全的考虑,并不会对外广播全部的观测站点数据。那么,每个国家需要义务提供多少站点信息,又以什么标准交换,都交换哪些观测项目,这些都由世界气象组织(WMO)制定和协调。

气象大数据之魂——模式数据

模式数据是由高性能计算机根据当前天气实况数据(包括地面、高空、卫星等)通过物理方程计算得出的。可以简单形象地认为,有这样一套庞大的计算天气预报的程序,输入当前已知的天气现象,就可以输出未来还没有发生的天气现象。计算出的天气预报结果通常以规则的等经纬度网格来表示,网格上的每一个点代表这个经纬度上未来某时刻某个物理量(比如温度)的数值。这就是现代天气预报业务的基础叫“数值模式预报”,而这个庞大的计算机程序就被称作“模式系统”。