公开数据集网站(nasa公开数据集)

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

让AI来做天气预报,可能是很有前途的一件事儿。

在今年AI Challenger天气预报赛道的采访中,北京气象局城市气象研究所副所长陈敏透露,本次比赛已经有20支参赛队伍的预报结果优于传统的数值模型式预报。

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

传统数值模型预报方式比真实情况有偏差

也就是说,这些队伍通过AI预报的天气,比传统方法更靠近真实的天气数据。

其中,效果最好的队伍要素预报的均方根误差减小百分率已经达到了40%以上。

不过,由于天气预报涉及到许多不同的数据因子,本次比赛仅限于用AI预报2-m温度2-m湿度10-m风速三个物理量,也就是气象站距离地面2米高处的温度湿度,以及10米高处的风速。

因此,要真正实现全面超越传统方式,道阻且长。

气象部门首次公开天气数据集

本次AI Challenger天气预报赛道的比赛中,用到的是气象部门三年的真实数据,这也是首次有气象部门向同类赛事公布数据集。

其中训练集包含1188天的天气样本,验证集包含89天的样本,测试集则包含这个秋天从8月29日起到11月3日的天气数据。

所有数据来自中国气象局北京城市气象研究所,由“观测”和“睿图”两套系统的数据组成,时间跨度长、密度高,包含气象要素的实况和预报两部分,对提高天气预报准确性具有重要作用。

“观测”集逐时记录当前气象观测站点的地面气压、地面以上2米高度处温度、地面以上10米高度处风速等9个地面气象要素,通过气象仪器实时监测得到。

“睿图”集包含地面和特征气压层共计29个气象要素,由数值预报模式在超级计算机上运算产生,其在每天北京时间11:00启动区域数值模式,预报至第二天23:00,共计37个时次。

不过,由于受到版权限制,在决赛结束的11月3日之前,暂时没有办法下载该数据集。比赛结束后重新开放下载,没有参赛的研究人员也可以下载该数据集进行研究了。根据AI Challenger去年的惯例,即使没有报名参赛,也可以在比赛结束后继续打榜。

为什么天气预报总不准

很遗憾,讨论到预报天气的时候,我们并不能把“人工预报”和“AI预报”放在一起讲。

因为现在我们看到的天气预报,也是由计算机代劳,并不是人工预报的,更没有“夜观星象”什么事。

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

曙光“星云”超算

比如北京市气象局用到的睿图-ST短期数值预报子系统,就需要用到“星云”超级计算机才能迅速的把目前通行的数值预报方法中那些复杂的数学公式算出来。

如果没有这些计算机的话,算一次天气也不难,大概……也就耗费两年左右吧,还不一定算得准。

1922年,英国数学家Richardson就在没有计算机的时代,尝试了人类历史上第一次数值预报,通过一个方程进行计算,算了两年才算出结果。很遗憾,花了两年的的功夫,他也没算准。

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

当人类科技树上出现计算机这一项之后,预报天气就变得简单多了,只要get到充足的数学、物理知识,计算的部分可以由计算机代劳。

1.把大气的演变规律近似表示为一组数学方程式;2.从有限观测中得到的当前大气初始状态;3.根据该状态,在已知或设定的强迫条件(包括边界条件)下,用超算求这一组方程的解,得到对未来的天气或气候状况的预报。

However,大家经常吐槽“天气预报骗我”,就是因为目前的这种方法对于天气背后的科学并不是完全了解,所以没法实现100%的准确。

看来,天气预报跟机器学习一样,都是有“黑箱”性的呢。

天气预报,AI界的处女地

不过,既然我们开头说了AI Challenger比赛有20多支队伍在限定条件下预测的都比现有方法准,那用AI来预测天气还是靠谱的。

历史上也有人这么做过。

在上世纪七八十年代,就有人试过用AI来预测天气。不过,当时用的是专家系统。至于现在通过神经网络进行图像识别的方法预测天气,只有少部分学者有所尝试。

因此,本届AI Challenger也是把天气预报放在了实验赛道上。

跨界AI与气象,人才难求

相比图像识别、语音转换这些成熟应用,AI来做天气预报还是有难点的。

陈敏认为,用AI实现天气预报难点有三:

一是成熟的AI技术各不相同,目前无法应用到实际的天气预报上。

二是正在研究中的模型还处在“玩具级”,无法实际应用。

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

陈敏,北京气象局城市气象研究所副所长

核心的因素则在于人才:目前对天气预报从业者的培训都是基于数学、物理等相关知识,尚未开始系统专业的AI培训;而在气象从业人员中。和AI相关的研究范围仅限于线性回归,对于图像识别、语音识别、神经网络方面则没有大量人才。

创新工场人工智能工程院院长王咏刚博士则从计算机科学研究的角度,向量子位讲述了目前开展AI气象预测研究的困难:

一方面,计算机科学界研究AI来完成一项特定任务,需要包括数据、工具、评测标准、应用场景在内的全流程资源,需要气象界的“ImageNet”。而AI在气象预测方向完全是空白,没有多年的数据集、baseline、论文和理论基础,必须从0开始,从数据开始,迈出第一步。

“如果以后研发机构都用标准化流程、算法、数据来研究,那可能就有很大突破 。如果看到那一天,(将AI预测天气应用到实际中)三五年就可以实现了。”

首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI

王咏刚

另一方面,天气预报数据维度、因子远多于图像、语音、文本领域,需要AI工程师和天气预报专家一起尝试,天气预报专家熟悉数学理论 ,AI工程师熟悉计算机算法,实现AI预测天气,离不开AI+气象领域的跨界人才。

气象界的陈敏和AI界的王咏刚都提到了人才。量子位看了看目前各大科技公司AI工程师的薪资,不知道数学好、懂物理、还懂算法的AI气象科学家要在何时才能出现。

AI Challenger 全球AI挑战赛

“AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,由创新工场、搜狗、美团点评、美图联合举办,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。

今年的AI Challenger设置了观点型问题阅读理解、细粒度用户评论情感分析、英中文本机器翻译、短视频实施分类、无人驾驶视觉感知五条主赛道,另外还有天气预报、农作物病害检测、眼底水肿病变区域自动分割、商品实例分割迁移练习、零样本学习五条实验赛道。

目前,天气预报赛道决赛已于10月28日开始,将于11月3日结束,冠军将获得50000人民币奖金。

传送门及数据集下载地址

最后,附上天气数据集传送门:

AI Challenger天气赛道

https://challenger.ai/competition/wf2018

炼丹愉快~

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?’?’ ? 追踪AI技术和产品新动态

本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规等内容,请举报!一经查实,本站将立刻删除。
本站部分内容由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如发现本站有涉嫌抄袭侵权/违法违规等内容,请<举报!一经查实,本站将立刻删除。