从遥感数据中认识更加真实的地球,让 AI 与人交互实现高效精准的识别和判断。本期和鲸科技《对话数智》邀请了遥感技术专家、中国自然资源航空物探遥感中心的于峻川老师,分享其对于遥感数据与 AI 新技术融合应用现状与未来的见解。
受邀人丨于峻川
中国自然资源航空物探遥感中心
遥感应用技术研究所
采访人丨殷自强
Heywhale 和鲸科技
于峻川与殷自强在进行交谈(左:殷自强 右:于峻川)
本次访谈实录,您可前往 ModelWhale 微信视频号观看
01 遥感数据,采集、特点与应用
“利用遥感数据,能够帮助我们更好地平衡人、数字、社会、自然资源的关系”
殷自强:非常感谢于老师接受我们这一期的采访。我们知道于老师的单位是自然资源部航空物探遥感中心,其实大家之前听说过比较多的是卫星遥感,于老师可否给我们介绍一下航空遥感与卫星遥感之间有怎样的区别?以及现在的遥感数据,主要的采集方式是什么?
于峻川:遥感是非直接接触式探测和感知目标的一种技术,这里面就存在着一个“距离”的概念。通过这个方向,我们可以把它区分成地面遥感、航空遥感,和航天遥感。航空遥感获取数据的高度一般是在几百米到几千米,而航天遥感可能达到几百千米。另外二者承载的遥感平台不一样,像无人机、有人机、飞艇,这些都属于航空的范畴,航天的话那就是卫星了。
航空遥感最大的特点在于,它的分辨率是比较高的。现在的光学航空遥感数据可以达到厘米级的分辨率,高光谱的数据咱们国内可以做到亚米级的,达到 0.5 米这样的水平。当然这还是要根据高度来的,如果高度再低,测量还可以更加精确,但从整体上讲,航空数据的分辨率是比卫星数据要高一个数量级的。
而与此同时,航空数据获取的成本也比较高。用无人机还好,如果是有人机,那就要考虑飞机、设备的运输、安装、维护,以及需不需要有地面的人员做几何、辐射的标定,如果要做应用还可能涉及到同步测量,这些都是它的成本。除此之外,还存在一些不确定的因素,比如天气情况是否满足拍摄的条件,空域是否合适等等。
从我曾参与过的几次航空飞行的经验看,好像没有一次能够完整地、连续地把数据从头到尾获取完。实际的情况很有可能是人员和设备全都准备好了,天气也很不错,准备第二天就开始干,但突然收到消息说第二天有个军事活动,空域不通过,需要等两天。结果等两天以后再查天气预报,下面一周又全都是阴天。一旦这些情况一发生,成本就会变得很高,本来用3、4个架次就可以获取到的数据,最后可能要一两个月才能收尾。另外,即使是非常理想地把数据全部获取完了,它实际整个有效的数据面积基本上跟现在国内高分卫星数据获取的一景的面积也差不多。所以从成本和效率的角度去考虑,卫星实际上会更有优势。
咱们国家卫星产业的发展还是很快的,载荷类型非常多,有很多可选性。卫星的受众本身也更多、服务面更广,因此它的数据、服务,整体的链条做的比较好。现在的产品基本上都是按级别处理好,用户通过选择级别就可以直接使用了,比如大家都知道的 Google Earth Engine,就是收集了很多开源的数据产品,直接把反射率上到了平台上,用户只要通过简单的编程就可以在很快的时间内形成自己想要的成果。
再看航空数据,因为飞机在获取的过程中是一个抖动的状态,所以不但要获取数据,还要获取飞行器的姿态,因此在后面做几何处理的时候也就要考虑更多因素。另外航空数据一般都是一个航带一个航带这样获取的,所以获取的过程中会产生时间差,太阳的高度角、辐射都发生了变化,最后要想把数据变成一个整体,可能要有一些额外的操作。整体上来讲,航空数据整个机载的处理流程、体系,还没有卫星那么完善。
但是总的来说,这两个技术的定位是不一样的。在可选的情况下,如果能满足需求的话,肯定是卫星的成本更低一点,且现在的发展趋势也越来越好,但有些细分场景没办法用卫星数据,为了最后要满足需求,只能选择分辨率更高、成本更高的航空数据。
殷自强:通过卫星、通过航空,通过不同的技术,听下来感觉到目前其实我们已经采集到了大量的遥感数据。那遥感它作为一种相对特殊的数据介质,我不知道它跟我们传统所理解的那种图像数据之间有什么异同呢?遥感数据它自身的特点是怎样的?
于峻川:图像数据跟遥感数据,首先肯定是有一些共同点的,比如说它存储的方式、呈现的方式都是一样的。但实际上,它们有一些本质的区别,那就要回归到遥感的原理上了。
遥感实际上本质是一种电磁波,电磁波是有波长的,通常我们接触到的常用的遥感的波长,包括了紫外部分、可见、短波、近红外、中红外、热红外、微波这些。而自然图像,基本就是在 400-700 这个可见光范围内取了 rgb,就是红、绿、蓝三个波段,它只是三个波段。所以,遥感数据可以获取到可见光之外的这部分,它具备的是对人看不到的那些信息的获取能力。
另外,遥感的波段数通常都是要大于三个波段的,多光谱有几个到十几个波段,高光谱,像咱们国家之前发射的那个高分五号,有300多个波段。通过更多波段,对于同一个地物,遥感就能输出更多信息来帮助你去进行判断。同样的,自然界拍摄的图片,它是由 0-255 这种色值数字组成的,是无量纲的,而遥感数据通过一定处理后得到的包括辐亮度、反射率、发射率以及地形的高度等信息,都是有物理意义的。所以不同维度的信息也能帮助我们更好地去判断目标。
还有一点不同的是,遥感数据是有地理信息的,虽然说现在我们拍摄的照片也有一些定位信息,但这还是不太一样。通过地理信息,我们可以将不同时间段的、不同载荷获取的遥感数据做更好的互动。其实现在有一种趋势是利用互联网、利用社交网络去将信息社会跟自然环境联系得更紧密一些,那这里面的一种媒介就是图像或者视频。而遥感数据,它本身就具备了这样的属性。所以利用遥感数据,能够帮助我们更好地平衡人、数字、社会、自然资源的关系。
殷自强:所以遥感数据相比图像数据来说,是具备了更高维度的信息。维度越高,所具备的价值肯定也就越大。现在我们的遥感数据主要会应用在哪些方面,在解决什么样的问题呢?
于峻川:我们提到的高维其实是来源于三个方面,就是高空间、高时间,还有高光谱。
空间比较好理解,像传统遥感做的解译,它是在一个二维的平面里去确定目标是什么、定位在哪里、范围有多大,其实是在解决“数量是多少”的问题。
时间是说,我们可以通过长时间序列的分析来得到目标变化和发展的规律。这其实是趋势的分析,也可以称之为变量的分析。
高光谱就会稍微复杂一点了。前面咱们说自然图像是三个波段,那如果是一个从400到2500波长范围内的高光谱,每一个波长都会有一个数值,把这些数值连起来的话就会成为一条曲线。因为不同的地物在电磁波不同波长位置上吸收和反射的特性是不一样的,所以在光谱曲线中呈现出来的形态也是不一样的,通过这个特征就能很好地进行区分。
举一个例子说,同样的绿色草地,我们不能确定它是真的还是假的,因为颜色是一样的所以我们人也没有办法确定,但是当用高光谱照了以后,就能发现其中的不同了;再比如水体,它在近红外的部分几乎是完全吸收的,按理说它是没有什么特征的,所以利用这部分波段可以更好地把水体的信息提取出来,而当水体里面有很多泥沙或是很多其他植物的话,整个的光谱曲线就又会发生变化;还有森林、草地、农作物,如果遭受了虫灾,那它在光谱上也会有一定表现,包括我们现在正在做的,地质领域里矿物信息的提取,也都是这类原理。所以高光谱这个维度,解决的是质量的问题。
根据前面提到的这个数量、变量,还有质量,三方面结合基本上就可以解决自然资源领域里面大多数的问题了。再随着遥感数据的不断丰富,以及像人工智能这类新方法的加入,它的作用会变得越来越大。
02 AI 的引入,现状与优势
“人工智能如果考虑遥感数据的特点,再结合一些新方法,可以发挥重要的作用。”
殷自强:刚于老师提到了现在随着遥感数据的积累,以及技术上新兴的 AI 等相关方法的出现,我们可以用一些更好的、基础的手段去解决更多问题。
遥感数据是作为一种技术,来处理类似于植物、矿物等相关识别的问题,那 AI 它在遥感领域中研究与应用的现状又是怎样的?
于峻川:我记得大概从2012年开始,人工智能兴起了以后就一直是在 CV 领域里面迭代,直到2015年才开始逐步地进入到遥感领域。它的发展我认为是可以分为几个阶段的。
开始的时候大家可能认为这个技术只是一个热点而已,很快就会过去,所以是很多人是在旁观,后面在做一些舰船的识别、建筑物的识别,逐渐看到效果了,它又开始被很多人追捧。这是最有争议的阶段,有些人认为人工智能非常厉害,好像什么都能做,也有些人非常抵触。然后一直到近两年,它实际是普遍地被大众所接受了,也逐渐地深入到遥感各个细分的行业里面了。现在有两个趋势是比较明确的,一个是它正逐渐地在各个细分领域迭代、深化,这是纵向的发展;另一个是它正在跟其他的交叉学科不断融合,这是横向的发展。
从我工作的角度来说,我认为 AI 技术最主要有两方面的价值吧。一个是它可以替代一些传统的、重复性的工作。举个例子,像我们航遥中心之前也是会接收遥感数据,这个量还挺大的,每天有几百景,当时用传统的方法很难把云给准确地检测出来,所以主要是靠人工来做,工作量非常大。后来有一个机会,我们做了一个针对高分五卫星的项目,利用人工智能技术实现了云的快速检测,只需要输入 rgb 的信息就可以准确地判断出来,并且还能跟易混淆的地物进行区分,包括冰川等信息都可以区分出来。另外,数据本身存在的缺失、噪声,包括无效的数据,也可以通过分类的方式剔除掉。因此,利用人工智能,我们是做了一个比较好的尽可能自动化的质检系统,这是它起的一个很主要的作用。
另一个方面,我认为人工智能现在可以解决一部分我们人的识别认知的问题。比如说我们现在做的一个任务是在 InSAR 形变的相位数据中找跟地质灾害相关的形变特征,这个特征在呈现上其实跟那种地面沉降造成的特征是非常相似的,包括数据里面还有一些其他噪声的干扰,所以从数值上很难用传统方法把它剔除掉,但是又要去区分它跟其他类型的异常的差异,这里我们也引入了人工智能的方法来帮助我们去做识别和判断。
实际上我们觉得,人工智能如果能考虑到遥感数据的特点,再结合一些新的方法,可以发挥很重要的作用。
殷自强:我听说于老师前两周也出差去野外验证 AI 识别相关的最后的结果,能给我们分享一下那个项目的经历吗?
于峻川:我们这个项目是地质灾害隐患综合遥感识别,一方面通过光学数据去识别出区域内滑坡的形态,另一方面通过人工智能技术做承灾体的一些道路、水体的识别,然后用我刚才提到的 InSAR 数据找到隐患的目标,这两个数据相结合能大致地把这个区域上有可能的目标给找到,最后再结合专家知识把最终的隐患提取出来。这个过程中,我们去野外做的事情就是去验证我们提取的结果对不对。
殷自强:最后验证效果怎么样?
于峻川:验证效果我们觉得还是非常不错的,但是也发现了一些需要改进的点。一方面是针对特别小的目标,我们的算法还是有忽略的情况;另外有一部分它并不是目标,就是容易错的这些,我们可能后续还需要通过增加一些困难样本把它更好地区分。但是整体上效果我们还是满意的,觉得是有潜力的。
03 AI 的引入,挑战与融合
“聚焦到要识别的目标,采用的方法也要从目标和场景的特点去出发”
殷自强:通过于老师的讲述我们可以感受到现在 AI 它并不只是停留在 paper 层面,停留在实验室层面,而是真的已经在去解决一些实际的问题了。尤其是像于老师讲的地质灾害相关的问题,会让我们感觉说在未来 AI 一定会对整个民生起到更大的价值。
那从另一个角度看,之前像地质调查其实已经有许多的方法在进行了,随着 AI 新方法的引入,它会对我们现有的工作流和基础设施带来什么改变吗?这方面想请于老师来给我们分享一下。
于峻川:确实是有很大改变的。我们以前处理遥感数据是利用 ENVI-IDL 通过编程来处理,但它其实对计算资源的利用率并不是很高,后面我们的分析方法有了 GPU 之后就有所改善了,可以提高它的效率,但也是遇到了一些问题。
我们开始用的是单机单卡和单机多卡,很快就满了就没法用了,就又采用了集群的方式,但是集群又带来了新的问题。我们的需求是希望每个人都能够有自己的实践环境,但针对一些比较大的问题又能把所有的计算资源利用起来解决这个问题,所以我们就需要有一个平台来帮我们把存储和计算资源给整合起来。
另外我们现在的数据分析基本上都是用 python 在做,那么原来的那套工作流就可能涉及到迁移的问题,如果都迁移到 python 平台肯定是可以跟深度学习更好地融合,但是这就提出了一个新的要求,就是怎么去做模型的管理、数据的管理、任务的管理。
另一个方面是,我们研究的过程会做很多实验,这里面涉及到了不同数据的组合、模型的组合,还有调参。在实际应用中,我们觉得有一个点非常麻烦,就是我需要一直盯着它看,这个实验跑完了之后再跑下一个,就需要有人盯着,另外实验结果怎么样也还是得去查看,所以实验多了之后这个过程就显得非常繁琐。
我们理想的状态是我先把数据、模型、参数在前面先定好,然后通过一个平台来执行离线的任务,每执行完一个之后可以邮件通知我这个任务已经算完了,并结果也附上去,当所有实验都跑完了之后,再发一个对比的报告给我,这样就会轻松很多。
所以说我们面临的主要问题,其实一个是计算的压力,虽然算力现在是满足了,但是怎么能把资源更好地整合起来,是这个压力;另外一个呢就是随着新技术的到来,我们整个工作流可能是有变化的,如何去搭建工作流,这是一个问题。
我也尝试了很多云计算平台,综合下来我发现咱们和鲸的 ModelWhale 在这里面确实是比较优秀的,基本上能够解决我上面提到的大部分的问题,包括在线的 VScode 功能,还有和鲸社区,环境都非常不错,所以也是希望更多这个从事遥感的研究者能够把咱们这个平台给用起来吧。
殷自强:非常感谢于老师的认可,我们也是一直希望能够帮助我们的科研人员专注于自己的研究工作,在大家引入了 AI 相关的新方法后,可以通过我们平台去解决这种计算问题、存储问题、整个模型全生命周期的管理问题等等。我们相信对于领域 knowhow ,对于整个过程的探索,最重要的这些方面的时间才是科研人员真正需要去 involve 进去的。
那刚才咱们讲的主要是工作流相关的问题,实际真正在去用那些 AI 算法的时候,在遥感领域它的适用性又如何呢?以及现在主要在用的是哪些类型的算法,于老师能否给我们讲解一下。
于峻川:实际上现在 CV 里面用到的算法在遥感领域基本上也都用得到,包括遥感里面的目标检测、语义分割、变化检测,还有异常检测,基本上都会涉及到,就像我前面说的,它已经深入到了遥感的各个方面。但是对于那些跟 CV 里面的自然图像更相近案例,效果会更好一点,比如说人脸识别、舰船识别,它们都符合一个特点,就是目标判断的规则是非常明确的,训练样本也比较多,变化不会特别大。只要符合这个特点,我们就认为它做出来的效果应该是比较不错的。
但是我们前面也提到了,遥感它有自己的特点,所以在 CV 领域里面迭代出来的模型,包括得到的一些结论,有些在遥感里就不一定正确,这是需要注意的。另外遥感毕竟是一门技术,最后是要应用的,那么在应用场景里可能就需要额外地去想更多解决方案,比如说道路提取中的联通性的问题、变化检测中的建筑物遮挡的问题,都需要思考更多方案来解决。
现在有很多研究是直接把 CV 领域里原有的一些模型方法迁移过来,当然这也是一个必经的阶段,但是我觉得往后可能有更多关于融合遥感的研究可以开展。
一方面遥感在应用领域的标签其实不是特别好获取,刚才提到的那个云检测是一个特例,有些比较专业的场景,本身那个标签数据获取就比较困难,因此它是一个小样本的问题。那在解决这种小样本问题的时候,所用到的骨干网络如果太重的话,可能就会导致过拟合,所以就需要多去调试、多去想一些轻量化的网络来设计。
其次,我们知道 CV 领域很多都是采用模型初始化的方法,用 ImageNet 做初始化,但是遥感的波段多,波段数也不一致,就可能用不了。我在想我们能不能做一个遥感领域的 ImageNet ,如果有这个的话可能对后边的研究有很大帮助,因为目前的状态大家都是不同领域自己弄自己的,缺乏一个统一的、大的数据集。
另外,CV 里面常用的数据增强的方法其实对于遥感数据来说很多都是没有太好效果的。遥感数据里面的变化是由什么引起的呢?一方面是时间,时相不同,辐射的条件产生了变化会造成影响;另一方面是空间,比如同样一个目标,现在的背景是草地,回头也可能换成是林地或者野外的场景。能不能通过这些角度去设计一些新的数据增强的方法,也是一个值得研究的问题。
其他还包括现有 CV 模型里,因为它通常的数据只有三个波段,所以对于遥感多光谱高光谱信息里面光谱的连续性也没有考虑到;还有多源的遥感数据如何用深度学习进行数据的融合;还有最重要的一点,现有的这人工智能的技术,怎么与传统的方法、一些物理模型相结合,这是未来非常值得发展的点。
总体来看,随着人工智能在行业里应用得逐渐深入,它面临的问题实际上是越来越复杂的,肯定不是像我们最开始做的水的提取、舰船的识别这种。很多时候给我们提出来的问题是宽泛的、是模糊的,我觉得更重要的是对场景的理解,要去聚焦到你要识别的目标,然后采用的方法也要从目标和场景的特点去出发,我认为更重要的是这样的一个过程。
殷自强:理解。但是要对传统的场景去做更好的理解,也就是说在具体问题中设计相关模型,最好是我们以前就在研究遥感的这批人能够自己再去具备 AI 相关的知识,那像这类复合型人才的培养,目前现状是什么样子的呢?
于峻川:你说的非常对,表面看我们搞人工智能的,好像只要你给我提供行业的数据我就能去解决问题,但其实深入之后并不是这样的。
为什么要复合型的人才?他要了解行业里的核心需求是什么、传统的工作链路是怎样的,然后才能知道里面哪些步骤是可以用人工智能优化的。另外,采用的优化方法是否可行,这也很复杂。目前我们的复合型人才,其实绝大多数都还是在实践中培养起来的。
不过我发现近些年的研究生,好像都能够比较主动地去学习这方面的知识了,比如说 python 语言等等,这是非常好的一面。像我前些年招的学生,一般我都是从编程开始教,还有遥感的知识、人工智能的知识,这个过程就有点太长了。后面我想了一个办法,在 github 上开了一个课程,然后根据项目的需求设置一些内容,包括布置一些简单的任务,那么学生只要把这个课程学完,基本上就能把模型、遥感的整个流程熟悉一遍了。在他学完之后,再让他根据自己的认识去丰富这个项目,这样来形成一个良性的循环。
04 多维协同,现状、核心与期待
“希望这个领域的从业者既要有信心,又要克制”
殷自强:这是一种实践性学习的方法。那刚其实我们最早聊的时候有说到遥感已经渗透到各个领域中去解决很多相关的应用问题了,所以现在像跨学科合作,以及数据共享方面的现状是如何的呢?
于峻川:我觉得从意愿上来说,大家是非常想要合作的,这个没有任何问题。另外在政策上,包括可以看到一些项目的指南里,也不仅仅是要求你去做技术的跨领域融合,还强调组织上的产学研一体化,所以从政策上来说,也是非常支持的。
那么从市场的角度来说,我认为用单一技术来解决问题的,是已经经过充分竞争,市场格局比较稳定了,所以有潜力的主要还是在跨学科领域里面。像目前我们正在做的重点研发计划的项目,其实就是一个非常典型的跨学科案例,这里面涉及到了地质这块做理论研究的、涉及到了指标体系的构建、涉及到用 InSAR 数据来解决问题、涉及到光学的数据、机载LiDAR,然后还包括了系统建设的方方面面。只有把这一个整体给做下来了,才能满足落地应用的需求。
那这些都是跨学科合作好的方面,但是在数据共享这块我觉得还是有很多可以提升的空间。
首先我们现在没有一个比较好的政策,其次没有一个能够人人都可以使用的数据平台,第三点我觉得也是最重要的一点,就是我们现在缺少这种共享开放的环境,很多人都不认可这个价值。现在互联网上大家都在倡导知识付费,但是知识付费了以后就越来越少的人愿意去免费地、主动地共享自己的数据和成果了。我也不知道是不是因为这个原因,感觉现在参加一些会议,看到的很多都是关于自己成果的宣传,中间的技术细节反而很少能够听到了。
所以我认为无论是模型也好还是数据也好,无论它技术指标有多高,这都只是一个方面,真正能够使它得到认可的应该是看有多少人去使用它,并给出正面的评价。我非常希望无论是卫星数据也好,还是行业里面的数据也好,都能够尽可能地去开放。
殷自强:是的,我非常赞同于老师这个观点,像在算法层面我们也一直说算法是需要被应用才有价值的。那目前在遥感领域我们这些 AI 算法业务化的现状又是怎样的呢?
于峻川:人工智能在遥感领域的应用,我觉得是处在一个磨合期。某些方面用了之后感觉效果不错的,就是已经基本具备了业务化的基础了;而另一些,或者说大多数情况下,它其实还是没有办法去取代传统的工作模式,更多的是在原有的业务链条里面取代其中的一部分。
但是最核心的,还是在于人。新的技术手段和传统的业务链条之间,需要经过一个迭代的过程去逐步地磨合,这个过程可能会持续很长时间,到最后形成一种人机智能交互的状态,我认为这可能是这个技术最后的落点。
那么我们为了更快地去加速这个产业化的过程,就像前面提到的这几个方面一样,比如我们需要去培养更多跨领域的人才,我们希望像和鲸这样比较优秀的公司能够去开发一些面向业务的系统平台,还希望我们的数据,遥感数据也好、行业数据也好,都要更加开放。
另外还有一个比较重要的方面是,我认为大家对于人工智能技术要有一个客观的认识。它只是一个算法,只是一个解决途径。如果大家对它的期待过高,而短期又没有看到效果,那会对整个业务化造成很大的困难。所以我希望这个领域的从业者既要有信心,又要克制,踏踏实实地把自己的工作或者技术做到落地,才能够真正推进业务化的发展。
殷自强. 述
通过今天的访谈,我们可以看到遥感数据是蕴含着巨大价值的。现在许多新的数据科学方法的成熟,尤其是 AI 技术的涌现,是在加速遥感数据的释放,而在这个价值释放过程中关键落脚点还是在人本身,需要以人为主体对这些不同的知识进行融合。
我们需要创建一个良好的环境与平台去改善研究者对不同知识的认知以及对新型协作关系的认知,这些认知的改善才能从真正意义上利用好现在的新兴技术,促进整个遥感数据的挖掘与应用。
查看访谈实录、了解更多其他领域对话,欢迎关注“和鲸”微信公众号。
ModelWhale 是和鲸科技旗下的数据科学协同平台,将计算基础设施、模型开发环境和团队管理环境进行了深度的融合,提供了高度集成的能力和高度友好的体验,显著提高团队用数据、建模型、做业务的工作效率。
ModelWhale 同时支持 SaaS 云端使用及本地私有化部署。如果你对 ModelWhale 感兴趣,欢迎进入 ModelWhale.com 了解更多产品信息,也可官网右侧二维码联系产品顾问 或致电:021-8037 0235(转8) 沟通交流。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com