这是一个最好的时代
这是一个智慧的时代
这是一个空间大数据恰逢其时的时代
对于空间信息技术领域的用户来说,当云计算、大数据、移动互联网、人工智能、物联网等诸多热词和地理位置数据发生关联的时候,地理信息的美好时代来了。
但是当随波逐流翻炒热词的热闹之后,冷静下来我们都在思考:
空间大数据的具体处理流程是怎样的?
我的业务是否适用于空间大数据分析?
是否有完整的空间大数据解决方案?
综合来看,空间大数据分析处理的整体流程包含以下五个步骤:
一、空间数据接入存储
这里包含了数据清洗、数据质检、转换加载的全过程。
首先平台需要提供即拿即用的工具、模型和方法,结合用户实际业务需求,进行数据预处理,其目的是抽取出适用于接入到大数据平台分析计算的文件型数据源,也就是说,实现现有的业务数据库、与大数据分析计算库相分离;
其次系统需要支持接入多源数据,当前主流的文件数据存储类型包括:文件型数据、HDFS分布式文件系统、Hive数据源、以及云存储(亚马逊S3存储、微软Azure数据湖);
二、空间分析挖掘
空间数据挖掘过程,也就是大数据分析场景设计过程,需要结合数据结构、业务需求,进行分析工具的选择,可以是多种分析工具流程化应用;
这时候系统需要以集群模式提供分布式计算能力,充分利用硬件资源,使传统几小时甚至几天的计算量,在秒级和分钟级完成;
三、时空大数据存储
空间大数据平台必须具备的两个关键能力:分布式计算和分布式存储;
在高效计算的能力下,需要配备分布式、高性能的时空大数据存储,通过数据分片存储机制,提供高效的数据写入和查询检索能力,同时,集群可以动态增加和减少节点,保障业务连续性;
四、可视化展现能力
空间数据分析及展现的最大好处是能够直观体现出数据背后的信息和价值,能够在地图上展示出时空变换规律。
因此,空间大数据分析结果需要以多种维度展现,如二三维一体化展示、专题图制作、时空态势播放等丰富的可视化展示手段。
五、业务系统集成能力
大数据平台建设是一个系统性工程,解决具体需求难点很重要、突破以往技术瓶颈也很重要,但是整个平台的完整性、流程化也同样重要。
如何更好的实现空间数据的接入和存储管理、如何高效的进行查询统计和分析展示、如何无缝的与现有业务系统集成,进行一体化管理、如何全面的进行系统架构设计,保障系统的高效性、稳定性、具备自动化的故障恢复能力,从而保障业务系统连续性,这也是成熟生产环境需要综合考量的问题。
来源: Esri中国 (版权归原作者及刊载媒体所有)