GIS多源数据集成模式评述

2024-06-20

GIS多源数据集成模式评述(共2篇)

1.GIS多源数据集成模式评述 篇一

1 多源空间数据集成模式

目前对于不同格式的空间数据集成主要采取以下三种模式:

1.1 数据格式转换模式

数据格式转换模式是指通过某种特定的转换程序将各种异构数据转换成一种数据格式,并将转换后的数据复制到当前系统中。但这种模式也存在缺点,因为它首先需要将异构数据统一起来,这就使得数据间缺少了独立性,而且因为没有统一的描述方法,容易导致异构数据转换后空间数据的信息丢失[1],这样就会给以后使用这些数据构成隐患;另外由于一般空间数据量比较巨大,所以要集中这样的海量数据就显得非常困难。

1.2 数据互操作模式

数据互操作是指空间数据能够在异构数据库和分布计算的情况下交换、理解,不同GIS之间可以直接交互,透明地访问需要的信息[2]。该模式是由OGC(OpenGIS Consortium)制定的规范。数据互操作为多源数据共享与集成提供了崭新的思路,但是它更多地采用了OpenGIS协议的空间数据服务软件和客户软件,对于其它的大量非OpenGIS标准的空间数据格式的处理缺少统一的规范[3]。

1.3 直接数据访问模式

直接数据访问模式是指在一个空间信息软件中直接访问其他软件的数据格式,并且用户可以在该软件中读写多种数据格式。这种模式的优点是不但没有了复杂的格式转换,而且因为访问是发生在一个空间信息软件中,所以就不需要用户拥有主机软件,更不需要运行该软件。这种模式无疑更省人力和财力,但是实现起来对于技术要求相对高一些。

2 GML数据集成研究现状

GML(Geography Markup Language),是开放式地理信息系统协会(OGC)于1999年提出的,在日趋发展的网络环境下,它的提出正是为了成为其中地理数据的一种通用接口,它符合空间数据集成模式中的第二种即数据互操作模式[4]。使用GML对多元异构地理空间数据集成,可以很好的避免以往网络语言描述复杂的空间信息的巨大缺点,因为它对地理空间数据的描述拥有统一的数据格式,从而能够更轻松的便于数据集成。

在国内,对于GML日新月异的发展,也早就已经引起了包括复旦大学、同济大学、武汉大学等众多知名高校学者的重视。武汉大学和国家基础地理信息中心已经开始制定GML国家标准。周水庚课题组早在2003年就提出了一种新颖的方法,用于将GML文档自动转换到SVG文档,论文发表在ACM-GIS 2003[5]。从跨入21世纪以来,关佶红课题组就研究了基于GML和SVG的空间信息集成和发布、GML模式匹配、GML存储机制和查询处理以及压缩算法等[6,7,8,9]。

同时国内外众多学者对基于GML的空间数据集成也进行了大量的研究。Rancourt et al.(2001)将GML与先前所定义的空间标准进行比较,得出GML能有效的满足空间数据交换标准的要求的结论,并预测GML将在行业应用中占据主导地位[10]。旷建中等(2005)采用设计模式方法和GML技术设计多源空间数据集成模型,将数据源通过转换函数生成的GML文档,利用合成器合成GML文档,同时保存到GML数据库,实现多个系统的数据集成,为实现多源空间数据集成提供了一个切实可行的方案[11]。邬群勇等(2005)在分析GML数据格式和几何特征基础上,提出一个基于GML的空间数据动态集成框架,探讨了数据动态集成过程,并以福建省漳浦县绥安镇的林业数据为样本,进行了动态集成应用示范[12]。江卫东等(2007)描述了一个基于GML数据互操作模式的多源异构空间数据集成模型,并分析了该模型的运行机制和关键技术[13],刘占伟等(2007)提出了一个基于GML的多源异构空间数据集成模型,实现了空间数据向GML文档的转换,使用网络服务器技术,在.NET平台上设计实现了该系统,从而实现了基于GML的空间数据集成,而且通过SVG技术实现了数据可视化[14]。

但是,目前的研究工作还远不够系统和深入,实际集成应用方案较少,所提出的一些技术和算法还不能满足海量GML空间数据处理和管理的实际应用需要。因此,还需要进行进一步的研究,探索新的技术方案,开发更有效的算法。

3 基于GML的空间数据集成框架

本文借鉴已有的研究成果提出一种基于GML的多源空间数据集成逻辑框架图(如图1),并且通过使用GML技术来实现异构空间数据的集成与互操作。然而多源空间数据因为来自不同的服务器,每份数据可能拥有各自的数据类型。

1)空间数据建立的输入数据结构由于各自的物理结构不同,而且它们的储存方式也不一样,根据这样的多样性数据结构建立其应用模式。

2)基于GML的输出数据结构的语法、结构和编码模式建立模式转换规则,该规则规定了输入异构的空间数据结构应用模式如何转换成GML Schema。转换模块必须根据模式转换规则对实例模型进行转换,建立基于输出数据结构Schema的GML数据文档,并具有对数据进行编码和解码的能力。

3)虽然来自不同数据源的空间数据都已经转换成了GML数据文档,但不同用户的应用模式间可能存在各种语义或结构上的异构,在空间信息集成中造成歧义和困难。很多情况下,有相同概念的模式在结构和命名上都存在着差异;有些模式有相似的数据模型但包含不同的内容,或是用相同的词表达不同的意义。这就需要进行模式匹配了,它的功能是通过两个模式的相关元素间的匹配关系,来找出这两个模式的元素间的映射关系和集成后的模式。

4 GML模式匹配

模式匹配的目的是为了达到数据集成,而数据集成又是以模式匹配为前提。模式匹配就是指通过一定的算法,把两个模式的所有相关元素进行一一映射,经过一定的分析和对彼此元素的相似度来最终确定模式的元素间的映射关系。

GML模式匹配的基本过程是首先对文档进行数据分析,因为GML文件是遵守XML语法的,可以使用基于树的XML解析器;然后就是通过解析器提取模式文件节点生成GML模式树,生成模式树后,就可以设定算法,对两个模式进行匹配了。在匹配的过程中,最关键的就是确定两个元素的相似度,而元素间的相似度主要表现为语义相似度和结构相似度。用户可以根据具体情况设置一个最小相似度值,即阈值,只有两个元素的相似度值高于这一阈值weight,才进行匹配。

下面是该算法的描述:

MATCH(模式树t1,模式树t2)

{设置阈值weight;//0

设置叶节点的结构相似度s;

For each e1为t1的叶子

{后序遍历t1;后序遍历t2;

for each e2为t2的叶子

{计算两个叶节点的相似度值s;

如上可知算法中输入为两个树状结构的GML模式,输出为一个关于两模式间相关元素的映射关系。其中,tree1和tree2分别表示输入的GML模式树1和GML模式树2,t1和t2为模式1和模式2中的元素,tree1’和tree2’是分别对tree1和tree2进行后序遍历得到的结果。

在算法中,核心参数是确定两个树节点的相似度。在进行匹配时,对树采用后序遍历,并且相似度只确定一次以避免在匹配的过程中产生多对多的关系。当被比较的不是叶节点时,通过比较这两个节点的子节点相似度来确定它们的的相似度,即用其所有的子节点的相似度除以所有的子节点数。叶节点的结构相似度为零。

为了正确的确定两个schema树中的各个非叶节点的结构相似度,在对非叶节点进行匹配前,首先要对叶节点进行匹配,令son(e1)和son(e2)分别代表以e1和e2为根节点的子树上的节点的集合,s(a,b)为其中一个模式中的节点a与另一模式中节点b相似度,则有如下公式(1):

当然最后确定了语义和结构相似度后,需要对两者进行加权求和来获得一个最终相似度,而这个权值由用户自己根据具体情况来确定。

两个模式匹配结束后,可以通过匹配算法生成的映射关系,即模式间元素一一对应的关系来生成集成的模式。

5 结束语

GML作为一种OGC开发的基于XML的地理信息编码标准,使用GML来作为多源异构数据的描述格式,并通过使多源空间数据模式转换为统一数据格式来实现标准化数据层次集成,有利于空间信息充分共享和系统互操作。可是由于GML数据可能来自不同的数据源,导致它们的模式也可能不同,因此模式匹配是GML空间信息集成面临的最严重的挑战,如何能够更进一步的改进模式匹配算法从而简化集成过程,还需进一步的研究。

摘要:为了进一步解决多源空间数据集成问题,该文介绍了以往多源空间数据集成的几种方式,分析了目前国内外关于GML(Geog raphy Markup Language)数据集成进行的研究,并在此基础上提出了一个基于GML的多源空间数据应用集成框架,阐述了一种面向空间信息集成的GML模式匹配算法,并综合以上给出了总结。

2.多源空间数据集成关键技术研究 篇二

摘要:伴随着GIS技术发展与地理信息共享要求,多源空间数据的集成研究既是亮点也是难点。多源空间数据呈现多语义、多尺度、多格式等显著特征,对数据的综合利用和信息共享带来不便。文章针对多源空间数据特征,探讨空间数据多源性的产生和表现,指出多数据格式是多源空间数据集成的瓶颈,对其集成过程中的格式交换、互操作及共享等三种主要技术进行了探索,并解决了其中的一些关键问题,为特定条件下的多源数据有效集成摸索出一条实用途径。

关键词:空间数据集成;互操作;共享

引言

地理空间数据不同于一般的事务管理的数据,其数据由于内容和来源的多样性、空间数据模型和GIS软件平台的差异性,造成了GIS系统之间空间数据集成的极大困难。空间数据是数据库建设和平台研制的基础,为GIS进一步研究工作提供支撑。但是空间数据的来源多样性,不同数据分散在不同地点和部门,使用不同的结构和标准,共享和有效利用也存在一定的困难。因此,本文旨在探究多源数据集成关键技术,把不同来源、格式、比例尺、多投影方式或大地坐标系统的地理空间数据在逻辑上或物理上的有机集中,从而实现地理信息的共享。

1 多源空间数据产生特性

1.1 空间数据多样性

目前,随着IT和GIS的紧密结合,3S技术集成的不断完善,使得GIS获取的空间数据资源获得急剧膨胀。同样,空间数据的获取途径多种多样,既可以继承現有空间数据,也可通过遥感或通过全站仪、GPS等工具实地测量,还有描述性文字、各种统计报表、与地理实体相关的属性信息等。另外,数据来源的多样性还表现在数据载体的多样性,如:传统的纸质地图、纸质表格等;存储在计算机硬盘或者移动存储器上的各种电子数据。

1.2 空间数据尺度差异性

在GIS领域尺度是一个无法回避的问题。空间数据根据尺度可以分为空间尺度和时间尺度,空间尺度我们可以通过比例尺的大小来确定,时间尺度是根据数据的采集时间来确定,不同的数据尺度会产生不同的数据类型。

1.3 GIS软件平台的差异性

现在随着GIS技术不断普及,国内外主流GIS工具软件蓬勃发展,由于不同的GIS软件的制作数据的标准不同,产生不同的数据格式和不同的存储方式。同时对于使用不同软件的操作人员也造成不便。

2. 多源数据集成途径

目前GIS多源空间数据集成主要有三种模式:一是:空间数据集成格式的交换,二是:空间数据的互操作,三是:空间数据的共享访问。

2.1 空间数据集成格式的交换

为了有效的组织各类空间数据、提高数据的传输和利用效率以及达到空间数据共享的目的,对相关空间数据按一定的标准、规范进行标准化,是空间数据库建设的基础和前提。目前,GIS行业公认的几种空间数据交换格式是数据标准化组织负责提出的明码交换格式。本文主要以MapGIS和ArcGIS的数据转换进行介绍。MapGIS到ArcGIS之间数据的转换有两种途径。途径一:首先,从MapGIS获得的点、线、面数据经过图形处理输出为明码中间格式E00,其次,利用ArcGIS提供的转换工具“Import71”将E00转换为ArcGIS识别的Coverage文件。最后,通过Export转化为Feature class。途径二:从MapGIS得到的数据直接转化为shape格式的数据通过Export转化为Feature class。途径二简单便捷线转换较为适合,途径一步骤相对复杂但是其基本保证数据转化的完整性。

2.2 空间数据的互操作

数据互操作模式是OpenGIS Consortium(OGC)制定的数据共享规范,GIS互操作是指在异构数据库和分布计算情况下GIS用户在相互理解的基础上,能透明的操作获取所需信息。伴随着IT技术的迅猛发展,空间数据引擎技术以及大型关系数据库日趋成熟和完善,不仅为多来源、多格式、多时相、多区域的海量地理空间数据的存储、管理、检索及共享提供了成熟的解决方案,而且也为多用户并发访问等技术难题奠定了基础。Oracle是目前最为流行的大型关系数据库管理系统,因为其在数据安全性与数据完整性控制方面的优越性,以及跨平台进行互操作的特点被广泛使用。在Oracle数据库中进行多源数据互操作,首先,数据库管理员设置用户的资源文件PROFILE以确定用户的存取限制,创建操作用户为其设置初始口令,用户登录可以自行修改,口令在数据库中加密存储。以便数据库管理员监督与管理。其次,数据库管理员为用户分配一定的角色,对用户的权限进行设置。然后,以关系型数据库Oracle 10g为后台存储中心对空间数据和非空间数据进行组织和管理,以ArcCatalog和ArcMap为客户端,通过空间数据库引擎(ArcSDE)对数据进行显示和互操作。

2.3 空间数据的共享

2.3.1 空间数据库共享访问

不同的生产实践部门对数据的关注度不同,因而各部门拥有各自独立的业务管理数据,使得数据的共享与利用难度增强,随着当前网络技术快速发展,为空间数据共享提供了多种可选方案。ESRI在2008年底推出的ArcGIS 9.3版本时,同时发布了ArcGIS Server REST API,提供REST风格的开发接口;面向ArcGIS Server发布的服务的简单开发接口。REST暴露的所有资源的操作都可以通过对应的GIS服务的端点或URL获得。通过URL,REST使发现工作和查找所需的信息更加容易。利用服务浏览器,用户可以浏览服务器内容,查看可用的地理信息系统网络服务,也可获取开发过程中的有用信息。

2.3.2空间数据的上传下载

多源空间数据海量性特征,使得一些用户采用分布式数据管理方法,这样对数据的统一管理来带一定的困难,从而使空间数据实时修改和更新发布不能快速有效进行。ArcGIS Server 9.3产品为空间数据共享作出一定的成绩。ArcGIS Server 9.3中可以通过发布GeoData Service服务将空间数据库发布在局域网或广域网中。数据管理员可以通过设置用户的不同权限选择性的为用户提供数据上传下载服务。GeoData Service提供创建本地数据复制移动;执行数据空间查询;同步编辑数据库等的数据连接。ArcGIS Server 9.3在发布GeoData Service数据库过程中可以提供三种操作方法:提取、空间查询、复制。在提取方法中不会影响原数据,复制方法选择过程会影响原数据。

通过GeoData Service发布的空间数据库备份类型可分为三种情况:Checkout/Checkin、One-way、Tow-way。Checkout指可以从Utilities本源数据库备份并创建本地组,管理员直接在本地组修改不需要连接服务;Checkin管理员修改完成后传递给Utilities本源数据库,不会发生人为与自动传输的冲突。One-way方式首先数据下载到本地的工作geodatabase同时必须其经常保持与本源数据库连通,其次通过工作geodatabase创建备份geodatabase,管理员仅通过一次编辑工作geodatabase来改变备份geodatabase数据的编辑。Tow-way两个不同的编辑组同时访问编辑同步传输均不发生冲突。

3. 结束语

空间多源数据集成是数据库建设和管理信息系统进一步研究的基石,本文针对地理信息空间数据格式的交换、互操作、以及数据共享访问三大关键技术对多源数据集成问题进行了探讨。有效地解决了不同格式数据资源的综合利用,提供了互操作性的数据存储方式,探究了多源数据共享并发访问,增强了GIS技术的应用范围。

参考文献:

[1] 闾国年,张书亮. 地理信息共享的关键技术问题研究[J],江苏省测绘学会2003学术年会专辑. 2003.

[2] 尹晓慧,宋庆斌,王利伟. 多源空间数据集成方法探讨[J],测绘科学 2009(34):59-60.

[3] 许辉熙,卢正,薛万蓉. GIS中多源空间数据集成方法研究[J],测绘与空间地理信息 2009 32(5):1-5

上一篇:变更劳动合同时间下一篇:在职人员自荐信