地理所地理信息系统专业课复习资料

本站小编 福瑞考研网/2017-04-15

一、空间数据挖掘

1、概念

空间数据挖掘,是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式和普遍特征、空间数据与非空间数据之间的普遍关系的过程。

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

 

空间数据挖掘是在空间数据库或空间数据仓库的基础上,综合利用多门学科的理论技术,从海量空间数据中挖掘事先未知潜在有用最终可理解的可信新知识,揭示蕴含在空间数据中的客观世界的本质规律内在联系和发展趋势,实现知识的自动获取,提供技术决策与经营决策的依据。

2、空间数据挖掘的特点(与传统数据挖掘的不同)

(1) 传统数据挖掘处理的是数字和类别,而空间数据则是一些更为复杂的数据类型,例如:点、线、多边形等对象;

(2) 传统数据挖掘通常具有显式的输入,而空间数据挖掘的输入则常常是隐式的;

(3) 在传统数据挖掘中,有一个至关重要的前提假设:数据样品是独立生成的。而这一假设在空间分析中是不成立的。事实上,空间数据之间是高度自关联的。

3、产生空间数据挖掘的推动力:

(1) 空间信息正在逐步成为各种信息系统的主体和基础。它有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,包含着更丰富的知识。

(2) 在地学领域,随着卫星和遥感技术的广泛应用,日益丰富的空间和非空间数据收集和存储在大空间数据库中,海量的地理数据在一定程度上已经超过了人们处理能力,同时传统地学分析难以胜任从这些海量的数据中提取和发现地学知识。

4、GIS中数据挖掘的过程

(1)根据一定的主题要求及相关背景知识,从现有的分布式空间数据库中提取数据并进行分析和处理,形成空间数据仓库;

(2)根据确定的任务,选择合适的数据挖掘算法,包括合适的数据模型和参数,从空间数据仓库中挖掘用户所需要的知识信息;

(3)对挖掘的知识进行评价,首先对其进行一致性检查,以确定本次挖掘的知识与以前挖掘的知识是否相互抵触。其次,判断受挖掘的知识是否满足要求,以决定是否重复挖掘或者反复挖掘,从而获取更加有效的知识信息;

(4)对挖掘所得到的知识信息,通过特定的生动形象的可视化表达工具,以用户能够全面理解的方式呈现给用户。

5、GIS与空间数据挖掘的集成模式

(1)松散耦合式-外部空间数据挖掘模式

这种模式基本上将GIS作为一个空间数据库看待,在GIS环境外部借助其它软件或计算机语言进行空间数据挖掘,其与GIS之间采用数据通讯的方式联系。

(2)嵌入式-内部空间数据挖掘模式

在GIS中将空间数据挖掘技术融合到空间分析功能中去。

(3)混合型空间模型法

是前两种方法的结合。即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,并保持外部空间数据挖掘模式的灵活性。

6、空间数据库挖掘的研究趋势

(1) 算法的效率

空间数据的复杂性和数据的大量性,TB数量级的数据库出现,必然增大发现算法的搜索空间,增加了搜索的盲目性;

提高算法效率成为空间挖掘算法在实际应用中的不可避免的巨大挑战。

(2) 数据挖掘方法和任务的多样性

现有空间挖掘方法与任务都是有限的。

(3) 对复杂空间数据库的处理

象面向对象空间数据库、时空数据库、多媒体空间数据库这样复杂的空间数据库在不断地涌现和发展。

(4) 网络环境下空间数据挖掘

跨入新的世纪,网络发展更加迅速,网络的资源也日益丰富;

研究适应于网络环境下的空间数据挖掘技术、工具和系统是大势所趋。

(5) 空间查询语言

数据库技术的飞速发展的原因之一就是数据库查询语言的不断完善和发展;

要不断完善和发展空间数据挖掘就必须发展空间查询语言,这样才能为高效快速的空间数据挖掘奠定坚实的基础。

7、空间数据挖掘的发展现状

武汉大学李德仁教授最早(1994年)关注到从GIS数据库中发现知识的问题,提出从GIS数据库可以发现包括普遍的几何知识、空间分布规律、空间关联规则、空间聚类规则、空间特征规则、空间区分规则、空间演变规则和面向对象的知识。

8、空间数据挖掘方法及应用

1)空间关联分析

空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系,代价极高。所以应采用逐步求精的挖掘优化方法:

(1)通过空间查询从初始空间数据库中获得和任务相关的空间数据库;

(2)使用一些有效空间挖掘算法计算对象之间的空间联接,从而获得一个候选谓词集合;

(3)对(2)中所得到的谓词集合中的每一个谓词计算其支持度,并且将那些支持度小于最小支持度的谓词删除;

(4)对谓词集合进行进一步精化以决定准确的空间关系;

(5)以(4)所得的候选集作为输入,生成空间关联规则。

2)聚类分析

聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象分簇中的对象差别较大。

聚类分析是统计学的一个分支,与规则分类不同的是,聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构。

主要聚类方法的分类:

1.划分方法:

给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇(即k个组),k≤n。同时要求:

(1)每个划分至少包含一个对象

(2)每个对象必须属于且只属于一个组。

 给定要构建的划分的数目k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的准则:

在同一个类中的对象之间尽可能“接近”或相关;而不同类中的对象之间尽可能“远离”或不同。

流行的启发式方法:(1) k-平均算法;(2) k-中心点算法。

2.层次的方法:对给定数据对象集合进行层次的分解。

凝聚的方法:自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件;

分裂的方法:自顶向下的方法,一开始将所有的对象置于一个簇中。在迭代的每一步中一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者达到一个终止条件。

3. 基于密度的方法:

只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。

对给定类中的每个数据点,在一个给定范围的区域中必须至少包含某给定数目的点。

这样的方法可以用来过滤“噪声”孤立点,发现任意形状的簇。

4. 基于网格的方法

5. 基于模型的方法

3)分类方法

空间分类发现的规则在模式识别、基于内容的查询、图象分类等应用中具有重要应用。

数据分类(data classification)是一个两步过程:

(1)建立一个模型,描述预定的数据类集或概念集(或称作分类器)。

要构造分类器,需要有一个训练样本数据集作为输入。

训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。

训练样本形式:(v1,v2,…vn, c);其中vi表示字段值,c表示类别。 

(2)使用模型进行分类。

4)统计方法

空间统计学(spatial statistics)是依靠有序的模型描述无序事件,根据不确定性和有限信息分析、评价和预测空间数据。

空间统计学是基本的数据挖掘技术,特别是多元统计分析(如判别分析、主成分分析、因子分析、相关分析、多元回归分析等)。

5)趋势分析

空间趋势指的是离开一个给定的起始对象时,非空间属性的变化情况。

空间趋势分析的结果可能是正向趋势、反向趋势,或者是没有趋势。

一般而言,要在空间数据结构和空间访问方法之上分析空间趋势需要使用回归和相关的分析方法。

二、云计算与云GIS

1、云GIS的定义

云GIS是基于云计算的理论、方法和技术,扩展GIS的基本功能,从而进一步改进传统GIS的结构体系, 以实现海量空间数据的高性能存取与处理操作, 使其更好地提供高效的计算能力和数据处理能力,解决地理信息科学领域中计算密集型和数据密集型的各种问题。其实质是将GIS的平台、软件和地理空间信息能够方便、高效地部署到以云计算为支撑的 “云” 基础设施之上,能够以弹性的、按需获取的方式提供最广泛的基于Web的服务

云GIS是利用云基础设施获得大规模计算能力, 来解决GIS中海量空间数据的分布式存储、 处理任务划分、查询检索、互操作和虚拟化等关键性科学问题,提高GIS数据处理与管理能力, 为计算密集型和数据密集型的各类GIS服务提供高性能处理的技术。

2、云GIS的关键技术

云GIS的关键技术是:①海量空间数据搜索、访问、分析和利用;②计算密集型平台的构建; ③海量时空数据并发访问和利用研究成果,需要解决弹性调用空间的云计算需求,实现多地多服务器调用来解决海量用户并发访问的问题;④具有时间和空间特性的应用程序的开发。云GIS还需重点研究的技术是: ①GIS空间数据及空间任务的迁移。空间数据具有数据量大、 相关性强等诸多不同于一般数据的特点, 这将决定云GIS的并行任务迁移也具备与普通并行任务迁移的特点。②数据加密算法。针对空间数据的特点, 在今后的研究工作中应该设计特有的加密算法或者设计保证其完整性、 可靠性的算法。③客户端计算与云端计算的结合。这是由数据服务的保密性和大众性双重属性所决定的

3、云GIS平台

(1) ESRI公司。在云GIS研究方面, 龙头企业ESRI走在了最前端。ESRI公司是全球第一家真正支持云架构GIS平台产品的厂商。Arc-GIS软件会充分利用云架构强大、 可扩展和无处不在的本质, 存储和分发地理空间内容。用户可以轻松自如地将地图、 数据集打包, 然后通过 ArcGIS Online上的群组提供给业务相关人、 合作伙伴或公众。不仅如此, 如果需要, 用户还能快速的在云中部署GIS服务器, 这些服务器是功能完整的生产系统, 用于发布服务并支持桌面、 移动和网络应用。

(2) 超图公司。超图的云 GIS 战略包括两方面:①为搭建GIS私有云和公有云提供平台软件;②搭建一个公有云, 为大家直接提供服务。超图云GIS产品具备4大特征: ①支持虚拟化,②支持跨平台,③支持64位CPU,64位GIS可一次性读入内存,效率高;④支持二三维一体化,在数据模型和数据结构上实现了一体化,实现了基于空间数据库的管理和高端三维数据的分析。

4、国内运GIS发展的不足

(1)国内GIS的大众化程度不高。国内当前GIS的用户主要还是政府或大型企业,在数据的安全性和保密性上有很高的要求,并且绝对不能满足“云计算”中的共享要求。这也是制约 “云GIS” 发展的最大障碍。

(2)缺乏较成熟的云计算基础设施服务提供商。例如,国内某领先的云计算基础设施供应商,现在对虚拟镜像的支持只有屈指可数的Windows版本,机房管理模式也都跟不上,因此,限制了云GIS模式的快速普及。

(3)云GIS平台的公用服务类型表述与研究不够深入。云计算绝不仅仅是局部应用模块的虚拟化,而是包括存储、数据库(空间数据库)等在内,整个基础架构都将以服务形式来提供。

(4)数据成本高、难以获取仍是短板。建设云平台瓶颈在于开发商和用户如何能获取到具有实际用途的地理信息数据;当得到及时有效的地理信息数据时,如何快速有效地与GIS平台结合,如何便利利用这些数据开展相应业务, 还是很多公司正在探讨的问题。

5、云GIS的发展趋势

(1) 公有云。它是现在最主流,最受欢迎的云计算模式,它是一种对公众开放的云服务。云计算服务提供商为公众提供服务的云计算平台。它能支撑数目庞大的请求, 而且因为规模的优势,成本偏低。就目前中国的GIS市场而言, 基于 “公有云” 的GIS商业模式可能由于信息保密和商业利益等原因, 实现起来会有一定的困难。


相关话题/地理信息系统