相关性特别强的数据相关性能用最近邻方法分析吗

扫二维码下载作业帮
1.75亿学生的选择
下载作业帮安装包
扫二维码下载作业帮
1.75亿学生的选择
数据相关性分析我得到了三列数据,数据1,数据2,数据3,数据1和数据2有相关性(spearman相关系数0.580,置信度0.9999),数据1和数据3有相关性(-0.320,置信度也和前面的差不多),我是用的spss软件分析的,请问高手:能说明数据2和数据1的相关性比数据1和数据3的相关性更强一些吗,如果不能的话怎么样才能说明数据2还是数据3与数据1的相关性更强一点呢.可以做多维的相关吗,怎么实现.关键是说明谁数据2 和数据3 哪个和数据1相关性更强一些.
扫二维码下载作业帮
1.75亿学生的选择
当然不能这样认为.可以根据数据类型做卡方检验、T检验、F检验等等.看看P值是否都小于0.0001,如果都小于,则可以这样认为.根据具体情况,也可以做多元相关分析.你可以做回归分析,看看数据是否服从线性回归、指数回归、对数回归等.你也可以做主成分分析、聚类分析、因子分析等等,来具体分析相关程度.
为您推荐:
其他类似问题
扫描下载二维码在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:
1) d(x,x) = 0
// 到自己的距离为0
2) d(x,y) &= 0
// 距离非负
3) d(x,y) = d(y,x)
// 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a
4) d(x,k)+ d(k,y) &= d(x,y)
// 三角形法则: (两边之和大于第三边)
这篇博客主要介绍机器学习和数据挖掘中一些常见的距离公式,包括:
闵可夫斯基距离
欧几里得距离
曼哈顿距离
切比雪夫距离
余弦相似度
皮尔逊相关系数
杰卡德相似系数
1. 闵可夫斯基距离
闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,假设数值点 P 和 Q 坐标如下:
那么,闵可夫斯基距离定义为:
该距离最常用的 p 是 2 和 1, 前者是欧几里得距离(Euclidean distance),后者是曼哈顿距离(Manhattan distance)。假设在曼哈顿街区乘坐出租车从 P 点到 Q 点,白色表示高楼大厦,灰色表示街道:绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三条折线的长度是相等的。
当 p 趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshev distance):
我们知道平面上到原点欧几里得距离(p = 2)为 1 的点所组成的形状是一个圆,当 p 取其他数值的时候呢?
注意,当 p & 1 时,闵可夫斯基距离不再符合三角形法则,举个例子:当 p & 1, (0,0) 到 (1,1) 的距离等于 (1+1)^{1/p} & 2, 而 (0,1) 到这两个点的距离都是 1。
闵可夫斯基距离比较直观,但是它与数据的分布无关,具有一定的局限性,如果 x 方向的幅值远远大于 y 方向的值,这个距离公式就会过度放大 x 维度的作用。所以,在计算距离之前,我们可能还需要对数据进行 z-transform 处理,即减去均值,除以标准差:
可以看到,上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信息很有可能会带来体重较重的信息,因为两者是有关联的),这时候就要用到马氏距离(Mahalanobis distance)了。
2. 马氏距离
考虑下面这张图,椭圆表示等高线,从欧几里得的距离来算,绿黑距离大于红黑距离,但是从马氏距离,结果恰好相反:马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。假设样本点(列向量)之间的协方差对称矩阵是
通过 Cholesky Decomposition(实际上是对称矩阵 LU 分解的一种特殊形式,可参考之前的)可以转化为下三角矩阵和上三角矩阵的乘积: 消除不同维度之间的相关性和尺度不同,只需要对样本点 x 做如下处理:处理之后的欧几里得距离就是原样本的马氏距离:为了书写方便,这里求马氏距离的平方):下图蓝色表示原样本点的分布,两颗红星坐标分别是(3, 3),(2, -2):由于 x, y 方向的尺度不同,不能单纯用欧几里得的方法测量它们到原点的距离。并且,由于 x 和 y 是相关的(大致可以看出斜向右上),也不能简单地在 x 和 y 方向上分别减去均值,除以标准差。最恰当的方法是对原始数据进行 Cholesky 变换,即求马氏距离(可以看到,右边的红星离原点较近):将上面两个图的绘制代码和求马氏距离的代码贴在这里,以备以后查阅:
# -*- coding=utf-8 -*-
# code related at: /daniel-D/
import numpy as np
import pylab as pl
import scipy.spatial.distance as dist
def plotSamples(x, y, z=None):
stars = np.matrix([[3., -2., 0.], [3., 2., 0.]])
if z is not None:
x, y = z * np.matrix([x, y])
stars = z * stars
pl.scatter(x, y, s=10) # 画 gaussian 随机点
pl.scatter(np.array(stars[0]), np.array(stars[1]), s=200, marker=’*’, color=’r’) # 画三个指定点
pl.axhline(linewidth=2, color=’g’) # 画 x 轴
pl.axvline(linewidth=2, color=’g’) # 画 y 轴
pl.axis(‘equal’)
pl.axis([-5, 5, -5, 5])
# 产生高斯分布的随机点
mean = [0, 0] # 平均值
cov = [[2, 1], [1, 2]] # 协方差
x, y = np.random.multivariate_normal(mean, cov, 1000).T
plotSamples(x, y)
covMat = np.matrix(np.cov(x, y)) # 求 x 与 y 的协方差矩阵
Z = np.linalg.cholesky(covMat).I # 仿射矩阵
plotSamples(x, y, Z)
# 求马氏距离
print ‘\n到原点的马氏距离分别是:’
print dist.mahalanobis([0,0], [3,3], covMat.I), dist.mahalanobis([0,0], [-2,2], covMat.I)
# 求变换后的欧几里得距离
dots = (Z * np.matrix([[3, -2, 0], [3, 2, 0]])).T
print ‘\n变换后到原点的欧几里得距离分别是:’
print dist.minkowski([0, 0], np.array(dots[0]), 2), dist.minkowski([0, 0], np.array(dots[1]), 2)
马氏距离的变换和 PCA 分解的白化处理颇有异曲同工之妙,不同之处在于:就二维来看,PCA 是将数据主成分旋转到 x 轴(正交矩阵的酉变换),再在尺度上缩放(对角矩阵),实现尺度相同。而马氏距离的 L逆矩阵是一个下三角,先在 x 和 y 方向进行缩放,再在 y 方向进行错切(想象矩形变平行四边形),总体来说是一个没有旋转的仿射变换。
3. 向量内积
向量内积是线性代数里最为常见的计算,实际上它还是一种有效并且直观的相似性测量手段。向量内积的定义如下:直观的解释是:如果 x 高的地方 y 也比较高, x 低的地方 y 也比较低,那么整体的内积是偏大的,也就是说 x 和 y 是相似的。举个例子,在一段长的序列信号 A 中寻找哪一段与短序列信号 a 最匹配,只需要将 a 从 A 信号开头逐个向后平移,每次平移做一次内积,内积最大的相似度最大。信号处理中 DFT 和 DCT 也是基于这种内积运算计算出不同频域内的信号组分(DFT 和 DCT 是正交标准基,也可以看做投影)。向量和信号都是离散值,如果是连续的函数值,比如求区间[-1, 1] 两个函数之间的相似度,同样也可以得到(系数)组分,这种方法可以应用于多项式逼近连续函数,也可以用到连续函数逼近离散样本点(最小二乘问题,OLS coefficients)中,扯得有点远了- -!。
向量内积的结果是没有界限的,一种解决办法是除以长度之后再求内积,这就是应用十分广泛的余弦相似度(Cosine similarity):余弦相似度与向量的幅值无关,只与向量的方向相关,在文档相似度(TF-IDF)和图片相似性()计算上都有它的身影。需要注意一点的是,余弦相似度受到向量的平移影响,上式如果将 x 平移到 x+1, 余弦值就会改变。怎样才能实现平移不变性?这就是下面要说的皮尔逊相关系数(Pearson correlation),有时候也直接叫相关系数: 皮尔逊相关系数具有平移不变性和尺度不变性,计算出了两个向量(维度)的相关性。不过,一般我们在谈论相关系数的时候,将 x 与 y 对应位置的两个数值看作一个样本点,皮尔逊系数用来表示这些样本点分布的相关性。由于皮尔逊系数具有的良好性质,在各个领域都应用广泛,例如,在推荐系统根据为某一用户查找喜好相似的用户,进而,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响。
4. 分类数据点间的距离
汉明距离(Hamming distance)是指,两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。举个维基百科上的例子:还可以用简单的匹配系数来表示两点之间的相似度——匹配字符数/总字符数。
在一些情况下,某些特定的值相等并不能代表什么。举个例子,用 1 表示用户看过该电影,用 0 表示用户没有看过,那么用户看电影的的信息就可用 0,1 表示成一个序列。考虑到电影基数非常庞大,用户看过的电影只占其中非常小的一部分,如果两个用户都没有看过某一部电影(两个都是 0),并不能说明两者相似。反而言之,如果两个用户都看过某一部电影(序列中都是 1),则说明用户有很大的相似度。在这个例子中,序列中等于 1 所占的权重应该远远大于 0 的权重,这就引出下面要说的杰卡德相似系数(Jaccard similarity)。
在上面的例子中,用 M11 表示两个用户都看过的电影数目,M10 表示用户 A 看过,用户 B 没看过的电影数目,M01 表示用户 A 没看过,用户 B 看过的电影数目,M00 表示两个用户都没有看过的电影数目。Jaccard 相似性系数可以表示为:Jaccard similarity 还可以用集合的公式来表达,这里就不多说了。
如果分类数值点是用树形结构来表示的,它们的相似性可以用相同路径的长度来表示,比如,“/product/spot/ballgame/basketball” 离“product/spot/ballgame/soccer/shoes” 的距离小于到 “/product/luxury/handbags” 的距离,以为前者相同父节点路径更长。
5. 序列之间的距离
上一小节我们知道,汉明距离可以度量两个长度相同的字符串之间的相似度,如果要比较两个不同长度的字符串,不仅要进行替换,而且要进行插入与删除的运算,在这种场合下,通常使用更加复杂的编辑距离(Edit distance, Levenshtein distance)等算法。编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离求的是最少编辑次数,这是一个动态规划的问题,有兴趣的同学可以自己研究研究。
时间序列是序列之间距离的另外一个例子。DTW 距离(Dynamic Time Warp)是序列信号在时间或者速度上不匹配的时候一种衡量相似度的方法。神马意思?举个例子,两份原本一样声音样本A、B都说了“你好”,A在时间上发生了扭曲,“你”这个音延长了几秒。最后A:“你~~~好”,B:“你好”。DTW正是这样一种可以用来匹配A、B之间的最短距离的算法。
DTW 距离在保持信号先后顺序的限制下对时间信号进行“膨胀”或者“收缩”,找到最优的匹配,与编辑距离相似,这其实也是一个动态规划的问题:
实现代码(转自 McKelvin’s Blog ):
#!/usr/bin/python2
# -*- coding:UTF-8 -*-
# code related at: http://blog.mckelv.in/articles/1453.html
import sys
distance = lambda a,b : 0 if a==b else 1
def dtw(sa,sb):
”’
&&&dtw(u”干啦今今今今今天天气气气气气好好好好啊啊啊”, u”今天天气好好啊”)
”’
MAX_COST = 1&&32
#初始化一个len(sb) 行(i),len(sa)列(j)的二维矩阵
len_sa = len(sa)
len_sb = len(sb)
# BUG:这样是错误的(浅拷贝): dtw_array = [[MAX_COST]*len(sa)]*len(sb)
dtw_array = [[MAX_COST for i in range(len_sa)] for j in range(len_sb)]
dtw_array[0][0] = distance(sa[0],sb[0])
for i in xrange(0, len_sb):
for j in xrange(0, len_sa):
if i+j==0:
if i & 0: nb.append(dtw_array[i-1][j])
if j & 0: nb.append(dtw_array[i][j-1])
if i & 0 and j & 0: nb.append(dtw_array[i-1][j-1])
min_route = min(nb)
cost = distance(sa[j],sb[i])
dtw_array[i][j] = cost + min_route
return dtw_array[len_sb-1][len_sa-1]
def main(argv):
s1 = u’干啦今今今今今天天气气气气气好好好好啊啊啊’
s2 = u’今天天气好好啊’
d = dtw(s1, s2)
if __name__ == ‘__main__’:
sys.exit(main(sys.argv))
6. 概率分布之间的距离
前面我们谈论的都是两个数值点之间的距离,实际上两个概率分布之间的距离是可以测量的。在统计学里面经常需要测量两组样本分布之间的距离,进而判断出它们是否出自同一个 population,常见的方法有卡方检验(Chi-Square)和 KL 散度( KL-Divergence),下面说一说 KL 散度吧。
先从信息熵说起,假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是 {黑洞, 到底, 吃什么}, 我们现在要根据一个词语推测这篇文章的类别。哪个词语给予我们的信息最多?很容易就知道是“黑洞”,因为“黑洞”这个词语在所有的文档中出现的概率太低啦,一旦出现,就表明这篇文章很可能是在讲科普知识。而其他两个词语“到底”和“吃什么”出现的概率很高,给予我们的信息反而越少。如何用一个函数 h(x) 表示词语给予的信息量呢?第一,肯定是与 p(x) 相关,并且是负相关。第二,假设 x 和 y 是独立的(黑洞和宇宙不相互独立,谈到黑洞必然会说宇宙),即 p(x,y) = p(x)p(y), 那么获得的信息也是叠加的,即 h(x, y) = h(x) + h(y)。满足这两个条件的函数肯定是负对数形式:
对假设一个发送者要将随机变量 X 产生的一长串随机值传送给接收者, 接受者获得的平均信息量就是求它的数学期望:这就是熵的概念。另外一个重要特点是,熵的大小与字符平均最短编码长度是一样的(shannon)。设有一个未知的分布 p(x), 而 q(x) 是我们所获得的一个对 p(x) 的近似,按照 q(x) 对该随机变量的各个值进行编码,平均长度比按照真实分布的 p(x) 进行编码要额外长一些,多出来的长度这就是 KL 散度(之所以不说距离,是因为不满足对称性和三角形法则),即:KL 散度又叫相对熵(relative entropy)。了解机器学习的童鞋应该都知道,在 Softmax 回归(或者 Logistic 回归),最后的输出节点上的值表示这个样本分到该类的概率,这就是一个概率分布。对于一个带有标签的样本,我们期望的概率分布是:分到标签类的概率是 1, 其他类概率是 0。但是理想很丰满,现实很骨感,我们不可能得到完美的概率输出,能做的就是尽量减小总样本的 KL 散度之和(目标函数)。这就是 Softmax 回归或者 Logistic 回归中 Cost function 的优化过程啦。(PS:因为概率和为 1,一般的 logistic 二分类的图只画了一个输出节点,隐藏了另外一个)
待补充的方法:
卡方检验 Chi-Square
衡量 categorical attributes 相关性的 mutual information
Spearman’s rank coefficient
Earth Mover’s Distance
SimRank 迭代算法等。
参考资料:
Via:来源 daniel-D
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。空间数据分析
空间数据分析&
1. 空间分析:(spatial
analysis,SA)是基于地理对性的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息,是地理信息系统的主要特征,同时也是评价一个地理信息系统功能的主要指标之一,是各类综合性地学分析模型的基础,为人们建立复杂的空间应用模型提供了基本方法.
2. 空间分析研究对象:空间目标。空间目标基本特征:空间位置、分布、形态、空间关系(度量、方位、拓扑)等。
空间分析根本目标:建立有效地空间数据模型来表达地理实体的时空特性,发展面向应用的时空分析模拟方法,以数字化方式动态的、全局的描述的地理实体和地理现象的空间分布关系,从而反映地理实体的内在规律和变化趋势。GIS空间分析实际是一种对GIS海量地球空间数据的增值操作。
ArcGIS9中主要的三种数据组织方式:shapefile,coverage和geodatabase。Shapefile由存储空间数据的dBase表和存储属性数据和存储空间数据与属性数据关系的.shx文件组成。Coverage的空间数据存储在INFO表中,目标合并了二进制文件和INFO表,成为Coverage要素类。
5. Geodatabase是面向对象的数据模型,能够表示要素的自然行为和要素之间的关系。
GIS空间分析的基本原理与方法:根据空间对象的不同特征可以运用不同的空间分析方法,其核心是根据描述空间对象的空间数据分析其位置、属性、运动变化规律以及周围其他对象的相关制约,相互影响关系。方法主要有矢量数据的空间分析,栅格数据的空间分析,空间数据的量算与空间内插,三维空间分析,空间统计分析。
栅格数据在数据处理与分析中通常使用线性代数的二维数字矩阵分析法作为数据分析的数学基础。栅格数据的处理方法有:栅格数据的聚类、聚合分析,复合分析,追踪分析,窗口分析。
栅格数据的聚类与聚合分析区别:聚类是根据设定的聚类条件对原有的数据系统进行有选择的信息提取儿建立的新的栅格数据系统的方法;聚合分析是根据空间分辨率和分类表进行数据类型的合并或转换以实现空间地域的兼并。e.g.:从遥感图像信息中提取某一地物的方法是栅格数据的聚类,而由数字高程模型转换为数字高程分级模型便是空间数据的聚合。
9.&ArcGIS9的空间分析功能主要包括:空间分析模块、3D分析模块、地统计分析模块、网络分析模块、跟踪分析模块等。
10.GIS的四种模型:要素模型(矢量类型),场模型(栅格类型),时态模型,网络模型。
11.矢量数据的空间分析方法:空间关系查询;叠置分析;缓冲区分析;泰森多边形分析;网络分析。
12.空间关系查询中要素间的关系有:相邻关系(proximity);包容关系(containment);叠加关系(overlap)。空间关系查询涉及到的:目标层—从其中查询满足条件的要素。选择层—比较此图层中要素与目标层中的关系。选择层是从目标层中得来的。
13.空间关系连接(spatial join)有:根据图层间的关系连接属性表;根据空间位置连接图层属性表。
14.叠置分析:是将代表不同主题的各个数据层面进行叠置产生一个新的数据层面,叠置的结果综合了原来来年各个或多个层面要素所具有的属性,不仅生成了新的空间关系,还将输入的多个数据层的属性联系起来产生了新的属性关系。叠置分析前提条件:要素层面必须基于相同坐标系统、同一地带,还必须查验叠加层面之间的基准面是否相同。
15.根据操作要素的不同,叠置分析可以分为:点与多边形叠加;线与多边形叠加;多边形与多边形叠加。
16.根据操作形式的不同,叠置分析可以分为:图层擦除(erase);识别叠加(identity);交集操作(intersect);均匀差值(symmetrical
difference);图层合并(union);修正更新(update)。
17.从数学的空间运算角度来说,图层擦除:A-A∩B(即X∈A且X ?B,A为输入图层,B为擦除层)。识别叠加:A
or(A∩B)。交集操作:X∈A∩B(A、B分别是进行交集的图层)。均匀差值:X∈(A∪B—A∩B)。图层合并:X∈A∪B。修正更新:B
or(A∪B)。
18.缓冲区分析基本思想:给定一个空间对象或几何,确定它们的邻域,邻域的大小由邻域半径R决定。
19.缓冲区的建立方法:角平分线法,凸角圆弧法。缓冲区的建立包括:点状要素的缓冲区,线状要素的缓冲区,面状要素的缓冲区(面状要素缓冲区建立的四种方式:1.
inside and outside内外缓冲区之和 2.only outside 只有外缓冲区 3.only inside
只有内缓冲区 4.inside and include outside 外缓冲区和原有图形之和)。
20.泰森多边形:也称为Voronoi图或者Dirichlet图。泰森多边形可用于定性分析、统计分析、临近分析等,是某些空间分析一个有用的工具。泰森多边形的特性:每个泰森多边形内仅含有一个离散点数据;泰森多边形内的点到相应离散点的距离最近;位于泰森多边形边上的点到其两边的离散点的距离相等。可用于现有设施的负荷状况分析、设施选址等问题的分析。
21.狄洛尼三角网:Delaunay
Triangulation(D-TIN),是将泰森多边形中各一直点相连形成的一个三角形网,该三角网是泰森多边形的对偶图,是模拟自然面或人工构成面的理想方法。狄洛尼三角网特性:1其Delaunay三角网是唯一的;2三角网的外边界构成了点集P的凸多边形外壳;3没有任何点在三角形的外接圆内部;4如果将三角网中的每个三角形最小角进行升序排列,则Delaunay三角网的排列得到的数值最大,即Delaunay三角网是“最接近于规则化”的三角网(等边三角形)。
22.狄洛尼三角网构建方法:三角网生长法。首先找出离散点集中相距最短的两点,连线成为D-TIN的初始基线,然后在这附近找第三点,一般取第三点到前两点的距离平方和最小的参考点作为候选点,以这三点作一外接圆,判断是否有落入该外接圆的点,一直找到没有其他参考点落入外接圆内,该三角形就是Delaunay三角形,然后以该三角形的任意一条边作为基边,用同样的方法形成其他三角形,一直到所有参考点都参与构造了Delaunay三角网为止。
23.用Delaunay三角网构建泰森多边形方法:1构建离散平面点集的D-TIN;2求取各三角形的外接圆心;3对每个离散点,按顺时针或逆时针方向连接与其关联的三角形的外接圆心,得到该离散点的泰森多边形;4将各离散点的泰森多边形形成集合,得到平面点集的泰森多边形。
24.构成网络的基本要素:链(link);结点(node)(包括:障碍-barrier,拐点-turn,中心-center,站点-stop)。以上网络要素分别有各自的特殊属性项,归纳为:阻力值(impedance),资源需求(demand),资源容量(capacity)三种。
25.网络分析应用:路径分析;连通分析;定位-配置分析;地址匹配。
26.路径分析的核心是对最佳路径和最短路径的求解。最佳路径的求解时在指定的网络中两节点间找一条阻碍强度最小的路径,最佳路径的产生基于网线和结点转角的阻碍强度。另一种路径分析功能是求解最佳游历方案,分为:结点最佳游历方案求解(推销员问题);弧段最佳游历方案求解(邮递员问题)。
27.最短路径分析核心算法:Dijkstra算法。
28.连通分析两类问题:1连通分量求解;2最少费用连通方案的求解。
29.连通图:在一个图中。任意两个结点之间都存在一条路。
30.最小生成树:若一个连通图中不存在任何回路,称为树,生成树是极小连通子图(权数最小)称为最小生成树。应用:类似在n个城市间建立通信线路的连通分析问题。构造最小生成树的依据:1在网中选择n-1条边连接网的n个顶点;2尽可能选取权值为最小的边。算法:Kruskal,克罗斯科尔算法(避圈法)。
31.定位-配置分析(举例分析):1定位问题:已知需求点分布,确定哪里布设供给点。如消防站点分布、学校选址、垃圾收集站点分布;2配置问题:已知供给点分布,确定供给点服务于哪些需求点。如确定一消防站负责哪些区域的消防工作;3同时确定供给点和需求点。算法:Teitz-Bart算法(泰茨-巴特算法)。
32.e.g:选址问题就选择5个城市中一个作为中心邮局地时选择标准有中心点法和中位点法。中心点法是中心局到其它城市最短距离的最大值最小;中位点法是中心局到其它城市距离总和最小。
33.地址匹配:是基于空间定位技术,是地理编码的核心技术,提供了一种把描述成地址的地理位置信息转换成可以被用于GIS的地理坐标的方式。&
34.利用地址匹配技术可以在地理空间参考范围中确定数据资源的位置,建立空间信息与非空间信息之间的联系,实现各种地址空间范围内的信息整合。它的过程中涉及两种数据:一种是只包含地理实体位置信息没有相关地图定位信息的地址数据(如街道地址、邮政编码、行政区划等),另一种是已经包含了相关地图定位信息的地理参考数据,这些数据集合或者数据库在地址匹配过程中起到空间参考作用。
35.栅格数据的空间分析方法:距离制图、密度制图、表面分析、统计分析、重分类、栅格计算。
36.距离制图中基本概念:1源:距离分析中的目标或目的地;2成本:到达目标、目的地的花费,成本数据的制作一般是基于重分类功能完成的;3成本距离加权数据:也程成本累计数据,几率每个栅格到距离最近、成本最低的源的最少累加成本;4距离方向数据:表示了从每一个单元出发,沿着最低累计成本路径到达最近源的路线方向;5分配数据:记录每一个单元点隶属的最近源信息,单元值就是其最近源的值;6距离制图函数:主要包括成本加权函数(cost-weighted
distance),成本方向加权数据(cost-weighted direction),成本分配加权函数(cost-weighted
allocation),直线距离函数(straight-line distance),直线方向函数(straight-line
direction),直线分配函数(straight-line allocation),最小成本路径函数(shortest
path),分配函数(allocation)。其中:1、2为原始数据,3—6为结果数据。
37.密度制图:基于点数据生成的,以每个待计算网格点为中心,进行圆形区域的搜索,今儿来计算每个格网点的密度值。本质上讲,密度制图是一个通过离散采样点进行表面内插的过程,根据内插原理不同,分为核函数密度制图(Kernal)和简单密度制图(Simple)。
38.简单密度制图:以样本为圆心,考搜索半径产生圆,组成圆的栅格总面积为分母,样本点的属性值为分子,两折相除得到密度值,搜索圆内每个栅格单元的密度值相同。
39.核函数密度制图:以样本点为圆心,考搜索半径产生圆,圆心处的栅格单元密度值最高,离开圆心越远,密度越低,逐步递减,到边界处密度值为0。圆心处密度值大小由搜索半径决定。
40.表面分析:主要通过栅格差值生成栅格表面产生新的数据集。如等值线、坡度、坡向、山体阴影等派生数据。
41.统计分析包括:单元统计(n对1);领域统计(1对1);分类区统计(2对1)。
42.单元统计常用于同一地区多时相数据的统计,通过单元统计分析得出所需数据。例如:同一地区不同年份的人口分析,同一地区不同年份土地利用类型等。单元统计输入数据集必须来源于同一个地理区域,并且采用相同的坐标系统。
43.领域统计:是以待计算栅格为中心,向其周围扩展一定范围,基于这些扩展栅格数据进行函数运算,从而得到此栅格的值。即在单元对应的领域范围指定的单元上进行统计分析,然后将结果值输出到该单元位置。ArcGIS中提供四种领域分析窗口:Rectangle(矩形);Annulus(环形);Circle(圆形);Wedge(楔形)。
44.分类区统计:即以一个数据集的分类区为基础,对另一个数据集进行述职统计分析,包括计算述职范围、最大值、最小值、标准差等。利用分类区统计可以计算具有某一相同属性的数据所包含的另一属性数据的统计信息。e.g:计算每个污染区的平均人口密度;计算同一高程处植被类型的种类;计算同一种植被类型下高程的平均值。
45.重分类:基于原有数值,对原有数值重新进行分类整理,从而得到一组新值并输出。重分类一般的四种分类形式:新值替代;旧值合并;重新分类;空值设置。
46.栅格计算包括:数学运算;函数运算(数学函数,栅格数据空间分析函数)。
47.空间查询与量算是进行空间分析的定量化基础,主要的量算:几何量算、质心量算、形状量算。
48.空间内插:a在现有离散曲面分辨率、象元大小或方向与要求不符(栅格数据重采样);b现有数据不能完覆盖所要求的区域范围(如将离散采样点数据内插为连续数据表面)。
49.径向基函数插值:必须通过实测点,表面总曲率最小。
50.Kriging插值:基于统计学的插值方法,是根据相邻变量的值,利用变异函数解释的区域化变量的内在联系来估计空间变量数值。
51.栅格数据的重采样:处理栅格分辨率匹配问题。主要的三种方法:最邻近法采样;双线性采样;三次卷积采样。
52.三维空间分析:创建表面;表面分析;三维可视化;水文分析。
53.创建表面:TIN表面的创建;栅格表面的创建(通过栅格点位的空间内插来实现)。
54.栅格表面的创建(由点数据插值生成栅格面)方法:1反距离加权插值法(适用于变量影响随距离增加而减小的情况)、2样条函数法(适用于渐变的表面属性)、3克里格法(适用于已知数据含距离和方向上偏差的情况)等。调整参数方法:1可变半径的饭距离加权插值;2固定半径的饭距离加权插值;3张力样条插值;4规则样条插值。
55.表面分析:计算表面积与体积;地形因子提取(其中坡度、坡向、平面曲率、剖面曲率在ArcGIS中可直接提取)。
56.两种表面模型:栅格表面,TIN表面。
57.Slope:指通过该店的切平面与水平面的夹角,表示了地表在该点的倾斜程度。坡度两种表示方法:坡度(degree of
slope,水平面与地形面之间夹角),坡度百分比(percent
slope,高程增量与水平增量之比的百分数)1栅格表面shope提取与TIN表面坡度的提取:(TIN表面构成三角网的每个三角形构成一个平面,表面上某点必处在某一三角形,则该点的坡度指其所处平面与水平之间的夹角)。2栅格表面坡向(指地表面上一点的切平面的法线矢量在水平面的投影与过该店的正北方向的夹角,表征了该点高程值改变量的最大变化方向);TIN表面坡向(指该店所处三角面的坡向,即该三角面法线方向在平面上的投影所知的方向)。
58.可视性分析:a视线瞄准线;b视场;c可视性分析;d提取断面;e山体阴影;f表面长度的计算;g等值线绘制。
59.水文分析:无洼地DEM生成;汇流量积累;水流长度;河网的提取。
60.无洼地DEM生成:1)水流方向提取(通过计算栅格与邻域栅格的最大距离权落差来确定;距离权落差指中心栅格与邻域栅格高程差/两栅格间的距离);2)洼地计算(洼地区域是水流方向不合理的地方);3)洼地填充。
61.汇流累积量:是基于水流方向数据计算而来的。每个栅格的汇流累积量大小代表其上游有多少栅格的水流方向最终汇流经过该栅格,数值越大,越易形成地表径流。
62.水流长度:地面上一点盐水流方向到其流向终点间的最大地面距离在水平面上的投影。提取方式:顺流计算(计算地面上没一点沿水流方向到该店所在流域出水口最大地面距离的水平投影);溯流计算(计算地面上每点沿水流方向到其流向起点最大地面距离的水平投影)。
63.河网的提取过程:1先是无洼地DEM的生成:利用水流方向数据计算出DEM数据中的洼地数据,并计算洼地深度,依据这些洼地深度设定填充阈值进行洼地填充;2在无洼地DEM上利用最大坡降法计算出每个栅格水流方向;3利用水流方向栅格数据计算出每个栅格数据在水流方向上累计栅格数,即汇流累计量(代表在一个栅格位置上有多少个栅格的水流方向流经该栅格),当汇流量达到一定值时会产生地表水流;4设定临界数值,当所有汇流量大于那个临界数值的栅格就是潜在的水流路径,这些水流路径构成的网络,就是河网。
64.空间统计分析:空间数据的统计分析,核心是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。是以区域化变量理论为基础,以变异函数为基本工具来研究分布于空间并呈现出一定随机性和结构性的自然现象的科学。
65.空间统计:将空间信息与属性信息进行统一的考虑,研究特定属性或属性之间与空间位置的关系。(几乎所有的空间数据都具有空间依赖或空间自相关特征。
66.空间统计分析与GIS:
1相同点:二者均能处理具有空间坐标的信息;2不同点:GIS侧重于图形显示,即描述空间现象及其属性特征的相互关系;而空间统计分析侧重于数值计算,即应用空间分析模型进行有关空间自相关、空间结构、空间插值、空间模拟等方面的计算。
67.空间相关性:检测空间上两种现象(统计量)的变化是否存在相关性。e.g:水稻产量往往与所处土壤肥沃程度有关。
68.空间自相关:研究空间中,某个空间单元与周围的单元之间,就某种特征,通过统计方法,进行空间相关性的计算,以分析这些空间单元在空间上分布现象的特性。研究的是不同对象的统一属性在空间上的相互关系。
69.探索性空间数据分析(ESDA):利用统计学原理和图形图表相结合对空间信息的性质进行分析、鉴别,用以引导确定模型的结构和解法。内容:1)检查数据是否有误;2)获得数据的分布特征;3)对数据规律的初步考察。
70.ESDA数学方法:1直方图;2Q-Q概率图;3趋势分析;4半变异/协方差函数云图;5正交协方差函数云图。
71.直方图:适用于对大量样点数据进行整理加工,找出其统计规律,即数据分布形态,以便对其总体特征进行推断的方法。它的两个重要参数:概率分布(显示观测值落在一定空间中的频率的一种柱状图),概括性统计指标(可用位置指标、分布指标、形状指标加以表达)。
72.Q-Q概率图:主要用来评估具有N个值的单变量样本数据是否服从正态分布。是用来检验样点数据分布的统计图,如果被检验样点数据符合所指定分布,代表样点的点簇在一条直线上。分为:正态概率图和反趋势正态概率图。
73.趋势图:样点的位置在X、Y平面上表示,对于感兴趣的属性值,通过垂直方向上的Z轴表示,构成三维视图,趋势分析时,将Z轴数据值投影到X、Y平面作散点图,然后用多项式拟合。
74.ESDA应用:1)检验数据分布(可用直方图和Q-Q概率图直观地检验数据分布形状);2)寻找离群值(常用直方图和半变异函数查找现象的真实异常值,即离群点);3)全局趋势分析。
75.地统计分析基础:1)前提假设(随机过程,正态分布);2)区域化变量;3)变异分析(协方差函数,变异函数);4)空间插值。
76.区域化变量两个重要特征:随机性和结构性。区域化随机变量之间的差异,可用空间协方差来表示。
77.Kriging插值:根据变异函数模型发展起来的一系列地统计的空间插值方法;包括:普通克里格法,泛克里格法,指示克里格法,析取克里格法,协同克里格法等。
38.克里格插值法(Kriging)是用协方差函数和变异函数来确定高程变量随空间距离而变化的规律,以距离为自变量的变异函数,计算相邻高程值关系权值,在有限区域内对区域化变量进行无偏最优估计的一种方法,是地统计学的主要方法之一。ArcGIS9.3中的克里格插值方法主要有以下几种类型:普通克里格(Ordinary
Kriging)、简单克里格(Simple Kriging)、泛克里格(Universal
Kriging)、指示克里格(Indicator
Kriging)、概率克里格(Probability Kriging)、析取克里格(Disjunctive
Kriging)和协同克里格(Co-Kriging)。不同的插值方法的适用的条件不同,普通克里格法、简单克里格法和泛克里格法前提条件是样本数据符合正态分布。当假设高程值的期望值是未知时,选用普通克里格;当假设高程值的期望值为某一已知常数时,选用简单克里格;当只需了解属性值是否超过某一阈值时,选用指示克里格;当数据存在主导趋势时,选用泛克里格;若不服从正态分布时,选用析取克里格;当同一事物的两种属性存在相关关系,且一种属性不易获取时,可选用协同克里格方法,借助另一属性实现该属性的空间内插。
使用克里格首先要进行数据分析的,看它是否满足条件,如果不满足要进行数据变换。
克里格插值法很复杂的,计算时间也慢,一般情况下用反距离权重和自然邻近差值(voronoi)
探索性数据分析工具在
直方图,倒U型为正态分布
协方差可以探索两个相关属性的相关性
若数据,不服从正太分布?但是还想用克里金方法进行差值,该怎么调整数据?[b]
[url=http://bbs./ESRI/redirect.php?goto=findpost&pid=704658&ptid=67856]7#[/url]
[i]gisxy[/i] [/b]
按照书上的步骤做了一遍,发现生成的插值表面不光滑有突变的情况,如图所示(是在Global
Mapper中查看的3D效果图),是什么原因呢?
空间数据分析模型(南京师范大学)
空间数据  按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。
  点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。
  线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。
  面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。
  真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。
  在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。
7.2 空间数据分析
  空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。
  1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。
  2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。
  3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。
  4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。
7.3 空间数据分析的一些基本问题  空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。
7.3.1 空间自相关
  空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。
  如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种:正自相关,负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;负自相关较少见,指的是附近的观察值很可能是彼此不同的;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。
7.3.2 可变区域单位问题
  空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。
  统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题(modifiable areal unit
problem,MAUP)。如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。这个问题可以参考图
7.1。图中使用了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1和1之间任意变化。
  由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。
图 7.1可变区域单位问题
7.3.3 生态学谬误
  可变区域单位问题与更一般的统计问题——生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。事实上,对于这样的数据,有效的精确的说法是:低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象,可能有很大的差异:有可能是低收入地区治安很差,夜贼很多;或者是这些地区的人经常酗酒;或者根本就与收入没有关系。重要的是,高层次汇总数据中出现的关系应该在底层汇总  数据中重现并得到解释。
  这个问题很普遍。如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死刑,枪支控制与关押率,车祸与车速限制等。不幸的是,生态学谬误在学术界也不少见。这个问题经常发生,其根本的原因可能是为了简化解释。事实上,特别在人文地理中,事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是:统计关系会随着汇总层次而发生变化。
7.3.4 空间尺度  进行空间分析时,必须考虑空间尺度问题。不同对象的表现需要的不同尺度,例如,在大陆尺度,城市用点来表示。在区域尺度,城市用面来表示。在局部尺度,城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此,应当选定正确的或合适的空间尺度。
7.3.5 空间非均一性和边界效应
  区分空间分析与传统统计分析的重要标志是空间的不均一性。例如,搜集到城区犯罪位置的数据,并用点在地图上标绘出来,就能可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方,犯罪会有明显的聚集性,在公园或道路的交叉口,可能会出现空缺。这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候,必须考虑从事高风险工作的人所在的位置。目前,处理这些问题的方法还很少。
  边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置,各个方向上的观察值相接近;在研究区的边界,只有研究区内的观察值才是相接近的。因此,确定适当的边界才可能反映数据的真实性。
7.4 空间数据的关系  空间数据中蕴涵了丰富的信息,本章仅考虑空间数据的位置属性所能提供的信息。
  重要的空间概念是:距离(distance)、邻接(adjacency)和交互(interaction),与此密切相关的术语是近邻(neighborhood)。在空间数据分析中,我们不仅对属性数据的均值、方差等进行分析,也对空间上相联系的实体的分布进行分析。空间分布指的是空间实体之间的关系,可以通过距离、邻接和交互分析,获得对空间关系的认识。
7.4.1 距离  在空间数据中,距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离,参阅模糊数学一章)。在小的地区(小尺度的研究),可以忽略地球曲率的影响,通常使用欧氏距离。对于空间上的两个点i,j,其坐标分别为(xi,yi),(xj,yj),那么两点之间的直线距离为:
  在较大的区域(大尺度研究),距离的计算要考虑地球的曲率。
  除了直线距离外,实际应用中也可按照道路、铁路、河流或路网来计算距离;也可按照消耗的时间来计算距离。
7.4.2 邻接
  邻接可以认为是名义的、双向的相等的距离。两个空间实体,或者相邻或者不相邻,没有中间状态。确定相邻有多种方式。最简单的确定方式是,如果两个实体在指定的空间距离内,那么它们是相邻的,否则不相邻。类似的,对于任一实体,确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。
  与距离一样,对邻接的概念也可以进行扩展。邻接的实体不一定是相近的。例如,就机场而言,在考虑上海、北京和莫斯科机场的邻接关系时,可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的,但上海机场与莫斯科机场则不邻接的。
  邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。
7.4.3 交互
  交互可以认为是距离和邻接的综合,它来自于一个基本的想法:近处的事物关系更密切。从数学上讲,可将两个空间实体之间的交互度表示为0(无交互)和1(高度交互)之间的数。邻接也可以用类似的方式来表示,因为邻接是双向的。在空间分析中,典型的交互可用距离倒数加权来定义:
  其中,w是距离为d的两个实体i,j之间的交互权重。k控制着权重的变化率。距离越近,权重越大,交互越强。
通用的交互计算中使用两个实体的属性值,例如人口的引力公式为:
  其中,pi,pj是i,j两地的人口数量。
  此外,也可以在公式中加入面积来定义两个区域单位间的交互。
  除了空间距离外,也可以使用其它的距离定义。例如,可以使用两个国家的贸易量来定义交互程度。
7.4.4 近邻
  近邻有多种表达方式。例如,特定空间实体的近邻是与该实体邻接的其他空间实体的集合,此时,近邻依赖于邻接的定义。此外,可以不考虑邻接性,将近邻定义为空间上相联系的区域,此时则需要使用距离的概念。近邻的概念经常被使用,主要是由于空间分布上邻近的区域更为相似。这是一种内部相似,不同于周边区域。例如,考虑海拔高度,山是一种近邻,其周围的海拔都较高。图7.2进一步揭示了这四个概念。左上角的图指明了研究区内A到其它点的距离。一般而言,总是可以确定两点之间的距离。在右上角的图中,按照距离指明了与A邻接的两点E和F。这种邻接可以通过多种方法来定义。例如,以50米内为邻接的距离。注意,这种定义意味着D没有邻接的对象。我们也可以定义最近的对象是邻接对象,这可以保证所有的对象都有两个邻接对象,虽然它同时意味着邻接不再是对称关系。例如,此时,D与E邻接(最近的是C和E),但E并不邻接D(与E最近的是A)。在左下角的图中,使用线宽指明A与其它对象的交互作用强度。这里,交互是距离的倒数,所以A与E交互作用强。在右下角的图中,给出了对象A的两个可能的近邻,曲线内是与A邻接的对象,包括了A,E和F。另一个可能的近邻是带阴影的多边形,该空间也接近于A。
图7.2 距离、邻接、交互和近邻的概念
7.5 空间自相关分析
  空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分(Getis and
Ord,1996),自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。
  全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的一致性。
  空间自相关分析,当前常用的参数有三个,即Moran’sI,GearyC和G统计量
7.5.1 Moran’sI参数
  Moran’sI是应用最广的一个参数,可用来进行全程空间自相关分析和局部空间自相关分析。全程空间自相关分析参数的定义是:
  局部空间自相关分析参数的定义是:
  其中:
  n 是观察值的数目,xi&是在位置i的观察值,Zi&是xi&的标准化形式。
  ,&。{wij}
是对称的二项分布空间权重矩阵,在以样点i为中心、距离为d的范围内,取值为1,否则取值为0。
  Moran’sI值越大,表明数据正的空间相关性越强。
7.5.2 GerayC参数  GerayC参数用来分析局部空间相关性:
  作变换,C=1-C(d),C值大于0,表明正值四周为高值,小于0,则为低值,0则为无聚集特征。
7.5.3 G统计量
  G统计量由Ord 和Getis
1992年提出,1994年和1995年做了部分的修改,用来分析局部空间自相关性。空间统计量Gi(d)定义为:
  ,&&&&&&&&&
  &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
      
       = Wi/(n -
1),&&&&&&&&&&&&&
  &,&&&&&&&&&&&&&&&&&
          &&;.
  为了便于解释,定义 Gi(d) 的标准化形式为:
  &&&&i≠
  各变量的含义同上。
  模拟表明 (Ord 和 Getis 1994),在原假设xi
周围不存在空间聚集的条件下,G的分布接近于正态,所以,经常借助于正态分布检验G值的显著性。对于不同的观察值N,在不同的显著性概率(水平)下G值各不相同,例如,在0.1的显著水平下,40个样本对应的G值为2.79,100个样本对应的G值为3.07。
  检验显著的G值说明位置i周围是较高的数据,即数据具有空间上的聚集性。
7.6 空间变异分析
7.6.1 空间变异
  空间变异指研究对象在空间上的变化,它是地理学研究的基本问题。空间变异的研究可借鉴空间分析的有关方法,通过对地理系统的特征进行分析,了解地理系统在空间上的分布和演替规律。
图 7.3 指导传统地理制图的概念模型
  空间变异是比较复杂的。降水、风化、侵蚀、堆积、人类活动以及地球构造运动等地球的内外营力造成了物质组成的空间变化,是导致空间变异最基本的原因。同时,地理系统的不同属性随时间发生变化,具有不同的时间变异性,而且这种变异性有可能超过空间变异,从而增加了空间变异研究的难度。
  早期研究中,人们考虑到空间变异的复杂性以及有效研究工具的缺乏,往往通过定义系统分类单元和均质制图单元对空间变异进行系统分析,并假设所定义的空间单元由空间由均质的(homogeneous)或接近均质的块段构成,所有重要的变化都发生在边界处(图7.3)同样,如果研究性质的观察值被直接地划分为名义上的等级(例如植被中盖度、土壤中的质地),那么就很难考虑渐进的、单元内的变异。
  自20世纪70年代以来,随着研究的深入,人们逐渐认识到了空间的一些特性。大量的实验结果表明存在有不同尺度的空间变异。比如土壤的孔隙度,不仅随地点变化,还随采样样本的大小变化。极小空间范围的变异或时间变异也可能导致不可预料的属性测量值较大幅度的变化。大尺度的遥感研究,特别是使用红外辐射研究裸地可以清楚地表现出地表的变异性。探地雷达研究则表明地表在垂向短距离内也可以急剧地变异。
  空间变异的程度依赖于过程的类型和它们在空间和时间中的协同关系。
7.6.2 空间变异模型
  考虑到地理过程对空间格局的影响,依据研究对象的空间分布形式划分出两种变异理论模型。
7.6.2.1 常规模型
  常规模型为突变模型(图7.4a)。假定属性在边界处突然变化,但边界之内属性变化很小。图上单元由具有相似性质的个体构成,代表均质的范围,至少在分类系统的最低分类单位水平上相同(地图上可辨别的最低分类单位与地图的比例尺有关,即与空间尺度有关)。边界可以通过采样来确定,或者直接地通过空间特征(如坡形、坡位、植被变化)来确定,或者通过航片、卫片上的相关特征来确定。
7.6.2.2&&连续模型
  连续模型(图7.4b)假定属性在空间逐渐变化,而且这种变化可以用数学模拟来逼近。
  常规模型和连续模型在实际应用中是不同的。以污染为例,如果污染水平高于某一临界值,按照常规模型,就需要对整个地区进行净化处理,这无疑是十分昂贵的。按照连续模型的观点,污染常常是非均质的,临界位置上的采样点在污染水平上差异甚大,可以采取统计方法来估计区域内各个地方受污染的程度,这样就可以有针对性的进行治理,从而节省大量资源。
  变异模型可以通过确定性方法或随机方法来逼近。确定性方法不承认属性观测值的不确定性,其结果是,连续模型认为性质的变化是一个平稳的可微分过程,而常规模型认为地理现象没有内部变异。随机方法承认地理现象是一个复杂的自然体,必须通过采样方法来研究,我们只能估计其属性的量值而且这些估计受制于概率规则,即任何估计的准确性都只具有某种概率(图7.4c、d、e、f)。用统计学语言来表达就是,每一个属性Ai在每个图上单元j中的数值都可以估计为Aij±e,其中e是一个正态分布的随机误差。上述两种模型的进一步发展是不同类型的空间变异可以在不同尺度上发生(多尺度模型)。
  实际上,空间变异研究中存在两种明显不同、但原理上互相联系的观点。一种是实用地、当然地理解空间变异方式,认为观察点位的数据可以外推到更大的区域。第二种是科学探求式的,认为形成过程导致自然和人为的分布形式的多样性。但无论如何,过程的深入理解都有助于对空间分布形式作出合理的推断。
图7.4 空间变异的假想模型
7.6.3 空间数据插值
  空间数据插值是进行数据外推的基本方法。常用的插值方法有:1)距离倒数插值(inverse&distance
weighted,IDW);2)样条插值(spline);3)三角网插值;4)最小曲线法插值;5)等方位加权法插值;6)多项式拟合(趋势面分析)插值;7)克里格插值  (Kriging)。基于样本值所代表的现象和样本点的空间分布方式,插值方法将生成与实际值相关性较好的预测值。不同的插值方法对于如何获得最佳估计值都给予了一定的假设,但无论你选哪种插值方法,样本点越多,样本点分布越均匀,插值结果越接近实际值。
7.7 趋势面分析
  趋势面分析的基本功能,是把空间中分布的一个具体的或抽象的曲面分解成两部分:一部分主要由变化比较缓慢、影响遍及整个研究区的区域成分组成,称为趋势;另一部分是变化比较快,其影响在区内并非处处可见的成分,称为局部异常。趋势面分析的实质是进行数据的拟合,它对因变量无特别的要求,自变量一般总是由地理坐标(平面坐标,在特别的情况下,也可以用经纬度)组成。在三维趋势面分析中,则增加了高程或深度坐标值。&&&
  趋势面分析实际是回归分析的一种特殊应用,或者说是回归分析的一个变种。两者在数学原理、计算步骤等方面几乎完全相同,但是两者在应用上有较大的区别。回归分析的目的是研究变量之间的关系,并在此基础上进行预报或建立回归模型,趋势面分析是要分离出区域趋势和局部异常两个成分。在实际应用中,由于多项式函数对曲面拟合能力比较强,又由于地理上对拟合及分离的精度要求并不高,才使得趋势面分析法得到广泛的应用。
  从统计学中知道,回归分析有几个重要的假设条件,只有当这些条件都基本上得到满足之后,分析的结果在数学上才是精确可靠的,否则就可能产生虚假的结果。对于这些前提假设,趋势面分析可以严格地加以考虑,这时趋势面分析实际就成为回归分析,分析的目的,则是探讨因变量和地理位置的关系。当趋势面分析不考虑,或部分地考虑这些前提假设时,分析目的就有别于回归分析了。在趋势面分析中,如果照搬回归分析的上述假设,可能一无所获,而使局部异常的识别或分离无法实现。
7.7.1 狭义趋势面分析与广义趋势面分析  一般而言,趋势面分析基本上仅限于Grant和Krumbein提出的多项式趋势面分析法,即狭义的趋势面分析。由于趋势面分析的根本目的是要将观测面所包含的信息分解为趋势和局部异常两个成分,而具有类似的或相同功能的方法还有许多,如滑动平均、滑动中值、克里格法、谱分析、自协方差分析及空间滤波等。这些方法不同于多项式趋势面法,称之为广义的趋势面分析法。
  广义趋势面分析中,各种方法本来的功能并不仅仅局限于分离趋势和局部异常,不同的方法各有其特殊的性质。如滑动平均法主要是用以消除随机干扰;克里格法是要在观测数据的基础上,对所分析的变量进行插值,并给出相应的估计误差;空间滤波则是根据情况,由分析者指定,分离出一定波长范围内的曲面组分。这些方法,或者要清除曲面中的一些组分,或者只提取曲面中的某些组分,和趋势面分析的要求是重叠的或者是相容的。因此,在一定的条件下,它们可以起到趋势面分析的作用。由于这些方法并非专用于分离趋势和局部异常,故若作为趋势面分析工具使用时,有的效果较好,如空间滤波,而多数的效果不如多项式趋势面分析方法。
对趋势面分析法,虽然人们都把它归入统计学的范畴,但它在许多方面又不能严格地满足统计上的条件,因此只能认为是一种简单的断面拟合。
  趋势面分析的结果表现为趋势图和局部异常,人们从中可以解读出有意义的地理信息,而对趋势面方程及其系数,极少有人去探求其特定的含义,不同的函数可以产生几乎相同的结果,也在一定程度上使得有关参数的物理意义难以明确。
7.7.2 趋势面模型  从理论上说,属性数据的空间变化可以分解为三个部分;1)区域趋势;2)局部异常;3)随机干扰(即随机噪声)。
  所谓区域趋势是指遍及全区的、规模较大的地理过程的反映。局部异常是由规模比研究区小的地理过程所产生的,但其规模又至少大于两个观测点之间的距离。局部异常的规模和观测点间距离的这种关系,一般在观测点为规则网格时才是明确的。随机干扰,一般认为是由抽样误差和观测误差组成,不包括系统误差。随机干扰的影响范围很小,它仅限于单个观测点的控制区内,或者说其规模小于相  邻两观测点之间的距离。
  根据上述理论模型,有
  观测面=区域趋势+局部异常+随机干扰
  每一具体的属性值,都可以认为包含了上述三种成分。趋势面分析的目的,是如何对这三种成分进行有效的分离。
  随机成分的分析要求有重复抽样的观测数据,这在地理工作中往往难以满足。因此在实际工作中,往往并不要求分离三种成分,而只要求分离其中的两种成分。这样,理论模型在实际应用时就成为:
  观测面=区域趋势+局部异常
  观测面=区域趋势+随机干扰
  在上式中,局部异常成分必然包含随机干扰成分,只不过异常成分处于主导地位,而随机成分所占比重很小,以至于可以忽略不计。同理,随机干扰仍可能包含有局部异常成分,只是它相对于随机成分来说规模要小。由于随机成分有可能包含有异常成分,因此它有时仍可以有一定的地理意义。在具体工作中,随机成分里是否包含有局部异常成分,通过将分离开的各个成分分别作图(一般只作等值线图),进行对比,然后作地理解释后才能确定。
  趋势面分析结果可以使用下式来说明拟合的程度:
  其中,n为样点数,z是属性值,U是回归平方和,S是离差平方和,c是拟合程度。
  c值表明了趋势面反映原始数据的程度。当c=100%时,则趋势值在所有的样点上与原有值相等,但这种情况很少出现,从趋势面分析的角度看失去了分解的意义。c接近于0,说明拟合程度低。
  如果设W为剩余平方和,即
  可以用F分布来检验结果的显著性。F统计量为:
  其中m是趋势面中多项式的项数(不包括常数项)。
  在空间数据分析中,由于目的是分析趋势和异常,所以,并不追求高的拟合程度。一般的,拟合程度达到60-80%,阶数在1-4之间就可以满足要求了。
7.7.3 趋势面分析实例
  1.目的和地区概况
  利用1:2.5万地形图对王家坡谷地形态进行分析,并与我国西部冈底斯山脉南坡的一条古冰川谷地进行形态对比,探讨庐山谷地是否具有冰川谷的特征,进而推断庐山是否曾发育过冰川。
  王家坡谷地为地质构造上的向斜谷地。谷地两侧山脊线之间宽度平均为1300米,长约4000米,西南向东北倾斜,海拔高度由1200米降到200米。两翼岩层倾角西北翼为30度左右,东南翼为35度左右。谷形成不对称状态,谷底平缓。我们部分冰川学者认为,这是庐山最典型的古冰川谷地。
  在1:2.5万地形图上,对王家坡谷地布置了341个规则网点,密度为8x8毫米。分别计算了1-3阶的趋势面(给出的是3阶趋势面的结果,图7.11右),其中,3阶趋势面的模拟程度为98%。西藏东南部啊哪塘海洋冰川谷地3阶趋势面(左图)的模拟程度为41%。两条谷底的趋势面图的部分见图7.5
  2.趋势面分析
  图7.5中左图的等高距为50米,若插值为可与右图相对比的25米等高距,则相邻等高线之间距离变小,等高线密集,说明谷坡陡峭。同一高程的等高线在谷坡向谷底过渡中有明显的转折,说明坡麓清晰;过谷底的等高线较平直,说明谷底平缓;谷地两侧等高线大致都呈同一方向平直延伸(北-南);在东北部有一组等高线(4900米)向东弯曲,而4750米、4800米和4850米这组等高线在其下平直通过,谷地延伸与啊哪塘谷地近于直交,是一支冰川谷—悬谷。右图的等高距为20米,谷坡则比左图平缓。同一高程等高线从谷坡向谷底舒缓过渡,无明显的转折,说明谷坡谷底无明显分界。过谷底的等高线都是圆弧状,数条等高线排列整齐,形状几乎相同,说明坡面倾角与岩层倾角基本一致。两个图相比较无明显相似处,表明王家坡谷地似未曾经历过冰川的强烈作用,谷地形态只是一个向斜谷地的典型地形特征。
图7.5 谷地趋势面图对比
方差云图  在实际应用中,人们更关心的对象的空间位置与其它属性数据之间的关系。通过绘制实体属性值的差异与其位置差异的图件,可以得到这种关系的一般描述。所形成的图件称为方差云图。
  首先看一下图7.6中的数据,这是310x310米调查区的高程点,其中绘制等值线是为了显示数据的总体空间变化特征。从北向南,总的趋势是上坡。南坡地形似乎更为复杂一些。
图7.5 高程点和等高线(注意等高线是人工勾绘的)
  对每个可能点对,我们按照点对高程差的平方根与点对的距离来绘图,得到图7.7。图中点的分布比较杂乱,但从密集点的分布可以看出,高程点间距离越大,高程差异越大。
  从图7.6中可以看出,高度上的增加趋势是由北向南。事实上,可以只绘制近南北方向分离的点对。如果将方向精确地限制在南北方向上,可能没有绘图的点对。所以实际上取的范围是南北方向±50。类似地可绘制东西方向的点对。图7.8给出了这些点对的分布,其中,南北方向的用空心圆表示,东西方向的用点表示。
  在上图中注意如下几个方面:
  1)绘图的点数减少。这是因为南北和东西两个方向上点的数目较少。实际上,我们可以推测每个方向上的点数大致是原来的  10/180=1/18(假如数据点的分布是均匀的)。
  2)可绘图的距离范围要小一些。因为研究区在两个方向上是300米,300米就是最大的距离间隔。从空间分析来看,300米构成了边界效应。
  3)虽然有部分重叠,但南北方向上的差异要大于东西方向上的差异,反映了调查点的真实趋势。
  4)不同方向上显示出的差异可以用各向异性(anisotropy)的概念来表示,即数据的空间变异与方向有关。相反,如果各个方向上没有差异,则用概念各向同性来表示。
图7.6 高程点的方差云图
图7.7 南北方向(圆圈)和东西向(点)的方差云图
  方差云图是有用的探索工具,但因为点数多,所以有时候难以解释。更简要的概括是把距离轴改为不同的间隔(lag),然后对每个间隔内的数据点进行概括。如
  图7.9所示,其中,有10个间隔,每个间隔是50米。在较大的距离间隔上,高程点的差异较大,这种趋势很清楚。对应于定义的研究区,边界效应也很明显,出现在间隔6和7中(对应于300米)。间隔8,9,10包括了不同的差异,更多的反映了研究区四个角的空间特征。如果增大研究区的范围,那么就不会出现这样的效应。
图7.8 不同距离间隔的高程点盒子图
  图7.9表明,距离越远,高程点之间的差异越大。这与我们熟知的地形变化是一致的。方差云图有助于揭示数据中的自相关结构,但更重要的是,还可通过估计属性的方差变异与间隔距离的函数关系,优化插值的结果。
7.9 区域变量和克里格插值
7.9.1 区域化变量
  一个变量的空间分布称为该变量的区域化。如果变量以三个空间坐标(x,y,z)为自变量,那么该变量就是区域化变量。
  区域化变量假定,在一定空间范围内,属性指标的变异可以用一个连续的、空间上相关的随机域来模拟。任何变量的空间变异可以表示为三个主要组分之和:确定性成份、区域成分和随机成分。
  设x为样点在1,2或3维空间的位置,x点的随机变量Z值为:
  其中m(x)是描述Z结构项的一个确定性数,c’(x)是描述随机区域变异但空间相关的残余项,即区域变量,ξ"是残余的空间不相关的高斯噪音项(服从标准正态分布,即平均值为0,方差为
α2)。如果没有趋势,那么m(x)等于样区数据的平均值,而且任何两点x和x+h(h为间隔距离)之间的平均值或期望值的差为0。
  使用Z(x),Z(x+h)表示随机变量Z在位置x,x+h的观测值,区域化变量理论假设任意两点Z的差值的方差仅取决于位置间的距离h。
  在有趋势的情况下,假设数据是弱平稳的,并假设对于所有的h,增量Z(x)-Z(x+h)的方差是有限的,而且只是相隔h的函数。在该假设成立的情况下,定义半方差为:
  其中,n是相隔距离为h的样点对的个数。将r(h)和h作为纵、横坐标作图即可获得实验半方差函数图(图7.10)。实验方差函数图不受数据的非平稳性影响,是空间变异性研究中的一个有力工具,也是区域变量定量描述的第一步。
图7.9 实验半方差变异函数图
  在方差变异图上,如果样点具有空间关系,那么,空间上分布愈接近的点对(靠近x轴的左边)应该具有更相似的值(靠近y轴的下边),而距离愈远的点对(沿x轴方向向右移动),应该具有更多的不相似性和更高的方差(沿y轴方向向上移动)。
7.9.2 方差变异函数
7.9.2.1 基本概念
  图7.11是一个典型的实验方差函数和其理论方差函数曲线,它有下面几个重要的特征。
  1)随间隔增大,方差增大,并在一定的间隔后达到一个基本稳定的常数。这个方差常数称为基台(sill),在理论函数模型中用C+C0表示。平稳数据的基台值近似于采样方差。
  基台值意味着在对应(或大于)距离的样点之间没有空间相关性,因为方差不再随距离变化。
  2)曲线从较低的方差值升高,到一定的间隔值时到达基台值,这一间隔称为变程(range)。在理论函数模型中,变程用a表示。
  变程是半方差函数中最重要的参数,它描述了该间隔内样点的空间相关特征。在变程内,样点越接近,两点之间相似性、即空间上的相关性越强。很明显,如果某点与已知点距离大于变程,那么该点数据不能用于数据内插(或外推),因为空间上的自相关性不复存在。
  变程的高低取决于观测的尺度,说明了相互作用所影响的范围。不同的属性,其变程值可以变化很大。
图7.10 典型试验方差函数和拟合曲线
  3)理论方差函数曲线不穿过原点,而是存在一个最小的方差值。理论上讲,当间隔h=0时,估值的方差应该为0,因为任何一点与自身之差的值为0。h趋近于0时,r(h)轴上的正截距是残差的一个估计,该值称为块金(或基底,nugget)。在理论函数模型中,用C0表示。
  块金是在间隔距离小于采样间距时的测量误差或空间变异,或者是二者的和。测量误差是由仪器的内在误差引起的,空间变异是自然现象在一定空间范围内的变化。小于采样间距的微观尺度上空间变异是块金的一部分。
  当r(h)值在所有的h值上都等于基台值时,实验半方差函数就表现为纯块金效应,这通常由于短间距内点与点的变异很大而引起,表明所使用的采样间隔内完全没有空间相关性,此时,可以认为各个样点是随机的,区域平均值就是各点的最佳估计值。此时,只有增大采样间隔才能揭示出空间相关性。
  块金与基台的比值(C0/(C+C0),基底效应)可以用来说明空间的变异特征,该值越大,说明空间变异更多的是随机成分引起的,否则,则是由特定的地理过程或多个过程综合引起的。
  空间相关性的强弱,可用C/(C+C0)表示,该值越高,表明空间相关性越强。
  在实际的模型计算中,块金与基台两个参数是可以调整的,其取值取决于整体的拟合效果。
7.9.2.2 理论变异函数模型
  理论变异函数模型用来拟合实验半方差图的离散点。常用的模型有如下几种。
  1.线性模型(Linear model_)
  其中,w是直线的斜率,此模型是最简单模型,但在一定范围内也是适用的。在某些情况下,
w可以为0,这时就是纯块金效应模型。
  2.球状模型(Spherical model)
  式中符号的意义与前面相同。球面模型最为常用,此外,由于球状模型是根据三维空间的随机移动平均过程推导获得,因此特别适用于三维空间。
  3.指数模型(Exponential model)
  其中,d是控制方程空间范围的距离参数。这里,仅在无穷远处相关性完全消失。变程为3d。指数模型在统计理论中地位重要,它表示了空间随机性的要素,是一阶自回归和马尔可夫过程的半方差函数。作为自相关函数,它们是采样设计有效性的理论基础。
  4.高斯模型(Gaussian model)
  变程为&。
  图7.11是球状模型、指数模型和高斯模型的比较,可以看出,球状模型的变程最小,指数的模型变程最大,高斯模型的变程介于二者之间。球状模型和指数模型过原点存在切线,高斯模型则没有。
图7.11 球状模型、指数模型和高斯模型的比较
  5.双曲线模型
  6.圆形模型
  在空间分析中,根据数据的空间自相关性和研究对象的先验知识,选择要使用的模型。选定了理论模型后,通常是用最小二乘法计算方程的各个参数,并用最大似然法(ML)来选择拟合效果最好的模型。
  此外,在拟合中可以叠加使用上面的模型,模型的参数也可以进行调节,以达到最大程度的拟合实验数据。
7.9.2.3 空间插值  计算理论方差函数是确定插值权重的基本过程,是预测未知位置属性值的克里格方法(Kriging)的基础。D.G.Krige是南非采矿工程学家,在1951年提出了矿产品位和储量估值方法。法国地统计学家Matheron(1971)命名了这种方法,并在此基础上提出了区域化变量理论,使传统的地学方法与统计方法相结合,形成了完整的方法体系。
7.9.3 克里格插值
  克里格法是利用原始数据和半方差函数的结构性,对未采样点的区域化变量进行无偏最佳估计值的一种方法,这种方法的一个特点是能够计算出每个估计值的误差大小(估计值方差),从而能知道估计值的可靠性程度。克里格方法现已发展为多种类型,如简单克里格(simple
Kriging),普通克里格(ordinary Kriging),点克里格(point Kriging),块段克里格(block
Kriging),通用克里格(universal
Kriging),协同克里格(co-kriging),不连续克里格及指标克里格等。
  如果变量满足平稳性假设,可直接用点或块段克里格方法,这两种方法也称普通克里格。如果是非平稳的,需要采用泛克里格方法。如果分析多个变量的协同区域化问题,要采用协同克里格方法。其他的各种克里格方法也各有其应用领域。
  克里格插值与距离倒数加权插值的相似之处在于,二者都通过给已知样本点赋权重来求其他点的预测值。两种内插方法的通用公式如下:
  其中,Z(si)是已测得的第i个位置的属性值,wi是在第i个位置上测得值的权重,s0是待插值的位置,n是已知样点的数目。
  距离倒数加权插值中,权重wi仅取决于样点到待插值点的距离。在克里格插值中,权重不仅考虑了已知点与插值点间的距离,而且考虑了己知点的位置和属性值整体的空间分布和格局。克里格插值中的权重来自半方差函数模型(生成的表示地理现象连续表面的函数),在半方差函数模型和邻近已知点的空间分布的基础上,对研究区内的各个位置进行预测,权重wi取决于已知点的拟合模型、到插值点的距离和插值点周围的已知样点的空间关系。
  利用克里格方法进行预测,必须完成两个任务:(1)揭示空间相关规律;(2)进行预测。为此,克里格插值方法需要两个步骤:(1)生成变异函数和协方差函数,用于估算样点值间的统计相关(空间自相关)。变异函数和协方差函数取决于自相关模型(拟合模型)。(2)预测未知点的值。
7.9.3.1 普通克里格方法
  普通克里格是满足假设的区域化变量的线性估计,它假设数据的变化呈正态分布,假设区域化变量Z的期望值是未知的(如果为已知的常数,则为简单克里格方法)。插值过程类似于加权滑动平均,只是权重值不是来自于确定性空间函数,而是来自于空间数据分析。
  1)点克里格
  简单的点估值是最常用的克里格法。克里格法可以说是一种局部估值方法,每一估值都是由其邻近观测值加权平均计算而得的。有实验表明,点克里格法比多项式和加权平均法的估值精度高。
  由克里格法估值产生的方差图,可以识别出需要进一步采样的地区。
  2)块段克里格
图 7.12半方差模型参数
A:各向同性&&B:各向异性
  块段克里格是对中心在x0的小区或块段进行估值。任一块段V中的属性Z的克里格值,是其邻近块段观测值xi的加权平均。
  块段克里格与点克里格法的区别仅在于权重系数的确定。当块段的大小等于原有平均点或样点所覆盖的范围时,克里格就是精确内插,因为内插值与数据点值相等,点克里格就成为块段克里格的特例。块段克里格的估值方差总是小于点克里格法。
  块段克里格法的最普通用途是绘制等值线图,而且图中的等值线较平滑,对揭示区域内的变化规律格局尤为有效。
  普通克里格分析需要给出如下的结果:半方差图(图7.12),半方差模型参数,克里格插值结果图,插值结果的交叉检验(图7.13-图7.15)。下面给出的是对青海省青海湖西侧铁卜加样区数据进行克里格分析得到的结果。数据样本数为100,10x10等间隔30米采样。  指标为蚁蝗密度,单位是头/平方米。
A                      B
图7.13 克里格分析的半方差图
A:各向同性&&&B:各向异性
  半方差模型中参数使用回归方法估计(图7.12)。对比确定系数r2和残差的标准差RSS,选取指数模型为最佳半方差模型。这在各向同性和各向异性时均有较好的拟合效果。各向同性的模型获得的变程为135.8m,各向异性模型获得的变程为90-210米,依计算的方向不同有所差异。从拟合效果看(RSS最小),以90度方向的效果最好。
  图7.14是使用上述模型得到的插值结果,图7.15是克里格插值的交叉检验图。
  图7.15中,回归系数表示回归方程的拟合程度。最佳的回归系数为1(图中的实线部分,虚线是当前的结果)。r2(图中表示为r2)是确定系数。SE是标准差。当我们认为蚁蝗密度的变化具有各向同性时,得到回归系数高于各向异性,而且具有较低的预测标准误差。所以,就研究地区而言,虽然种群密度在不同方向上是有变化的,但不是非常显著。各向同性模型对于预测更为合适。
图7.14 各向同性的点克里格插值
图7.15 克里格插值的交叉检验
A:各向同性&&&B:各向异性
7.9.3.2 泛克里格方法
  普通克里格方法要求数据是二阶平稳的或准平稳的。如果数据在空间上存在明显的趋势,那么,普通克里格方法就不再适用。此时,应该使用泛克里格方法进行分析。
  泛克里格方法假设数据中有主导趋势,而且该趋势可以用一个确定性的函数或多项式来拟合。
  进行泛克里格方法分析的步骤为:
  1)趋势分析
  分析数据中存在的空间上的变化趋势,获得拟合模型。这部分内容与前面的趋势面分析相同。
  2)残差的克里格分析
  这部分的分析方法与前面的普通克里格分析相同,不同的是,计算使用的数据是原始数据减去趋势数据,即残差数据。
  3)泛克里格插值
  将趋势面分析和残差的克里格插值结果加和,即构成了泛克里格方法分析的结果(图7.16)。
图 7.16 泛克里格插值结果
  AIC准则可以用来对比模型的拟合程度,下面是三个模型的AIC值:
        趋势面分析&&&500.08
        普通克里格方法&&490.21
        泛克里格方法&&470.31
  克里格方法明显的优于趋势面分析,泛克里格插值结果比普通克里格方法要更好一些。
7.9.3.3 协同克里格方法
  通常同一个样点有多个属性值,某一属性的空间分布经常与其它属性密切相关,因为它们受同样的区域化现象或空间过程的影响,这些属性就称为协同区域化属性。某些属性Z2测定可能比较昂贵,所以数据点较稀,而另一些Z1则易于获得因而观测值较多。如果Z1和Z2空间相关,那么就可以利用Z1的空间变异信息获取Z2的分布状况。除了描述各自非结构性变异之外,协同克里格还需要分析两个变量的联合交叉变异。两个变量Z1,Z2的协同区域化可以用它们的交叉半方差函数(cross-semivariogram)来表示:
  其中,n(h)是以距离间隔h内的样本数目。协同区域化属性的空间相关性也可以用交叉相关函数来确定。交叉方差可以是正值,也可以是负值,依Z1和Z2的相关关系而定。
  协同克里格法把区域化变量理论的最佳估值方法从单一属性发展到二个以上的协同区域化属性。当某一属性由于各种原因无法充分采样时,协同克里格法可以利用它与另一个采样多的变量之间的空间相关性,有效地提供具有一定精度的估值。协同克里格在计算中要用到Z1,Z2各自的半方差函数和交叉半方差函数,计算比较复杂。
  协同克里格既可用于点估值,也可用于块段估值。如果变量的空间模式与常见的物理过程相联系,协同克里格法最为成功。例如,Leenaers
etal(1989)在荷兰南北Geul河冲积平原表土重金属(Cd,Pb和Zn)含量分布的制图中,使用了协同克里格方法。因为污染物总是吸附于缓慢沉降的细颗粒,重金属污染会在长期停留的地方富集。结果发现,冲积平原中泛滥河水停留时间最长的地方重金属含量最高,表明该区域相对高程与重金属含量有很强的空间负相关,据此,可以用高程数据进行重金属含量的协同克里格插值。
7.9.3.4 其他方法
  对数正态克里格(lognormal
Kriging)用于对服从对数正态分布而不是正态分布的数据的插值。原始数据先转化以自然对数或以10为底的对数,然后再进行方差函数拟合和插值。估值数据可以再转换回原始数据。
  如果原始数据不服从简单的分布(高斯或对数正态),那么可使用转换克里格法(disjunctive
Kriging),它可以提供非线性的估值方法。在很多情况下,没有必要了解区域内每一个点的属性值,而只需要了解属性值是否超过某一阈值,这时可将原始数据转换或(0,1)值,使用指标克里格(Indicator
kriging)进行分析。
7.9.4 克里格插值的影响因素分析
  克里格插值结果受诸多因素的影响,例如数据的分布、插值方法和插值参数等。与回归分析不同,经常需要进行多次模拟运算,才能得到合适的结果。一般而言,如果克里格插值结果具有最小的方差,而且交叉检验中误差的方差最小,那么,该结果就是合适的。但是,目前还没有通用的准则,用来自动获取最合适的模型。
  下面,我们分别以青海省环青海湖草地蝗虫调查数据为例,对该问题进行讨论。克里格方法中使用的基本参数为:
  搜索半径:80米
  使用的最小样本数目:10
  使用的最多样本数目:100
  插值方法:点克里格。
  1.数据分布影响
  在理论上,克里格分析要求数据具有正态分布。但是,实际调查数据较难保证为正态分布。所以,在计算前一般需要进行正态分布转换,常用的方法有Box-Cox方法和概率内插方法。
  图7.17是蚁蝗密度数据正态分布变换前后频数图的对比,变换后的数据是正态分布的。
铁卜加样区蚁蝗密度的原始数据和正态变化后数据的频数图
  原始数据的半方差模型见前面的普通克里格部分。变换后数据的半方差模型和普通点克里格插值结果的见图7.18。
A:各向同性&&B:各向异性
图7.19 正态数据的普通点克里格分析结果
  可以看到,与原始数据相比,结果确实有了改善。例如,就半方差图的拟合而言,决定系数由0.669提高到了0.988。交叉检验的回归系数由原来的0.897提高到了
0.948,而且误差更小。
  虽然正态分布转换能够改善插值结果,但由于转换方法不同,有些结果并不是可逆的。我们有时无法将克里格插值的结果再转换为原始的数据。只有使用函数变换进行的分布转换才可能是可逆的。另外,转换后的数据尺度不同于原始数据,给数据的解释也带来了一些困难。对数据进行转换(多数是非线性的转换),然后进行克里格插值,并对结果进行逆变换,克里格估计必定会发生错误。所以,实际工作中通常不进行转换,不过给出数据分布对于结果的影响分析还是有意义的。如果要避开数据分布的问题,可以考虑使用析取克里格方法(参阅周国法和王政权的论文和书籍)。
  2.样本数量影响
  克里格分析方法需要较多的数据。一般认为,该数据量不应该小于100,计算中的样本对最小不应小于20,否则结果可能不稳定。
  以铁卜加样区为例,部分采样的样本数为32个,得到的半方差模型和插值结果很差(图 7.19)。
  图 7.19 样区部分采样的各向同性的半方差模型
  3.不同方差变异模型和参数对插值结果的影响
  影响方差变异函数的基本参数有四个:块金,基台,变程和方差变异函数类型。我们对蚁蝗密度的方差变异函数进行分析,结果的对比使用交叉分析的误差方差值。
  1)块金
  块金取值从0到0.3,间隔0.1。在本例子中,随着块金的增加,误差增大,如图7.20。
  图7.20 块金对克里格插值的影响
  2)基台
  改变不同的基台值,对结果影响不大。基台值的变化,相当于考虑了各向异性的影响。
  3)变程
  变程从0.7开始,间隔0.7取值,直到5.6。在本例子中可获得一个最佳的变程,使得误差具有最小值,如图7.21所示。
  图7.21变程对克里格插值的影响
  4)变异函数类型
  不同的函数类型对结果的影响很大。如果将变异模型中的函数改为球状函数而不是指数函数,则误差方差可以增加到8.56。合适的函数的确定,不仅要考虑拟合的精度,而且要考虑是否符合生物学过程。在地质学上经常使用球状模型,但是对于生物学而言,指数模型可能更合适一些。
  根据多人的工作总结,建议使用的克里格插值的工作步骤如下:
  1)分析数据的分布特征,进行必要数据转换;
  2)分析数据的空间变化趋势;
  3)确定变异方差的函数类型;
  4)选择合适的搜索半径和临近数据点数,选取合适的插值方法进行插值;
  5)结果分析和检验。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 相邻像素相关性是什么 的文章

 

随机推荐