白话空间统计之九:方向分布(标准差椭圆)修正版

摘要:
它用于测量一组数据的方向和分布。首先,确定圆心和方向分布工具的中心。在空间统计中,计算X和Y的方差以获得长半轴和短半轴。当特征具有空间正态分布时,第一级标准偏差(默认值)可以包括占总特征的约68%的输入特征的质心。该计算主要与中心点的位置和椭圆的标准偏差等级生成的椭圆的大小有关。尽管2001年疾病的方向性不如2000年明显,但长半轴几乎垂直于长江,这一点基本可以得到证实。

文章用红色字体标记出来的内容是修正后的内容,感谢四川的杨同学对我曾经的错误提出指正。

最终写到我最喜欢的一个的工具(算法)了。方向分布是虾神我接触的第一个空间统计工具,也是每次讲空间统计必需要讲的一个,也是对点数据分析中非常实用的一个工具。

点模式的分析中,通常会考察例如以下五种内容:

1、点的疏密。包含点数据的分布探索,是否一致、均匀或者不均匀。

2、点的方位。包含点的分布和方向。

3、点的数量:多少(极值和均值)。

4、点的大小:代表的含义(如点一个点代表多少人口)。

5、其它,如点的一些动态变化等。

(关于点数据分析的其它具体的内容,请看虾神曾经的文章,或者再公众号里面回复“点分析”)

当中,我们前面说的好几种算法,如中心要素、中位数中心和平均中心,都是关于点方位的分析,那么今天我们要讲的这个算法,就是同一时候对点的方向和分布进行分析的一种经典算法——标准差椭圆。

这算法最早是由美国南加州大学(Universityof Southern California)社会学教授韦尔蒂.利菲弗(D. Welty Lefever)在1926年提出。所以有的书里面。也把这个算法称为Lefever's "Standard DeviationalEllipse"(利菲弗方向性分布)(又到每天的历史起源科普时间……)。

这个算法最大的特点,就如同他的名词一样。是用来度量一组数据的方向和分布的。生成的结果又正如他的别名一样,会输出一个椭圆,例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第1张

红色的点是伤寒发病的案例,蓝色的河流是长江太湖流域段,从计算的结果来看,发病的数据方向与长江的流向方向基本一致,而范围较大。

从上图,我们基本上就能够看出方向分布工具的主要作用了,它能够识别一组数据的方向以及分布的趋势,而且了解到这份数据是否具有一些特性。至于有哪些特性,我们后面再说。

我们先来看看这个标准差椭圆的生成算法。

事实上算法非常easy,要画出一个椭圆,尽管比画圆麻烦点。可是也麻烦不了多少,关键的參数例如以下:

1、确定圆心。

2、确定旋转角度。

3、确定XY轴的长度。

首先是确定圆心,方向分布工具的圆心。直接利用的是算数平均中心来计算椭圆的圆心(算术平均中心请查看我在2015817日写的《空间统计之八:平均中心和中位数中心》一文)

然后就确定椭圆的形式了,公式例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第2张

当中。XiYi是每一个要素的空间位置坐标。XY是算数平均中心。

SDExSDEy就是计算出来的椭圆的方差,总所周知。椭圆的大小取决于方差大小。长半轴表示最慷慨差。短半轴表示最小方差。在空间统计上面,用XY的方差进行计算,得到长短半轴。

然后确定椭圆的方向,以X轴为准,正北方(12点方向)为0度。顺时针旋转。计算公式例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第3张

最后确定XY轴的标准差。公式例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第4张

标准差的作用是确定椭圆的方程,一般椭圆方程例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第5张

S是置信度的值,能够依据数据量来查询卡方概率表(Table:Chi-Square Probabilities)。这个大家有兴趣去百度一下就有了。

把全部的数据都带入到公式中,就非常easy的把全部的參数都计算出来。接下去仅仅须要再地图上画出结果即可。

那么这个椭圆揭示了一些什么意义呢?

使用ArcGIS的话,方向分布工具除了生成这样一个椭圆以外,还会给出例如以下结果:

白话空间统计之九:方向分布(标准差椭圆)修正版第6张

当中,Shape_LengShape_Area是生成的椭圆的周长和面积。单位与你数据的单位同样,这里我的数据是经纬度的,所以生成的结果仅仅能作为相对參考结果。

CenterXCenterY表示的是椭圆的中心点。

XstdDistYStdDist表示的X轴的长度和Y轴的长度。

Rotation表示的是椭圆的方向角度。例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第7张

结果解读例如以下:

1、椭圆的长半轴表示的是数据分布的方向短半轴表示的是数据分布的范围。长短半轴的值差距越大(扁率越大),表示数据的方向性越明显。反之,假设长短半轴越接近,表示方向性越不明显。假设长短半轴全然相等,就等于是一个圆了。圆的话就表示没有不论什么的方向特征

2短半轴表示数据分布的范围,短半轴越,表示数据呈现的向心力越明显;反之,短半轴越,表示数据的离散程度越大。相同,假设短半轴与长半轴全然相等了,就表示数据没有不论什么的分布特征

3、中心点表示了整个数据的中心位置,一般来说,仅仅要数据的变异程度不是非常大的话。这个中心点的位置大约与算数平均数的位置基本上是一致的,至于数据变异是什么情况,请看以下第4点。

4、有的同学会非常疑惑,为什么你画的这个椭圆,还有非常多的点都在外面。没有把全部的点都包括进去?那么就是就是“标准差椭圆”这个名词里面的“标准差”的含义所在了。

ArcGIS工具里面(其它的工具也都几乎相同),提供了“椭圆大小”(Ellipse_Size)这个參数。这个參数表示你生成的椭圆的级别,一共同拥有三个,例如以下表:

白话空间统计之九:方向分布(标准差椭圆)修正版第8张

三个级别的椭圆,分别表示了你生成的椭圆。可以包括68%95%99%三个级别的数据。我们通过可以指定要表示的标准差数(1、2 或 3)来决定你生成的椭圆包括的数据比例

当要素具有空间正态分布时(即这些要素在中心处最为密集,而在接近外围时会逐渐变得稀疏),第一级标准差(默认值)范围可将约占总数 68%的输入要素的质心包括在内。第二级标准差范围会将约占总数 95%的要素包括在内,而第三级标准差范围则会覆盖约占总数 99%的要素的质心。

所以。当你选择不同标准差等级的时候,你发现你的中心点的位置也可能不同。

当然,作为空间分析工具,方向分布一样能够进行加权计算。这个计算主要还是与中心点的位置确定以及椭圆标准差等级生成的椭圆大小有关系。

以下我们来通过一个实例来了解方向分布工具的应用:

一共同拥有两年的伤寒病数据,例如以下,红色的是2000年的,蓝色是2001年的:

白话空间统计之九:方向分布(标准差椭圆)修正版第9张

使用1个标准差的结果,生成的椭圆如上,详细数据例如以下:

白话空间统计之九:方向分布(标准差椭圆)修正版第10张

我们对关键性的两个指标进行对照:

白话空间统计之九:方向分布(标准差椭圆)修正版第11张

生成面积表示范围,能够发现2000的伤寒病发病情况的范围要大于2001年的,扁率表示他的方向明白性和向心力的程度,2000年生成的椭圆扁率远高于2001年的,说明了2000的伤寒发病情况,比2001年的方向趋势更明显。

2000年生成的椭圆方向与长江的方向基本相相符。所以2000年的伤寒发病源与长江的关系较为密切。而2001年的发病情况尽管方向性并不如2000年的明显,可是长半轴差点儿与长江垂直,能够基本确认。2001年伤寒发病源与长江关系不大,可是呈现向内陆爆发的趋势。

方向分布工具在空间统计中是综合能力最突出的工具之中的一个。有着广泛的应用,在我们的分析和数据探索的时候,可以起到很重大的作用。

最后。列出几个可能的应用:

1、可用来在地图上标示一组犯罪行为的分布趋势。而且可以确定该行为与特定要素(一系列酒吧或餐馆、某条特定街道等)的关系。

2、在地图上标示地下水井样本的特定污染。能够指示毒素的扩散方式,这在部署应急防灾策略时很实用。

3、对各个物种所在区域的椭圆的大小、形状和重叠部分进行比較能够分析与物种入侵或者隔离相关的深入信息。

4、绘制一段时间内疾病爆发情况的椭圆可用于建立疾病传播的模型。

免责声明:文章转载自《白话空间统计之九:方向分布(标准差椭圆)修正版》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇abap 负数前置Ubuntu Navicat for MySQL安装以及破解方案下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Linux 系统中堆栈的使用方法

本节内容概要描述了Linux内核从开机引导到系统正常运行过程中对堆栈的使用方式。这部分内容的说明与内核代码关系比较密切,可以先跳过。在开始阅读相应代码时再回来仔细研究。 Linux 0.12系统中共使用了4种堆栈。第1种是系统引导初始化时临时使用的堆栈;第2种是进入保护模式之后提供内核程序初始化使用的堆栈,位于内核代码地址空间固定位置处。该堆栈也是后来任务...

分布式算法(一致性Hash算法)

转载:https://www.cnblogs.com/moonandstar08/p/5405991.html 一、分布式算法     在做服务器负载均衡时候可供选择的负载均衡的算法有很多,包括: 轮循算法(Round Robin)、哈希算法(HASH)、最少连接算法(Least Connection)、响应速度算法(Response Time)、加权法(...

[转]mongodb与mysql相比的优缺点

原文地址:http://blog.sina.com.cn/s/blog_966e430001019s8v.html 与关系型数据库相比,MongoDB的优点:①弱一致性(最终一致),更能保证用户的访问速度:举例来说,在传统的关系型数据库中,一个COUNT类型的操作会锁定数据集,这样可以保证得到“当前”情况下的精确值。这在某些情况下,例 如通过ATM查看账户...

Oracle 索引 详解

一.索引介绍  1.1 索引的创建语法:  CREATE UNIUQE | BITMAP INDEX <schema>.<index_name>       ON <schema>.<table_name>            (<column_name> | <expression>...

ORA-01653: 表 xxxx 无法通过 8192 (在表空间 USERS 中) 扩展

Oracle中增加表空间大小的四种方法 1:给表空间增加数据文件 ALTER TABLESPACE app_data ADD DATAFILE ‘D:ORACLEPRODUCT10.2.0ORADATAEDWTESTAPP03.DBF’ SIZE 50M; 2:新增数据文件,并且允许数据文件自动增长 ALTER TABLESPACE app_data AD...

做云原生时代标准化工具,实现高效云上研发工作流

本文为 CODING 研发总监 王振威,在腾讯云 CIF 工程效能峰会上所做的分享。 文末可前往峰会官网,观看回放并下载 PPT。 大家好,我是王振威,CODING 研发总监。非常高兴能在这里给大家分享过去一段时间 CODING 的产品思考和升级,并为大家介绍 CODING 战略升级后的重磅新品。 首先,我们来看一下 CODING 的全景产品矩阵。这里...