【Objective】Spatial prediction is an important approach to obtain location-specific values of soil organic matter (SOM), which is an important figure of soil fertility and farmland management properly. This study was performed to compare different digital soil spatial mapping methods of SOM to get better prediction accuracy and to reveal the spatial non-stationarity characteristics of environmental covariates and the spatial scale of different environmental covariates at the same time. 【Method】In this study, the digital soil spatial mapping method was used, which was a combination of Multiscale Geographically Weighted Regression Model with simple Kriging of the residuals (MGWGK) for mapping SOM in seven towns from Jinzhong Basin. The performance of MGWRK with those of Ordinary Kriging (OK), Regression Kriging (RK), and Geographically Weighted Regression Kriging (GWRK) were compared to explore the relationship between influence factors and SOM on the influence degree and space scale. 【Result】Based on the stepwise regression method, 13 indexes were selected as environmental covariables in the modeling, including aspect, slope, height, annual average precipitation, annual average temperature, gross primary productivity (GPP), evapotranspiration (ET), topographic wetness index (TWI), plan curvature, stream power index (SPI), terrain position index (TPI), terrain ruggedness index (TRI), and the annual NDVI. In the multiple linear regression (MLR), the formula had statistical significance. In the Radius index, the performance of each model was in order from good to bad: RK, OK, GWRK, MGWRK. In the mapping performance, MGWRK was close to GWRK, and both of which were better than OK method and RK method. The SOM in the study area, showed a spatial pattern of higher in middle than east and west side, among which the SOM was high in the east of the Fenhe river and the Changyuan river. The influence of aspect, annual average precipitation, annual average temperature, height, TPI and the annual NDVI on SOM in the eastern of the study area was stronger than that in the western. Whiles slope, GPP, ET, plan curvature, SPI and TRI showed opposite influence in spatial. The influence of TWI on SOM was stronger in the northern than the southern. 【Conclusion】The spatial prediction accuracy of MGWRK was 69% of RK, 71.74% of OK, and 71.17% of GWRK. MGWRK performed well in the spatial non-stationary features and the spatial visualization, which provided a reference for prediction of SOM and description spatial non-stationarity characteristics.
Keywords:soil organic matter (SOM);soil mapping;multiscale geographically weighted regression kriging (MGWRK);geographically weighted regression kriging (GWRK);regression kriging (RK);non-stationarity

0 引言

【研究意义】土壤有机质是土壤的重要组成部分[ 1],土壤有机质对于作物生长[ 2]、土壤肥力[ 3]、环境保护[ 4]等方面有着重要的作用,出于有机质的重要性,土壤有机质制图就尤为重要,土壤有机质制图对于揭示土壤有机质空间分布、农业管理以及生态环境等诸多方面都有着巨大的推动作用。对土壤有机质的空间分布及预测能够为农业管理和生态建设提供有力依据,探究土壤有机质与环境协变量之间的空间非平稳特征可以更加明确不同影响因子对土壤有机质的影响程度及空间变化。【前人研究进展】近年来利用地理加权回归方法分析土壤有机质的空间分布及空间非平稳性特征已有报道[ 5, 6, 7, 8, 9, 10, 11],吴春生等[ 5]利用高程、年均气温、年均降雨量以及归一化植被指数4个协变量完成地理加权回归建模,提高了有机质空间预测精度;陈琳等[ 6]对比了不同空间回归技术的预测精度,证实了地理加权回归克里金(GWRK)的预测精度优于普通克里金(OK)、逐步回归克里金(SWRK);ZENG[ 7]等对比了混合地理加权回归方法、GWR等多种空间预测方法的模拟效果,展示了混合地理加权回归的良好应用前景。【本研究切入点】地理加权回归的应用非常广泛,涉及林业[ 12, 13]、环境[ 14, 15, 16]、城镇化[ 17]、交通[ 18]等众多领域,但是利用多重尺度地理加权回归克里金方法分析有机质分布及空间非平稳性特征却鲜有报道。【拟解决的关键问题】本研究利用多重尺度地理加权回归克里金(multiscale geographically weighted regression kriging,MGWRK)方法选取坡向、坡度、年均降水量、年平均温度、海拔、植被年总初级生产力、年蒸散量、地形湿度指数、平面曲率、汇流动力指数、地形指数、地形粗糙指数、年平均NDVI共13个环境协变量对土壤有机质进行建模,探究不同协变量的空间非平稳性特征和尺度效应,并与普通克里金(ordinary kriging,OK)、回归克里金(regression kriging,RK)、地理加权回归克里金(geographically weighted regression kriging,GWRK)对比分析各自的预测精度与制图效果。旨在获得更高精度的有机质空间分布结果以及不同影响因素的空间非平稳性特征,为土壤管理和空间分析提供依据和参考。

1 材料与方法

1.1 研究区概况

本研究选取晋中平原中平遥县的7个乡镇作为研究区域。研究区位于平遥县西北部,是山西省晋中盆地腹地位置,境内多为平川。研究区属温带大陆性半干旱季风气候,平均气温12℃,年平均相对湿度58%,年均降水量502 mm,主要分布在7—9月份。主导风向春秋冬季为西北风,夏季多为东南风,年平均风速2.1 m·s-1。种植作物以玉米为主,土壤类型以潮土为主,部分地区为盐土、褐土。

1.2 土壤采样与数据来源

样品采集于2010年春季作物种植前,依据《耕地地力调查与质量评价技术规程》(NY/T 1634—2008),用不锈钢土钻等工具,在每个田块中采用“S”法布点采样,以GPS定位点作为中心,向四周辐射多个分样点,每个混合土样取15个以上分样点,每个分样点的采土部位、深度、数量保持一致,采样深度为0—20 cm,共采集样点2 616个,采样点分布见 图1。土壤有机质(SOM)采用重铬酸钾加热法[ 19]测定。数字高程数据(digital elevation model,DEM)来自中国科学院计算机网络信息中心地理空间数据云网站(www.gscloud.cn),各地形因子均由DEM数据计算得出。气象数据来自国家气象信息中心中国气象数据网(http://data.cma. cn/)。研究中所用遥感数据均来自NASA网站(https://earthdata.nasa.gov/),2009年植被年总初级生产力(gross primary productivity,GPP)数据来自MOD17数据集,2009年蒸散(evapotranspiration,ET)数据来自MOD16数据集,2009年平均NDVI数据来自MOD13数据集。环境协变量数据列于 表1。


新窗口打开| 下载原图ZIP| 生成PPT

Fig. 1Study area and soil sample sites

Table 1
Table 1 List of environmental covariate data
Data type
Terrain data
坡度 Slope
海拔 Height
地形湿度指数 Topographic wetness index, TWI
平面曲率 Plan curvature, PC
汇流动力指数 Stream power index, SPI
地形指数 Terrain position index, TPI
地形粗糙指数 Terrain ruggedness index, TRI
Meteorological data
年平均降水Annual mean precipitation, PRE
年平均温度 Annual mean temperature, TEM
Remote sensing data
年植被总生产量GPP (From MOD17A2)
年蒸散量 ET (From MOD16A2)
年平均NDVI (来自MOD13A1,使用最大合成法求得)
Annual mean NDVI (Data from MOD13A1, obtained by Maximum Value Composites method)

新窗口打开| 下载CSV

1.3 研究方法

1.3.1 普通克里金(OK) 普通克里金(ordinary kriging,OK) 基于空间自相关性和二阶平稳假设[ 20],依据估算误差最小和半方差函数分析,赋予一定邻域内样点不同权重后,计算样点值加权和即为插值结果。其中半变异函数公式为:


1.3.2 回归克里金(RK) 回归克里金[ 21]是多元线性回归(multiple linear regression,MLR)与克里金插值方法的结合,通过多元线性回归方法获取预测模型,对预测产生的残差进行普通克里金估计,将趋势值与残差项相加得到最终预测结果。本研究使用的多元线性回归方法为普通最小二乘法(ordinary least square,OLS),是因变量yi与自变量xi的多元线性函数:

$y_i=\beta_0+\sum\limits_{i=1}^m\beta_i x_i+\varepsilon_i$

回归克里金[ 22]的公式如下:

$Z=m(x_i)+ e(x_i)$

1.3.3 地理加权回归克里金(GWRK) GWRK[ 23]是地理加权回归(geographically weighted regression,GWR)模型与克里金插值方法的结合,也可视为是RK的改进,RK是全局回归模型[ 24],在RK中多元线性回归假设因变量与自变量的关系在空间上不随着空间位置的变化而变化,而GWRK为局部回归模型。地理加权回归[ 25]是众多空间回归技术应用最为广泛的一种,建立模型的过程中考虑到了各样点的空间位置以及不同位置中自变量与因变量关系的变化,揭示在空间尺度中自变量与因变量的关系。

假定共n个观测点,观测点为i∈{1, 2, ..., n},每个观测点的位置为(ui,vi),参与建模的自变量共m个。GWR模型[ 26]的表达式如下:


核函数和有效带宽[ 26]是GWR建模过程中最重要的两项指标。核函数可用于确定空间权重,包括高斯函数、双平方函数和指数函数,核函数在运行过程中可采用不同的类型,包括固定核函数和自适应核函数[ 13],若观测点均匀分布时可采用固定核函数,否则选择自适应核函数,本研究使用自适应高斯函数进行空间权重确定。由于GWR是移动窗口回归方法的一种,而带宽则是核函数的重要性质之一,带宽与核函数原理详见文献[ 26],有效带宽的确定方法包括修正赤池信息量准则(corrected akaike information criterion,AICc)、赤池信息量准则(akaike information criterion,AIC)、贝叶斯信息准则(bayesian information criterion,BIC)等,本研究采用修正赤池信息量准则(AICc)确定模型带宽,原则是AICc最小化,以此作为确定带宽的标准,其中AICc的计算公式如下:



1.3.4 多重尺度地理加权回归克里金(MGWRK) MGWRK是多重尺度地理加权回归(multiscale geographically weighted regression,MGWR)方法与克里金方法的结合,也可看做是对于GWRK的改进。MGWR[ 27]是FOTHERINGHAM等提出的一种基于有效带宽优化从而使每个自变量都具有不同的空间带宽的地理加权回归方法。与GWR不同的是,GWR确定的模型带宽是所有自变量共用的,而实际情况中不同的自变量的空间尺度效应和对因变量的影响程度是不一样的,所以MGWR方法考虑到了这一点,MGWR方法使每个自变量都有各自的有效带宽,即为多重尺度。MGWR模型如下:


在本研究中,MGWR与GWR模型的核函数和核类型均保持一致,核函数均采用高斯函数,核函数采用自适应核函数。两种模型最大的区别就是确定有效带宽的方法,有效带宽的本质即是空间尺度,也正是确定带宽方法的不同决定了MGWR多重尺度的特性。有效带宽的选择对于模型计算结果影响巨大,我们可以将有效带宽看作一个具有平滑性质的参数,当有效带宽太大有可能造成整个研究区域的参数相似,掩盖研究变量的局部特征;而有效带宽太小则会造成过多的局部变异,难以识别研究空间变量之间的规律[ 28]。选取一个最优带宽避免以上两种极端情况,提供良好的空间关系描述效果就显得尤为重要。

在MGWR模型中,在不同的自变量中有着不同的带宽,这也意味着在建模中不同自变量在同一位置将具有完全不同的空间权重矩阵,在GWR模型中使用的具有平滑作用的参数(有效带宽)将不再适用于MGWR模型。MGWR模型中采用向后拟合(Back-fitting)算法[ 27]进行模型校正。首先使用GWR模型计算的各位置自变量参数以及模拟结果(y)作为初始化,使用这些初始值(βbwjxj)以及求得的残差(ε=ym j=0βbwjxij),残差加当前的βbwjxjβbwjxj),利用GWR模型将该值与x0(第一个自变量)进行回归,此时得到因变量与x0之间的参数βbw0的局部估计,即得到了因变量与x0之间的最优带宽bw0。接下来使用更新后的βbwjxj与下一个自变量x1进行同样的过程,得到直到所有的自变量(x0,x1,…,…, xm)都完成该过程( 图2)。


新窗口打开| 下载原图ZIP| 生成PPT
图2MGWR模型的向后拟合(Back-fitting)算法[ 27]

Fig. 2Back-fitting algorithm for multiscale geographically weighted regression model (MGWR)

1.4 模型评价

本研究使用平均误差(ME)、平均绝对误差(MAE)、均方根误差(RMSE)评价模型精度[ 29],这三项指数的公式如下:

式中,n是用于验证的观测点数量,Z(xi)是实测值,Z*(xi)是模型预测值。理论上MAE和RMSE越接近于0模型预测效果越好。在一些研究中3个指标很难同时达到最佳水平,所以除上述指标外,引进YANG等[ 29]提出的Radius指数(式 10),以便于结合3个指数确定最优模型。


2 结果

2.1 环境协变量选择及MLR建模

土壤有机质的影响因素众多,在多元线性回归建模选取变量的过程当中需要考虑如下因素[ 30, 31]: (1)各环境协变量对于有机质的分布有显著影响,影响极其微弱的不予考虑;(2)各环境协变量在空间分布中具有一定的空间异质性;(3)各环境协变量之间不存在多重共线性,这也是多元线性回归建模的必要条件之一。

本研究选取坡向、坡度、年均降水量、年平均温度、海拔、植被年总初级生产力、年蒸散量、地形湿度指数、平面曲率、汇流动力指数、地形指数、地形粗糙指数、年平均NDVI共13项指标( 图3)作为建模的环境协变量,以有机质作为因变量。其中环境协变量之间的多重共线性诊断以容差和方差膨胀因子(VIF)作为依据,容差越小,表明该自变量作为因变量进行回归分析时被其他变量解释的程度越高,越可能存在严重的共线性,容差合理的范围是(0.1,+∞);方差膨胀因子是容差的倒数,若其值≥10,说明自变量间可能存在严重的共线性现象[ 32],模型的共线性诊断结果见 表2。其中VIF均未超过10,故认为在该模型中不存在严重的多重共线性现象。


新窗口打开| 下载原图ZIP| 生成PPT
图3环境协变量空间分布坡向以正北为0°,顺时针计数,-1为平地 Aspect direction is defined as zero degrees due north, clockwise count, -1 is flat

Fig. 3Spatial distribution of environmental covariates

Table 2
Table 2 Model multicollinearity test
指标Index容差 ToleranceVIF
坡向Aspects (°)0.9931.007
坡度Slope (°)0.5481.824
年均降水量Annual mean precipitation (mm)0.5141.944
年平均温度Annual mean temperature (℃)0.4172.400
海拔Height (m)0.6701.493
植被年总初级生产力Gross primary productivity (kgC·m-2)0.2164.636
年蒸散量Evapotranspiration (mm)0.1945.168
地形湿度指数 Topographic wetness index0.6521.534
平面曲率Plan curvature0.9281.078
汇流动力指数 Stream power index0.9801.021
地形指数 Terrain position index0.7301.369
地形粗糙指数 Terrain ruggedness index0.5481.824
年平均归一化植被指数 The annual NDVI0.8931.120

新窗口打开| 下载CSV

对土壤有机质以及各环境协变量进行描述性统计( 表3),可以看出,不同环境协变量的变异系数是不同的,其中地形指数的变异系数是最大的,年均降水量的变异系数是最小的。

Table 3
Table 3 Descriptive statistics of soil organic matter and environmental covariates
Standard deviation
Coefficient of variation (%)
有机质Soil organic matter (g·kg-1)2.1033.0013.915.0125.0936.00
坡向Aspects (°)-1.00359.12180.32106.6411373.1359.14
坡度Slope (°)0.0033.376.844.6021.2067.36
Annual mean precipitation (mm)
Annual mean temperature (℃)
海拔Height (m)690.00927.00744.0422.77518.463.06
Gross primary productivity (kgC·m-2)
年蒸散量Evapotranspiration (mm)248.43461.20358.9537.471403.9810.44
Topographic wetness index
平面曲率 Plan curvature-
汇流动力指数 Stream power index-167350.0011730.90-3405.6918999.56360983218.24-557.88
地形指数 Terrain position index-21.4921.78-0.474.8823.78-1040.39
Terrain ruggedness index
The annual NDVI

新窗口打开| 下载CSV



式中,SOM为土壤有机质,Aspects为坡向,Slope为坡度,Pre为年均降水量,Tem为年平均温度,Height为海拔,GPP为植被年总初级生产力,ET为年蒸散量,TWI为地形湿度指数,PC为平面曲率,SPI为汇流动力指数,TPI为地形指数,TRI为地形粗糙指数,NDVI为年平均归一化植被指数。对模型进行方差检验,F统计量[ 33]为43.39,模型具有统计学显著意义,即回归方程有效。


2.2 各模型预测结果空间变异

对不同模型的残差结果空间半变异函数拟合( 图4),模型参数及最优模型见 表4。3种模型残差值半变异函数的最优拟合模型从指数模型、高斯模型和球状模型[ 34]中选取。GWR残差的半变异函数最优拟合模型为高斯模型,其他最优拟合模型均为指数模型。从块金系数[ 35]可以看出,各模型残差最优模型的块金系数均小于50%,这意味着模型预测过程的残差具有空间结构性,使用各自的半变异函数进行空间插值,结果见 图5。


新窗口打开| 下载原图ZIP| 生成PPT

Fig. 4Semivariogram


新窗口打开| 下载原图ZIP| 生成PPT

Fig. 5Map of different Model residuals (MLR residuals, GWR residuals, MGWR residuals)

Table 4
Table 4 Semi-variogram of the results of each model
Fitting model
Range (m)
Nugget/Sill (%)
MLR残差 MLR residualsE10.5921.20226549.95
GWR残差 GWR residualsE0.383.7263610.22
MGWR残差MGWR residualsE0.812.2965735.37
Study select optimization model from Exponential model(E), Gaussian Model(M) and spherical model(S)

新窗口打开| 下载CSV

2.3 各模型评价

各模型评价指标见 表5,从Radius指数来看,各模型模拟效果由好到差依次为:RK、OK、GWRK、MGWRK。MGWRK模型的空间预测精度相对于其他模型欠佳,而RK模型的空间预测精度则表现最优。

Table 5
Table 5 Evaluation index of each model
模型 ModelRMSEMAEMER2Radius

新窗口打开| 下载CSV

2.4 各模型土壤制图结果

根据以上分析及模型参数,依照不同模型绘制土壤有机质分布图( 图6)。可以看出4种不同的土壤制图方法,得到空间基本趋势是类似的。MGWRK与GWRK方法的效果相对其他两种方法更为平滑,这可能是由于两种方法考虑了各环境协变量的空间非平稳性特征导致的,OK和RK两种方法高低值交错明显,“牛眼”现象明显,与有机质空间实际分布情况不符。从制图效果来看,GWRK方法与MGWRK方法的效果相当。


新窗口打开| 下载原图ZIP| 生成PPT

该图制图的空间分辨率为30 m The mapping spatial resolution is 30 m
Fig. 6Soil mapping results of each model

土壤有机质在研究区呈现东西两侧偏低,中部偏高的空间格局。其中汾河以东、昌源河流经区域土壤有机质普遍偏高,沿河土壤的土壤水分受到河流影响,而土壤水分影响着土壤有机质的分解与转化过程,土壤微生物的活动与土壤水分密切相关,土壤水分过高时土壤中形成厌氧环境,从而改变土壤有机质的分解过程与产物,进而影响土壤有机质含量;土壤水分过低时则有可能影响土壤微生物的生存状况,降低土壤微生物的活性[ 36]

2.5 有机质影响因子回归系数空间分布

结合土壤有机质及回归参数的统计特征、多元线性回归方程可知,在全局尺度上土壤有机质与全氮、年均降水量呈现正相关关系,土壤有机质与其余指标均呈现负相关关系。但在实际情况中随着地理位置的变化因变量与自变量之间的关系也是变化的,即空间非平稳性,MGWR模型针对不同环境协变量使用不同的空间尺度,在进行空间预测的同时也对自变量在每个空间位置的回归参数局部估计[ 37]。为了避免建模过程当中不同变量的数量级对回归系数的相对大小造成影响,在对比影响因素随着位置变化影响程度的不同时使用经过z分数方法标准化后的局部回归系数进行空间非平稳性特征描述,即标准化回归系数。



新窗口打开| 下载原图ZIP| 生成PPT

Fig. 7Standardized regression coefficient distribution of soil organic matter influencing factors


图7-c中,年均降水量的标准化回归系数范围在-1.41—2.37之间,整体呈现东高西低的空间格局,在东部区域降水量偏少(低于500 mm),此处表现为正相关影响,即在该部分区域内降水量越大有机质随之增加;而在西部区域降水量相对较大,表现为负相关影响,即在此区域内降水量越大有机质越小。





图7-h中,地形湿度指数的标准化回归系数范围在-3.09—2.19之间,整体呈现北高南低的空间格局,正负值区域参半。TIW在宁固乡北部影响程度最为微弱,此时TWI的范围大致为10.81—10.91,TWI反映土壤水分的干湿状况[ 38],从而间接地说明在一定土壤水分范围内对有机质的影响程度达到最弱。

图7-i中,平面曲率的标准化回归系数范围在-1.42—1.31之间,整体呈现东低西高的空间格局,正负值区域参半。结合 图3,研究区的平面曲率在宁固乡最接近0,即地形更为平整[ 6],此处有机质也是增长幅度最大的,表现为正相关影响。东部地形变化较为剧烈的区域均表现为负相关影响。


图7-k中,地形指数的标准化回归系数范围在-1.65—1.36之间,整体呈现东高西低的空间格局,正值区域占大部分。TPI在研究区东部达到最大,TPI的标准化回归系数也达到了最大水平,即在地形变化剧烈[ 38]的区域有机质变化也是剧烈的。

图7-l中,地形粗糙指数的标准化回归系数范围在-1.48—1.71之间,整体呈现东低西高的空间格局,正负值区域参半。TRI在研究区呈现东高西低的空间格局,恰恰与标准化回归系数相反,TRI<1.98时标准化回归系数达到最小,即地形异质性[ 39]越小有机质的增长幅度越大。当TRI>8.59时标准化回归系数达到最大,即地形异质性越大有机质的减少幅度越大。

图7-m中,年平均NDVI的标准化回归系数范围在-2.83—1.42之间,整体呈现北高南低的空间格局,正负值区域参半。结合 图3,NDVI在研究区南部达到最小,北部达到最大,在北部有机质随着年平均NDVI的增加而增加,越往北增加幅度越大,反之越往南随着NDVI的减少有机质随之降低且降低幅度变大。

2.6 MGWR与GWR模型带宽对比

GWR模型及MGWR各协变量的最优带宽见 图8,可以清楚地看出,两种模型在带宽方面有着截然不同的特性,在MGWR模型中各协变量均有着不同的带宽,而GWR模型仅有一种带宽,不同环境协变量的空间非平稳性特征有着不同的空间尺度,GWR模型中忽视了这种空间尺度效应,而MGWR模型对这种特性加以描述并参与建模,达到了可观的效果。


新窗口打开| 下载原图ZIP| 生成PPT

Fig. 8Bandwidth comparison of MGMR and GWR

a: Aspect of MGWR; b: Slope of MGWR; c: Annual mean precipitation of MGWR; d: Annual mean temperature of MGWR; e: Height of MGWR; f: Gross primary productivity of MGWR; g: Evapotranspiration of MGWR; h: TPI of MGWR; i: Plan curvature of MGWR; j: SPI of MGWR; k: TPI of MGWR; l: TRI of MGWR; m: NDVI; n: Intercept of MGWR; o: Geographically Weighted Regression (GWR)

3 讨论

为了更加全面地探究MGWRK方法精度比GWRK方法精度低的原因,对MLR、GWR和MGWR 3种方法的预测精度也进行评价( 表6),并结合文章2.3部分的模型评价绘制Radius指标的弧度图( 图9)。由图表可以看出,MGWR模型的Radius指标比GWR模型降低了141.8024,GWRK的Radius指标相对于GWR降低了218.94,MGWRK相对于MGWR仅降低了38。MGWR模型的表现优于GWR模型,但MGWRK模型的表现却逊于GWRK模型。结合 图5,对比不同模型的残差空间分布图,GWR的残差高低交错结构明显,这也是GWR模型中带宽固定的结果;而MGWR的残差空间分布图高低交错并没有GWR的残差明显,这是因为MGWR模型中不同自变量的带宽不同对残差的空间分布造成影响而导致MGWRK预测精度相对于GWRK模型有所降低。

Table 6
Table 6 Evaluation index of others model
模型 ModelRMSEMAEMER2Radius

新窗口打开| 下载CSV


新窗口打开| 下载原图ZIP| 生成PPT

Fig. 9Radius indices shown in an arc diagram for different models



4 结论



