1 引言 人口密度是单位面积上的人口数量,是表征区域人口分布特征的定量指标[1]。高分辨率人口密度数据集是揭示人口分布规律的基础依据。为在栅格尺度整合人口、资源、环境数据集,推动全球变化的定量研究工作,20世纪90年代初,HDP(The Human Dimensions of Global Environmental Change Programme)第3工作组倡议研制全球人口密度栅格数据集[2],“自上而下的人口普查数据分解算法”[3](含面积加权[4-8]和线性回归[9-22]两类人口密度模型)率先得到了发展,GPW[7]、GHS-POP[8]、WPE[9]、HYDE[16]和 LandScan[19]均是利用此类算法生产的全球人口密度栅格数据产品。2015年联合国可持续发展目标(Sustainable Development Goals,SDGs)认为,栅格人口密度模型的信度和效度亟待改进[23],与之相呼应,近年来随机森林模型在“自上而下的人口普查数据分解算法”[24-27]和“自下而上的人口调查数据估计算法”[28-29]中得到了广泛应用。 然而在构建人口密度随机森林模型时,下列问题并未得到妥善解决,制约了人口密度随机森林模型的信度和效度。①训练样本的数据质量仍受可塑性面积单元问题(Modifiable Areal Unit Problem,MAUP)困扰[30-32]。人口密度属于定比量化指标,改变统计单元的形状或面积,人口密度值将发生变化。人口密度随机森林模型通常以人口普查区[24-27]或人口调查区[28-29]为单位开展采样,此时只能借助聚合运算才能获得建模所需的训练样本数据(含人口密度和影响因子),受MAUP困扰,样本数据质量存疑[33-34]。②模型存在区群谬误问题(Ecological Fallacy)[35]。由于人口密度随机森林模型的输入单元多为人口普查区或人口调查区,输出单元多为公里网格或公顷网格,模型的输入单元粒度远大于输出单元粒度,故模型隐含区群谬误问题。③模型存在混淆人口分布规律问题。以中国为例,在地域辽阔的国土中,存在众多地理区划单元[36],各区划单元的人口分布规律和影响机制存在显著差异[37-39]。仅用一套训练样本构建覆盖中国的人口密度随机森林模型[24,27],会混淆不同区域(例如平原和山区)的人口分布规律[40]。④忽视分区遴选人口密度影响因子。由于人口密度随机森林模型属于监督模型,故引入不同的影响因子,计算所得的人口密度数据集存在显著差异。“千篇一律”的样本模式,不仅存在引入错误影响因子的风险,而且会阻碍探讨“各美其美,美美与共”的人口分布法则和影响机制[34]。 为系统破解上述问题,本文提出了一套人口密度随机森林模型优化方案。发扬地理学中国学派的区划传统,将石家庄划分为平原城镇、平原乡村、山区城镇、山区乡村4个综合禀赋区,通过分区采样,分区建模,克服人口密度随机森林模型混淆人口分布规律的问题;以公顷网格为采样单元,开展分层采样,统一模型输入单元和输出单元的粒度,规避聚合运算,避免训练样本受到MAUP问题困扰,消除模型隐含的区群谬误问题;以模型的平均拟合优度为衡量标准,系统开展递增式影响因子遴选实验;通过对10组独立的人口密度预测数据集的优化组合,提高人口密度栅格数据集的稳定性。 2 材料与方法 2.1 研究区概况 石家庄市是河北省省会,位于37°27'N~38°47'N,113°30'E~115°30'E之间,地势西高东低(图1)。全市(含辛集市)下辖8个区、11个县,3个县级市,总面积14464
。截至2020年11月1日,石家庄市常住人口为1123.51万人[41]。
图1 研究区行政区划与地形 Fig.1 Administrative divisions and terrain of the study area 2.2 数据来源 文中所用主要数据集详见表1。村人口数据集为2007年4月30日24时石家庄市户籍人口分村统计数据,村界、聚落数据集取自第二次全国土地调查数据集,依托上述3个数据集,利用二元加权模型,计算获得聚落人口密度数据集,是文中建模所需的人口密度标签数据集。 文中从自然禀赋、经济禀赋和创新禀赋3个维度选取人口密度的候选影响因子。其中,自然禀赋因子包括海拔高度、地形起伏度、坡度、年均温、年均降水量、距河流距离(包括自然和人工河流)、距自然河流距离;经济禀赋因子包括距POIs距离、距聚落距离;创新禀赋因子包括POIs核密度、聚落核密度、夜光影像。上述数据集全部采用Albers伪圆锥等积投影。各栅格数据集均为GeoTiff格式,栅格尺寸统一为100m×100m,统一了各数据集的四至点坐标。