admin管理员组

文章数量:1530517

2024年6月19日发(作者:)

中国生态农业学报 (中英文) 

2024年3月  第 32 卷  第 3 期

Chinese Journal of Eco-Agriculture, Mar. 2024, 32(3): 490−504

DOI: 10.12357/cjea.20230257

徐宁, 李发东, 张秋英, 艾治频, 冷佩芳, 舒旺, 田超, 李兆, 陈刚, 乔云峰. 基于机器学习和未来气候变化模式的埃塞俄比

亚粮食产量预测[J]. 中国生态农业学报 (中英文), 2024, 32(3): 490−504

XU N, LI F D, ZHANG Q Y, AI Z P, LENG P F, SHU W, TIAN C, LI Z, CHEN G, QIAO Y F. Crop yield prediction in Ethiopia

based on machine learning under future climate scenarios[J]. Chinese Journal of Eco-Agriculture, 2024, 32(3): 490−504

基于机器学习和未来气候变化模式的埃塞俄比亚粮食

产量预测

1,2131

*

徐 宁, 李发东, 张秋英, 艾治频, 冷佩芳, 舒 旺, 田 超, 李 兆,

41**

陈 刚, 乔云峰

(1. 中国科学院地理科学与资源研究所生态系统网络观测与模拟重点实验室 北京 100101; 2. 中国科学院大学中丹学院 

北京 100049; 3. 中国环境科学研究院 北京 100012; 4. 美国佛罗里达州立大学 塔拉哈西 32306)

11,211

摘 要: 对于以农业产业为支柱的埃塞俄比亚, 粮食供应和安全对国家安全和人民的生计尤为重要。由于作物生长

和气候因素之间的复杂耦合关系, 预测气候变化对农作物产量影响具有较大难度, 机器学习技术为这种复杂系统变

化的预测提供了一种有效途径。本研究利用37个全球气候模式(GCM)的数据以及土壤数据, 基于机器学习模型,

预测了埃塞俄比亚2021年至2050年5种主要粮食作物在SSP1-2.6、SSP2-4.5和SSP5-8.5情景下的产量变化。

经GCM和变量的筛选后, 利用梅赫季和贝尔格季中5种主要粮食作物的10个产量数据对直方图梯度提升决策树、

极端梯度提升随机森林、轻梯度提升决策树、随机森林、极限树以及K近邻6种机器学习模型进行训练。经过模

型评估, 选择表现良好的3个模型, 采用线性回归算法进行堆叠, 然后使用堆叠模型进行预测。研究结果表明, 未来

30年埃塞俄比亚梅赫季5种主要粮食作物产量变化以增产<2 t·hm为主; SSP126情景下的贝尔格季将出现更明显

的减产现象, 这可能是由于温室效应的减缓降低了CO

2

的施肥效应。随着人类活动造成的生态环境恶化, 研究区农

业生产对粮食结构改变和重新分配生产力的需求不断增长, 导致农作物生产力向新的适宜地区转移。研究区在

SSP126和SSP585情景下将分别因为干旱缓解和温室效应加剧而获得更高的粮食作物生产力。

关键词: 粮食产量; 机器学习; 气候变化; 全球气候模式; 埃塞俄比亚

中图分类号: S562; S162.54

−2

Crop yield prediction in Ethiopia based on machine learning under future

*

climate scenarios

XU Ning, LI Fadong, ZHANG Qiuying, AI Zhipin, LENG Peifang, SHU Wang, TIAN Chao, LI Zhao,

41**

CHEN Gang, QIAO Yunfeng

(1. Key Laboratory of Ecosystem Network Observation and Modeling, Institution of Geographic Sciences and Natural Resources Research,

Chinese Academy of Sciences, Beijing 100101, China; 2. Sino-Danish College, University of Chinese Academy of Sciences, Beijing 100049,

China; 3. Chinese Research Academy of Environmental Sciences, Beijing 100012, China; 4. Florida State University, Tallahassee 32306,

USA)

1,213111,211

Abstract: Crop yield and agricultural development are the foundation of human survival. In Ethiopia, where agriculture is the eco-

nomic backbone, food supply and security are crucial for national security and people’s livelihoods. Crop yield is greatly influenced

* 国家自然科学基金国际(地区)合作与交流项目(Y88X0100AE)资助

** 通信作者: 乔云峰, 研究方向为水资源与水文学。E-mail: ****************.cn

徐宁, 研究方向为农业生态系统碳循环。E-mail: 183****************

收稿日期: 2023-05-11 接受日期: 2023-07-08

* This study was supported by Funds for International Cooperation and Exchange of the National Natural Science Foundation of China (Y88X0100AE).

** Corresponding author, E-mail: ****************.cn

Received May 11, 2023; accepted Jul. 8, 2023

第 3 期徐 宁等: 基于机器学习和未来气候变化模式的埃塞俄比亚粮食产量预测

491

by climatic conditions, but the coupling relationship between them has not been clearly explained, which poses difficulties for quantit-

atively analyzing crop yields under climate change. The development of machine learning techniques provides a method for predict-

ing changes in such complex systems. This study predicts the changes in the yield of five major staple crops in Ethiopia from 2021 to

2050 by using machine learning methods combined with climate predictions from Global Climate Models (GCMs) under different fu-

ture scenarios in the Sixth Coupled Model Intercomparison Project (CMIP6). Data on 9 climate variables from 37 GCMs under four

scenarios (i.e., historical, SSP1-2.6, SSP2-4.5 and SSP5-8.5) in CMIP6 were obtained. A Taylor diagram was used to select the best-

performing GCMs and calculate their weighted averages. These averages were combined with five soil indicators to form an inde-

pendent variable database. After removing highly correlated variables using Spearman’s correlation coefficient, machine learning

models were trained using 10 yield data variables of teff, maize, wheat, barley and sorghum for two major growing seasons in

Ethiopia from 1995 to 2020 as dependent variables. This paper employed histogram gradient boosting (HGB), extreme gradient boost-

ing random forest (XGBRF), light gradient boosting machine (LGBM), random forest (RF), extra trees (ET) and K-neighbors as ma-

chine learning models. After model evaluation, the top-performing three models were stacked using linear regression. The independ-

ent variables were input into the final model to predict the yields of the 5 main staple crops in Ethiopia from 2021 to 2050. The res-

ults were analyzed, and the following conclusions were drawn. 1) CMCC-CM2-SR5, MPI-ESM1-2-LR, EC-Earth3-Veg-LR, EC-

Earth3-Veg and MPI-ESM1-2-HR obtained higher overall scores in the Taylor diagram analysis, indicating better simulation of cli-

2

mate in Ethiopia compared to other GCMs. 2) The coefficient of determination (R), mean absolute error (MAE), and explained vari-

ance score (EVS) of the XGBRF, RF and ET were higher than those of HGB, LGBM and K-neighbors. The stacking method of en-

semble learning improved the performance of the ensemble model over individual models. 3) Over the next 30 years, the changes in

crop yield during the Meher season (the longer growing season in Ethiopia, which is generally from April to December) were mainly

−2

within 2 t·hm. In the Belg season (the shorter growing season in Ethiopia, which is generally from February to September), there

was a greater decrease in yield under SSP126 scenario, while the other two scenarios showed an increase, possibly due to the mitiga-

tion of greenhouse effects reducing the fertilization effect of CO

2

. 4) With intensification of social conflicts and environmental de-

gradation caused by human activities, there is a growing need in the research area to change the agricultural structure and redistribute

productivity, and this leads to the transfer of agricultural productivity to new suitable areas. Under SSP126 and SSP585 scenarios, the

research area will achieve higher crop productivity due to the alleviation of drought conditions and the exacerbation of greenhouse ef-

fects, respectively. Results of this study demonstrate the changes in crop yield in the research area under different future climate

change scenarios, providing references for determining agricultural production potential and formulating agricultural policies in the

research area.

Keywords: Crop yield; Machine learning; Climate change; Global Climate Model; Ethiopia

尽管全球绿色革命取得了成功, 粮食产量提高

了100%~200%

, 但全球仍有超过10亿人面临饥饿

和营养不良的困境。在非洲, 粮食缺乏尤为严重,

21.5%的人口处于高度粮食不安全状态, 高于全球平

均水平的9.2%

[3-5]

[2]

[1]

济路径-代表性浓度路径情景(SSP-RCP)模拟不同的

未来发展情景, 并通过全球气候模式(GCM)

[28]

进行

气候变化预测。GCM是模拟当前和未来气候变化

的重要工具, 可以使研究人员更 好地了解气候变化

在区域尺度上对作物生产的影响。

近年来, 随着人工智能的快速发展, 机器学习逐

渐被引入各个应用领域的研究中。机器学习应用于

产量预测的主要优势是能够基于复杂的非线性农业

数据建立作物产量预测模型

[32]

[31]

[30]

。埃塞俄比亚是粮食不安全情况最

严重的国家之一

, 因此农业对于埃塞俄比亚人民的

生活至关重要, 在严酷的气候条件下粮食产量的变

化也严重影响着该国的粮食安全。

气候变化影响下的全球粮食安全问题是21世纪

最重要的挑战之一

[7-11]

[6]

。Gonzalez-Sanchez

。通过研究气候变化对玉米

[12-21]

选择了10种作物, 利用5种机器学习模型构建

[33]

(Zea mays)、小麦(Triticum aestivum)和水稻(Oryza

sativa)等作物生产的影响

水资源

[22-23]

了作物产量预测模型并评估了每种机器学习算法的

表现。Filippi等结合多属性数据划分生长期, 并

[34]

, 以及气候变化对流域

[25]

、森林

[24]

、工业和自然景观的影响

,

构建随机森林产量预测模型。Khanal等采集了土

学界发现气候变化是影响作物年产量的最重要因素

之一, 气候变化的不确定性将大大增加粮食生产的

不确定性。

气候变化情景是基于一系列气候关系和辐射强

迫假设对未来气候的合理描述

[26-29]

壤样本, 结合多光谱影像数据, 构建了玉米产量预测

模型。综合来看, 机器学习在作物产量预测方面的

精度优于一般统计方法, 通过选取适当算法、合理

添加关键参数、精准调参等优化后的机器学习可胜

任数据稀缺地区(如埃塞俄比亚)粮食产量预测。

埃塞俄比亚约有9100万人口, 位居非洲第二

,

[35]

。第六次国际耦

合模式比较计划(CMIP6)应用了最新的共享社会经

492

中国生态农业学报(中英文) 2024第 32 卷

其主要粮食作物有玉米、苔麸(Eragrostis tef)、大麦

(Hordeum vulgare)、小麦、高粱(Sorghum bicolor)及

各种豆类。该国农业产业规模较小、作物生产力

不高, 同时粮食生产结构较为单一, 这就直接导致了

该地区农业敏感性较高, 抵御气候波动的能力较差。

与此同时, 严重的水土流失和干旱也对其农业生产

造成不良影响

[37-38]

[36]

[35]

未来粮食生产情况进行分析。

1 材料与方法

1.1 研究区概况

埃塞俄比亚位于非洲东北部(3°~15°N, 33°~

48°E), 国土面积112.68万km, 北部、南部、东北部

的沙漠和半沙漠约占领土面积的28%。65%的国土

为可耕地, 实耕13.2万km

, 其中粮食耕地占3/4

2[36-37]

2

。自“一带一路”倡议中明确把非

[19]

洲纳入“21世纪海上丝绸之路”以来, 东非国家在“一

带一路”合作中所处的地位愈发重要

, 其中埃塞俄

比亚的发展对“一带一路”倡议在非洲的推进发挥着

重要作用。粮食安全作为保障埃塞俄比亚健康发展

的重点抓手, 是我国国家战略推进的关键制衡因素,

也是实现联合国可持续发展目标的国际研究热点。

鉴于此, 本研究拟以埃塞俄比亚为研究区, 基于

历年作物产量数据、未来气候变化模式模拟数据和

其他农业相关的环境及社会经济数据, 针对埃塞俄

比亚产量排名前五的粮食作物(即苔麸、玉米、高

粱、小麦和大麦), 利用多种机器学习算法训练产量

预测模型并进行预测, 通过多种模型结果的分析

对比, 确定表现最佳的机器学习算法, 进一步结合

CMIP6中提供的SSP-RCP情景, 预测研究区2050年

之前不同未来情景下粮食产量的变化, 并对研究区

埃塞俄比亚地区海拔主要分布在2500~3000 m。国

家划分3级行政区级别, 分别是州(Region)、区

(Zone)、县(Woreda), 行政区划如图1所示。埃塞俄

比亚分布有7种气候类型, 兼有热带气候、温带气

候以及干旱气候。高海拔地区年平均气温约为15

℃, 低海拔地区年平均气温约为25 ℃。此外, 埃塞

俄比亚平均年降雨量在西部出现极大值(>2000

mm·a), 在东北低海拔地区以及东南部出现极小值

(<200 mm·a)

−1

−1[5-6]

1.2 数据准备

1.2.1 粮食产量数据

通过检索联合国粮食及农业组织统计数据库

(/faostat/en/#home)、埃塞俄比亚中

央统计局数据库(/), 获取1995—

44°E48°E32°E36°E40°E

14°N14°N

12°N

州 Region

区 Zone

12°N

10°N10°N

8°N8°N

6°N6°N

4°N

1400 km

40°E44°E48°E

4°N

32°E36°E

图 1 埃塞俄比亚行政区划

Fig. 1 Administrative division of Ethiopia

第 3 期徐 宁等: 基于机器学习和未来气候变化模式的埃塞俄比亚粮食产量预测

493

2020年埃塞俄比亚市级5种主要粮食作物(即苔麸、

玉米、小麦、大麦和高粱)单位面积产量数据, 其原

始数据的产量单位均为t·hm。

埃塞俄比亚全年粮食生产活动主要划分为两个

主要生产季: 梅赫季(Meher season)和贝尔格季(Belg

season)。梅赫季(每年的4—12月)粮食产量约占全

年粮食产量的90%以上, 其粮食的主要生长时间为

7—9月; 贝尔格季为每年的2—9月, 粮食的主要生长

时间为4—5月。研究中所使用的作物产量数据包

含该作物当年梅赫季产量和贝尔格季产量。由于贝尔

格季作物产量较低, 且部分地区不适宜粮食作物种植,

该季数据在时间和空间尺度上的缺失均较为严重。

1.2.2 GCM数据

本研究所使用的未来气候变化模式数据是

CMIP6中参与模式比较的GCM模拟结果数据。从

CMIP6项目官方网站的下载通道(esgf-node.

/search/cmip6/)收集了37个数据较为完整的

常用GCM, 附表1中为所选取的GCM列表及相关

信息(见文后电子版链接)。选取GCM中数据相对

较全的9个变量: 近地面比湿度(huss)、降水量(pr)、

近地面气压(ps)、地面下行短波辐射量(rsds)、近地

面气温(tas)、近地面日最高气温(tasmax)、近地面

日最低气温(tasmin)、近地面东向风速(uas)和近地

面北向风速(vas)。变量信息如表1所示。

−2

表 1 研究初步选用的未来气候变化模式气候参数列表及信息

Table 1 List and information of preliminarily selected Global Climate Model (GCM) variables

名称 Name

近地面比湿度 Near-surface specific humidity

降水量 Precipitation

近地面气压 Surface air pressure

地面下行短波辐射量 Surface downwelling shortwave radiation

近地面气温 Near-surface air temperature

近地面日最高气温 Daily maximum near-surface air temperature

近地面日最低气温 Daily minimum near-surface air temperature

近地面东向风速 Eastward near-surface wind speed

近地面北向风速 Northward near-surface wind speed

代号 Alias

huss

pr

ps

rsds

tas

tasmax

tasmin

uas

vas

单位 Unit

1

kg∙m∙s

Pa

W∙m

K

K

K

m∙s

m∙s

−1

−1

−2

−2−1

本研究所选取的全球气候模型 GCM变量均源

自于统一的实验场景设置, 即在模型运行次数(Run)、

初始条件(Initialization)、物理方案(Physics)以及强

迫数据(Forcing) 4个方面均采用第1个方案(均标记

为1), 即r1i1p1f1。具体而言, 本研究包括历史情景

(historical)以及3个代表性浓度路径(Shared So-

cioeconomic Pathways, SSPs), 分别为SSP1-2.6 (SSP-

126)、SSP2-4.5 (SSP245)和SSP5-8.5 (SSP585)。这

些情景将被分别应用于历史及未来气候变化数据的

计算与分析中。此方法论的应用旨在确保模型输出

的一致性与可比性, 为评估不同气候情景下的潜在

变化提供了坚实的基础。

ERA5提供了大量大气、陆地和海洋气候变量的每

小时估计值

[40-41]

。具体使用的数据集为ERA5-land

的月平均数据, 它与ERA5的其他部分相比分辨率更

高, 为0.1°(≈9 km)。选取的变量为1995—2020年2 m

空气温度、总降水量、地面下行短波辐射量、10 m

东向风速、10 m北向风速作为降尺度输入数据。

1.2.4 土壤性质数据

土壤属性分布情况在空间尺度上极大程度地影

响了粮食种植和产量分布。本研究将土壤属性参数

作为不随时间变化的空间分布属性参与模型计算。

选取国际土壤参考和资料中心(ISRIC)土壤信

息数据库中的SoilGrids250m 2.0

[42]

数据集作为土壤

1.2.3 格点化再分析数据

GCM输出结果是基于大尺度(比如大陆尺度)

的气候数据, 空间分辨率较低, 一般在百公里尺度以

上。统计降尺度方法是提高GCM预测精度的常用

方法, 该方法可以通过使用真实或近似真实的高分

辨率历史气候数据作为参考, 将低分辨率的GCM输

出数据转化为较为准确的高分辨率气候数据。

本研究选择ERA5 (欧洲中期天气预报中心)数

据作为高分辨率历史气候数据参与GCM降尺度。

[39]

属性参数数据(/)。SoilGrids的输

出结果是6个标准深度间隔的全球土壤属性地

图, 空间分辨率为250 m。本研究中首批参数选择

5~15 cm深度土壤的容重、阳离子交换量、总氮、

pH、有机质含量作为土壤参数。为缩减运算量, 选

择SoilGrids中低分辨率(5 km)子数据库。

1.3 原始数据优化

1.3.1 GCM模型评价和筛选

使用泰勒图和技能得分进行37个GCM表现的

494

中国生态农业学报(中英文) 2024第 32 卷

比较, 泰勒图是气候模式评价中应用较为广泛的一

种方法

[43-46]

值, 得到各个变量的最优模型集合平均值(M

MME

), 并

作为机器学习模型的输入数据。M

MME

的计算方法

如下:

, 它主要通过相关系数、均方根误差和标

准差对GCM的表现进行综合评判。对于给定的N

个散点数据的相关系数(R)、模拟场(X

mi

)的标准差

(d

m

)、观测场(X

oi

)的标准差(d

g

)和均方根误差

(RMSE)的计算方法分别如下:

)()]/

()

1

[(

X

mi

−X

m1

×

X

oi

−X

o1

R=

×

d

m

×d

g

N

i=1

N















N





T



n





M

MME

=

Mod



n



N







n=1







T

n



n=1

(6)

(1)

式中: N为最优模型集中的模型个数, 即为5;

T

n

为第

n个模型的得分;

Mod

n

为第n个模型的模拟结果。

本文标签: 模型产量数据作物