admin管理员组

文章数量:1530853


2024年6月15日发(作者:)

20214474

基于XGBoost的大宗商品价格预测

田秋红,廖文琪,欧阳汉

(贵州财经大学,贵州贵阳550025)

【摘要】大宗商品已成为财富管理与资产管理的重要内容,通过搜集数据发现大宗商品价格走势规

律,对辅助投资者选择合适的大宗商品进行投资等具有重要的意义。文章通过待预测的6种有色金

属和5种辅助有色金属数据(包含6种日交易数据),7种市场指标(包含7种日交易数据)。解决的

问题是在考虑有色金属具有时序性的情况下,通过了解背景知识和对数据的探索,创建了7类新的

特征,并根据每一个待预测金属的不同待预测时间点的标签,筛选出对该金属有着较大影响的特征。

在有效数据的筛选上,分别选取2003—2017年(缺失钯、铂、银3种金属数据)和2013—2017年

(包含所有纽约金属交易所的金属数据)建立XGBoost模型进行对比发现,2013—2017年模型的预

测结果好于2003—2017年模型的预测结果;在模型选取上,根据筛选不同金属的特征,建立Cat-

Boost、SVM、XGBoost3个模型进行对比,结果显示XGBoost的预测结果明显好于另外两个模

型。因此,最终选取2013—2017年的数据和XGBoost作为训练数据和最终的模型,然后对每一种

待预测金属建立模型(共18个),分别预测各种金属在2018年1d、20d、60d的涨跌情况。

【关键词】大宗商品;XGBoost;特征工程

【中图分类号】F713.32;F274【文献标识码】A【文章编号】1674-0688(2021)04-0150-03

1研究意义及现状

大宗商品电子交易市场作为一种新兴的交易方式,对促进

流通现代化、实现流通创新具有重要意义。目前,中国经济的

迅速发展,特别是城市化、市场化进程不断加快,贸易企业数

量持续增长,形成对大宗商品市场的巨大需求。如果采用最直

接也是最简明的大宗商品投资方式,直接购买大宗商品进行投

资,可能会产生很大的运输成本和储存成本,投资者很少采用

这样的方式。因此,通过搜集数据发现大宗商品价格走势规

律,辅助选择合适的大宗商品进行投资等有着重要的意义

[1]

华仁海等人(2004)利用协整检验和Granger因果检验方

法对国内外期货市场商品进行实证检验,得到不同期货交易之

间可能存在长期均衡关系或协整关系

[1]

。曹旭等人(2017)基于

机器学习中的支持向量机模型,选取大宗商品中金融属性最强

的黄金,对黄金价格进行预测,并初步尝试构建一个择时策

略。最后预测黄金价格的SVM模型,初步构建了一个择时交

易策略,并给出在回测样本中的回测结果

[2]

。陈宇韶(2018)提

出将皮尔森特征筛选与XGBoost算法结合的预测方法预测股

票收盘价。以A股市场600677股票为例,采用皮尔森相关

系数分析法提取重要特征,并生成高相关特征的数据集,再基

于数据挖掘算法中表现极为优异的XGBoost框架,结合特征

工程处理,取得良好的训练预测效果

[3]

约商品交易所(COMEX)数据集、一些市场指标(Indices)数据

集、待预测金属的标签(Label)4类数据集,每一类数据集又分

为训练集数据集和验证集数据集。

本文所使用的数据时间线如图1所示。

本文所使用的数据时间线为训练集:2003-01-02至

2017-12-29,总共有3790个数据;验证集:2018-01-

02至2018-01-02,总共有253个数据。

2.2数据探索和数据预处理

2.2.1数据探索

(1)基础数据查看。以铝(Aluminium)1d为例进行基

础数据查看,发现共有3种类型的数据,分别是int64、ob-

ject和float64,其中Unnamed:0为无意义的数据;Un-

named:0.1为交易日期,、、High.

Price、为铝金属的日交易数据;交易量(Vloume)

数据则存在缺失情况,缺失243条数据。

(2)标签分布。在查看完所有的数据后发现,除了标签之

外,所有的数据均为连续性变量,因此查看一下标签的分布情

况,6种有色金属的涨跌情况分布较为均衡。

2.2.2数据预处理

(1)缺失值填补。由于数据是基于时间序列进行变化的,

2数据分析及数据清洗

2.1数据分析

biendata竞赛提供了伦敦金属交易所(LME)数据集、纽

图1数据时间线图

【作者简介】田秋红,女,贵州遵义人,贵州财经大学大数据统计学院硕士研究生,研究方向:经济社会统计、数据挖掘;廖文琪,男,贵州遵义

人,贵州财经大学大数据统计学院硕士研究生,研究方向:经济社会统计、数据挖掘;欧阳汉(通讯作者),男,贵州贵阳人,厦门大学经济学博

士,贵州财经大学大数据统计学院副教授,研究方向:数据挖掘,宏观经济模型。

150

QiyeKejiYuFazhan

20214474

如果对缺失值进行均值填补或者中位数填补时,有可能会用到

来自未来的数据,为了避免使用到未来数据而导致模型过拟

合,选择后值填补,即使用前一天的非空值对当天的数据进行

填补

[4]

(2)时间线筛选。对数据探索之后发现,除了纽约商品交

易所中的钯、铂、银3种金属的基础数据丢失严重,要到

2013-11-11,日交易数据才较完整;其余的数据在这个时

间点后,也都基本完整。因此,为了在选择更多金属数据而舍

弃2003—2013年的数据还是选择更长的时间线而舍弃钯、

铂、银3种金属之间做一个简易的模型对比,一个是不包含

钯、铂、银3种金属的2003—2017年模型,一个是包含着

3种金属的2013—2017年模型,都采取XGBoost模型,

AUC结果见表1。

通过对比发现,2013—2017年的模型比2003—2017

年的模型效果要好很多,说明对预测金属来说,在保证一定数

据量时,更多的相关金属种类数据的重要性是大于过于长的时

间、但缺少相关金属种类数据的,因此对有效数据的筛选时间

线是2013-11-11至2017-12-31的有关数据。

3特征工程

3.1特征构造

在了解股票涨跌、大宗商品相关的背景知识和查看相关文

献之后,基于有色金属的有关基础数据创建7类特征

[5]

range、hl、oc、MA、std_dev、rsi、Williams%R

。其中,

创建移动平均线时,分短期、中期、长期指标,短期指标包含

3d、5d、10d,中期指标包含30d、75d,长期指标包含

255d;创建相对强弱指数时,选择的是6d、12d、24d的

数据;创建威廉指数时,选择的是12d、24d的数据。

3.2特征选取

常见的特征选择方法有过滤法、嵌入法、包装法

[6]

。在这

里选择基于XGBoost的特征重要性排名,在71个特征中选

取了前30个特征作为模型的特征。

在分别对1d、20d、60d的6种金属进行特征筛选

后,将出现在筛选后的6种金属特征中的特征进行统计。其

中,1d的共同特征共有10个,20d的共同特征共有6个,

60d的共同特征共有8个。具体来看,对1d的金属涨跌预测

来说,纽约金属交易所中的铜和钯金属影响比较大,在6种金

属预测中都出现了这两种金属的当日开盘收盘价格差、交易量

和最高最低价格差,以及待预测金属自身属性中的交易量和涨

表1不同时间段的结果

时间线Al(

铝)

Cu(

铜)

Pb(

铅)

Ni(

镍)

Sn(

锡)

Zn(

锌)

均值

2003—2017年0.5210.5210.5300.5480.5390.5310.532

2013—2017年0.5710.5850.5680.5670.5610.5790.572

跌幅。对20d的金属涨跌预测来说,中期移动平均线中的季

线和长期的移动平均线更为重要,6种金属的特征选择中都出

现了中期移动平均线中的季线和所有的长期移动平均线,然后

就是市场指标中的波动率指数和欧洲斯托克50指数。对60d

的金属涨跌预测来说,纽约金属交易所中钯、铂、银3种金属

的个人持仓量出现比较多,然后是长期移动平均线和市场指标

的沪深300指数、美元指数的影响比较大

[7]

4模型选择与评估

本文专注于铜、铝、铅、镍、锌及锡6种有色金属。通过

构建模型,分别预测1d、20d、60d3个时间段的有色金属

价格走势方向(涨/跌)。选择CatBoost、XGBoost、SVM

3种模型对数据进行拟合,根据AUC进行模型筛选,根据模

型结果显示可得,XGBoost的预测效果均比CatBoost和

SVM预测效果好,因此决定采用XGBoost进行预测。为了

比较特征筛选后与特征筛选前的模型效果对比,设定了包含所

有特征的模型1和只含有筛选特征的模型2,选取2013-

11-11后的800条数据作为训练集,后面的246条数据作为

测试集,将数据代入XGBoost模型进行训练。

结果发现,只含有筛选特征的模型2的性能整体都要好于

包含所有特征的模型1。因此,选择特征筛选后的模型2作为

最终模型。最终选择了特征筛选之后的数据集和XGBoost模

型对最后的验证集进行预测,最终准确率为65.11%。

5结论与启示

在考虑有色金属具有时序性的情况下,针对有色金属的收

盘价格创建新的、更有代表性的特征,并针对不同的金属和不

同的预测目标进行不同的特征选择。同时,需要选择一个适宜

的模型,可以通过多种方式进行尝试,根据模型效果选择合适

的模型,并对模型进行优化。针对每一种待预测金属的不同预

测时间点,分别建立了一个模型(共18个模型)进行预测。由

于各个不同的模型对数据的拟合程度不同,所以最终选取了在

各个金属的预测中表现都比较好的XGBoost模型。

文中存在一些不足之处,在特征创建时,只对待预测金属

的交易数据进行了处理,如果对市场指标、纽约金属交易所的

数据也进行滑动窗口的处理,效果可能会更好;对相对强弱指

数、威廉指数的时间线选取如果像移动平均线一样长,可能体

现的价值也会更全面。创造移动平均线,选取的是简单移动平

均算法,这种处理方式的滞后性比较强,如果采取滞后性更弱

的算法,例如分型自适应移动平均或赫尔移动平均,可能会有

不一样的结果。市场内,本文只考虑了有关金属的交易数据和

市场指标,没有考虑金融机构发布的有关研报和新闻;市场

外,没有考虑整体的国际形势和政治、政策因素对有色金属带

来的影响

[8]

(下转第154页)

QiyeKejiYuFazhan

151

20214474

23.68%、16.49%、51.94%,资产负债率变化不大,都低于

50%,说明债权人的利益可以得到保障。但在2018年,资产

负债率却高于50%,此时债权人的利益无法得到有效保证。

3佳云科技其他财务指标分析

3.1经营活动产生的现金流量净额变动指标

公司所从事的互联网营销业务,上游为各种广告媒体企

业,包括“小米”、“华为”、vivo等主流手机厂商,以及百度、

今日头条等互联网企业,下游为有广告投放需求的广告主,涵

盖电商、游戏、汽车等领域的知名企业。佳云科技处在业务链

条的中间环节,开展业务时先向上游媒体企业支付款项采购媒

体广告投放资源,对下游客户则根据广告投放消耗情况确认收

入且收入的结算一般存在信用账期,经营模式及收入确认的会

计政策决定了公司在业务快速增长阶段资金占用有所增加,因

此2018年呈现出经营活动现金流量净流出31433万元。

由年报数据可知,经营活动产生的现金流量净额由正转

负,反映了企业经营活动产生的现金流量自我适应能力不够

强,通过互联网广告销售的经营活动收取的现金已无法满足经

营本身的需要。

图1事件窗口的股票收盘价变动指标

着投资者持有100元公司的股票较公告日前平均每日减少15.8

元,短期内的亏损金额很大,公司的市值也因此蒸发较大。

4结语

综上,不论是四大能力的分析还是其他财务指标的分析,

可以发现佳云科技在2014年并购发生时,业绩很好,而后在

业绩承诺期内逐步下降,尤其是在业绩承诺期的最后一年,公

司的财务状况不太乐观。因此,对于上市公司而言,首先,应

当规范并购行为,并在并购前充分了解标的资源各方面情况。

其次,对被并购企业的情况一定要充分了解,避免因业绩承诺

和补偿条款而对被评估标的未来获利能力过分高估进而给出高

额合并对价。最后,并购方可以允许进入被并方产业中进行实

地调查,对标的资产的超额收益能力及未来发展的空间做出客

观的评估,给出合理的并购对价,避免发生盲目给出高额估值

而增大商誉减值风险的并购行为。

3.2事件窗口的股票收盘价变动指标

本文将公司2018年度报告(更新后)的发布公告之日(2019

年4月30日)作为事件日,设定事件发生日及之后6个交易日

作为事件窗口期

[3]

。如图1所示,通过在事件窗内的股票收

盘价可以看出,在公司公布2018年报的当天,公司的股价

由上一个交易日的5.29元每股下降至4.8元每股,价格降低

了9.26%,收盘价在事件窗内最低降至3.97元每股,说明外

部投资者在接收到佳云科技公司2018年经营业绩和财务状况急

速下滑的情况下,对公司的发展前景和未来盈利状况不再抱有积

极和乐观的态度,纷纷选择出售手中的股票,导致公司的股票价

值在短短一周内,较公告发布前三日平均下降了15.8%,意味

(上接第151页)

参考文献

[1]刘洋,王雨.上市公司的财务报表分析———以古井贡酒

为例[J].财会研究,2021(4):167-170.

[2]赵东娟.以岭药业盈利模式研究[D].河北:燕山大学经

济管理学院,2018:13-43.

[3]庄云枫.“好想你”并购“百草味”的动因及绩效分析[D].

安徽:阜阳师范学院商学院,2019:15.

注释

[D].济南:山东大学,2017.

[3]陈宇韶,唐振军,罗扬,等.皮尔森优化结合Xgboost

算法的股价预测研究[J].信息技术,2018(9):92-97.

[4]唐亚平.基于移动电信数据个人征信模型研究[D].北京:

北京邮电大学,2017.

[5]钟一鸣.大宗商品价格波动的影响因素探析———以基本

金属铜为例[J].中国管理信息化,2012(16):48-49.

[6]张靖.面向高维小样本数据的分类特征选择算法研究

[D].合肥:合肥工业大学,2014.

[7]蒋剑辉,朱颖菲.上海有色金属价格指数(SMMI)与伦

敦金属期货交易所指数(LMEX)的相关性研究[J].浙江

统计,2008(9):6-8.

[8]孙静娴.有色金属行业环境信息披露及其影响因素分析

[D].南京:南京大学,2012.

①range:涨跌幅,表示当日的收盘价与前一日收盘价价格差

异的比值;hl:表示当日最高价和最低价的差;oc:表示当

日开盘价格和收盘价格的差;MA:表示收盘价的移动平均

线,反映价格变动的趋势;std_dev:表示收盘价格过去一

段时间的平均方差线;rsi:相对强弱指数,通过过去一段

时间收盘价平均涨数和平均跌数来分析市场;Williams%R:

威廉指数,利用摆动点度量市场的超买超卖现象。

参考文献

[1]华仁海,陈百助.国内、国际期货市场期货价格之间的

关联研究[J].经济学(季刊),2004(2):727-742.

[2]曹旭.基于SVM的黄金价格预测模型及其参数优化

154

QiyeKejiYuFazhan


本文标签: 数据模型金属预测