首 页 组成人员 封面文章 海商论坛 品牌培育 管理在线 企业文化 刊号索引 联系我们 登录   
基于 XGBoost 与 LSTM 的商业银行盈利预测模型的应用
 

基于 XGBoost 与 LSTM 的商业银行盈利预测模型的应用

王兵韬

      【摘要】商业银行是现代金融体系的主体,盈利水平是商业银行生存发展的动力之源,精准的盈利预测模型对于增强商业银行经营盈利能力至关重要。本文以 ROA为预测指标,根据 A 股上市银行业年度面板数据,用 XGBoost、LSTM 和 Stacking 模型(以XGBoost 和 LSTM 为基模型)建立商业银行盈利预测模型,并对比不同模型的预测效果。研究结果表明,Stacking 模型在预测银行 ROA 时效果最优;商业银行 ROA 预测更适合特征交互强的算法而非纯时序模型;对银行规模和所有权进行细分,提高了模型对某些特定群体的预测准确性。
      【关键词】XGBoost;LSTM;商业银行;盈利预测;Stacking 模型
引言
      银行业作为金融体系的核心,关系国民经济发展全局。在金融市场中,商业银行板块是 A 股市场的压舱石,是长期投资的标杆,同时也维护着指数的稳定。提升商业银行的盈利能力是保持商业银行可持续发展,增强金融韧性的核心支撑。科学地预测商业银行盈利能力的变化趋势,事关商业银行的长远经营。
      在传统的银行盈利预测方法中,简单统计、决策树分析方法居多,其具有算法简单易解释等优点,但也存在预测精度差等缺点。近年来,虽然深度学习、机器学习算法对金融时间序列建模预测有着良好的预测效果,但现阶段对于银行分类研究,LSTM 及 XGBoost 等算法,特别是 Stacking 算法在商业银行盈利预测中存在的适用性研究相对缺乏。迟国泰教授在上市公司违约风险预警研究中,采用最优元分类器构建集成模型,使违约预测精度显著提升,预测性能普遍优于多种基准模型。由于Stacking 模型强大,可提高模型预测准确率,因此本文将在商业银行盈利预测中重点应用 Stacking 模型,并探究各模型之间的差异。
      基于此,本文一方面丰富了商业银行盈利能力预测的理论探讨,另一方面也给银行业的实践操作提供了可借鉴的经验与启示。
一、数据处理与特征工程
      本文采用 A 股上市银行的 2007—2022 年度的面板数据,总共有 44 家银行的样本数据,数据来源于 Wind 金融终端。数据预处理主要包括数据缺失值处理、异常值处理、特征工程等。
      缺失值处理采用前向填充和后向填充相结合的方法。异常值处理采用四分位方法。
      为详细评估银行盈利能力,本文以 ROA(资产回报率)作为直接衡量银行利用其总资产创造净利润的效率的目标特征。特征工程方面,选择与目标特征 ROA 相关性高的特征。在原有特征的基础上,添加了新比率,如效率比率(管理费用 / 营业收入)、杠杆效率(总资产 / 净资产);以宏观与微观相结合产生交互性特征捕捉宏观经济变化如何影响商业银行的微观表现;为捕捉持久性、揭示中长期趋势,对“ROA”“净息差”“不良贷款率”等指标构造了三期滞后。选取的 34 个特征分成三个层次,宏观层次特征捕捉外部冲击,中观层次特征反映区域差异和行业结构,微观层次特征作为评估银行经营状况的核心财务指标直接衡量银行本身。
二、模型构建与参数优化
      (一)XGBoost 模型
      为使 XGBoost 回 归 模 型 预 测 效 果 显 著, 本 文 使 用Optuna 框架进行贝叶斯优化,通过 3 折交叉验证评估泛化性能,减少过拟合风险,更高效地在所定义的参数区间内进行智能搜索,更快地找出接近全局最优的参数组合,最终确定最优 XGBoost 模型。
      (二)LSTM 模型
      本模型为捕捉盈利能力的中期趋势和周期性,构建了一个专门用于银行 ROA 预测的堆叠双向 LSTM 模型,进行层次化特征提取。底层 LSTM 捕捉基本的时间模式,高层 LSTM 在此基础上学习更复杂的长期依赖和抽象关系。该模型集成了注意力机制,自动学习并赋予重要时间步更高的权重。采用了严谨的时间序列交叉验证,通过Optuna 进行自动化超参数优化,充分考虑了商业银行时间序列数据的时间依赖和面板数据结构等特征。
      (三)Stacking 模型
      构建前瞻性智能混合堆叠集成模型,以 XGBoost 和LSTM 模型为基模型,优化集成模型性能,使用 OOF 预测和时序交叉验证来减少过拟合,根据 MSE 和 MAE 性能为基础模型动态分配权重,融合 XGBoost 擅长捕捉表格数据中的非线性模式和特征交互以及 LSTM 捕获时间依赖性和序列模式的优点。以堆叠模型的综合得分选择最佳元模型,将“模型置信度”作为特征,帮助元模型理解预测的可靠程度,最终形成银行 ROA 预测量身定制的高度先进的集成框架,成为进行商业银行盈利预测的强大工具。
三、结果与分析
      (一)模型性能比较
      从表 1 可知,本文选取的模型性能远超传统盈利预测模型线性回归的表现,且线性回归的决定系数为负数,说明该模型不太适合本文预测任务。XGBoost 模型表现优于LSTM 模型,更擅长捕获表格金融数据中的非线性特征交互,使其有更好的预测准确性和解释力。这表明商业银行数据具有结构化特点,各特征之间存在明显的非线性关系,时间模式不占主导地位。但 LSTM 模型 KSStat 最低,p 值最高,表明其残差更接近正态分布,反映了 LSTM 模型平滑建模序列模式的能力优势。
      尽管本文对单一模型进行了超参数优化、模型架构升级和功能提升,以求做到单一模型极致,但 Stacking 模型在几乎所有指标性能对比上均全方位显著优于单一模型,捕获了单独模型无法捕获的复杂关系,特别是最小化误差幅度和决定系数方面,表明其预测精度、稳健性和解释力最高,显著提升了模型性能。

 

 

      (二)银行分类分析
      为更好地进行商业银行盈利ROA预测,并理解中国商业银行体系的异质性与韧性,本文按规模(大型银行和中小银行)和性质(国有银行和股份制银行)对银行进行分类分析,然后用全面的评估指标对比盈利预测模型在不同类型银行数据上进行预测的效果,以提升盈利预测模型的可解释性和可扩展性。
      评估结果如表 2 所示,大型银行的 RMSE 和 MAE 都显著低于其他类型银行,说明模型误差极小,适用于高精度决策;模型可以解释 93.6% 的大型商业银行 ROA 波动,解释力极强,可支持管理层战略决策。这些都表明模型有效捕捉了大型银行稳定、结构化的财务数据特征。模型在RMSE 0.0837 0.1290 0.0602 0.1692中小型银行上表现较弱,误差相对较大,说明中小型银行数据的变异性和噪声较大。
      模型在国有银行上的表现优于股份制银行,说明模型在国有银行的预测准确性高于股份制银行,相对误差
更低,但决定系数和 ksp-value 的差异说明模型在股份制为更好地进行商业银行盈利 ROA 预测,并理解中国商业银行体系的异质性与银行的方差方面稍微有优势,残差正态性较好;国有银银行进行分类分析,然后用全面的评估指标对比盈利预测模型在不同类型银行数行的残差分布呈现更明显的偏斜或尖峰特性,但未严重偏离正态分布。
      此外,与模型在所有数据上的预测性能相比可知,汇总模型的表现不如大型银行,与国有银行相当,优于模型在股份制银行和中小银行的表现。这显示模型在商业银行盈利预测上具有强大的泛化能力,能够平衡各个类别的优势和挑战。

 

 

 四、结论与建议
      基于上述实证分析,本研究得出以下主要结论与建议:特别是这两方面的预测准确性得到很大提升。这反映出 Stacking 集成模型为行
      (一)大型银行和国有银行业务稳定性高,历史数据预测力强,政策导向强,风险吸收能力强,管理者应重点监控业务连续性和政策合规性,可适当降低风险指标监控频率,重视业务多元化指标。中小银行和股份制银行收入波动性大,需更关注当期风险和趋势变化,建立动态风险预警,实时监控不良贷款率和资本充足率,突出风险调整后的收益指标。
      (二)对银行规模和所有权进行细分,提高了模型对某些特定群体的预测准确性,特别是方面的预测准确性得到很大提升。这反映出 Stacking 集成模型为行业范围内的预测提供了一个实用的替代方案,它结合了不同银行类型的特定模式,平衡了不同银行类型的准确性和稳健性,适用于银行业的广泛应用。
      (三)银行业金融机构应积极采纳 Stacking 集成预测模型。集成学习机制智能地融合了 XGBoost 和 LSTM 各自优势,弥补了独立模型的局限性,在原有模型的基础上实现了一个结构先进、灵活且高性能的商业银行 ROA 盈利预测模型。
参考文献
[1] 王洁 . 商业银行会消亡吗? [D]. 中国社会科学院研究生院 ,2003.
[2] 刘春红 . 银行股板块对上证综合指数的影响分析 [J]. 金融经济,2013,(02):69-71.DOI:CNKI:SUN:JRJJ.0.2013-02-029.
[3] 何其慧 .S 商业银行盈利能力提升对策研究 [D]. 长春工业大学,2024.DOI:10.27805/d.cnki.gccgy.2024.001101.
[4] 杨佃霞 . 基于决策树模型的我国商业银行盈利能力研究 [D].哈尔滨工业大学 ,2011.
[5] 张 小 晨 . 基 于 XGBoost 与 LightGBM 算 法 的 商 业 银 行 盈利能力成长性预测模型的比较分析 [D]. 天津财经大学 ,2020.DOI:10.27354/d.cnki.gtcjy.2020.000715.
[6] 迟国泰 , 王珊珊 , 王逸然 . 基于 Stacking 方法的上市公司违约风险预警研究 [J]. 系统工程理论与实践 ,2025,45(02):481-502.

 
 
地址:上海市新闸路945号311室   邮编:200041   电话:021-52282229,62727208   传真:021-62727208        E-mail: sh62727208@163.com
版权所有 上海商业杂志社  客户管理
制作单位    商益科技(电话:021-62710011)
沪ICP备案20019254号
 沪公网安备(备案办理中)号
网站访问量:928859