2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    基于 GBDT 的鐵路事故類型預測及成因分析

                    鐘敏慧 張婉露 李有儒 朱振峰 趙耀

                    鐘敏慧, 張婉露, 李有儒, 朱振峰, 趙耀. 基于 GBDT 的鐵路事故類型預測及成因分析. 自動化學報, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    引用本文: 鐘敏慧, 張婉露, 李有儒, 朱振峰, 趙耀. 基于 GBDT 的鐵路事故類型預測及成因分析. 自動化學報, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    Citation: Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630

                    基于 GBDT 的鐵路事故類型預測及成因分析


                    DOI: 10.16383/j.aas.c190630
                    詳細信息
                      作者簡介:

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為計算機視覺, 機器學習. 本文通信作者. E-mail: mhzhong@bjtu.edu.cn

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為計算機視覺, 深度學習. E-mail: wlzhang@bjtu.edu.cn

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為數據挖掘, 機器學習. E-mail: liyouru@bjtu.edu.cn

                      北京交通大學信息科學研究所教授. 2005年獲中國科學院自動化研究所模式識別國家重點實驗室工學博士學位. 主要研究方向為圖像視頻分析與理解, 計算機視覺, 機器學習. E-mail: zhfzhu@bjtu.edu.cn

                      北京交通大學信息科學研究所教授, 所長. 1996年獲北京交通大學工學博士學位. 主要研究方向為圖像與視頻編碼, 數字水印與取證, 視頻分析及理解, 人工智能. E-mail: yzhao@bjtu.edu.cn

                    • 基金項目:  科技創新 2030-“新一代人工智能”重大項目(2018AAA0102101), 中央高?;究蒲袠I務費(2018JBZ001), 國家自然科學基金(61976018和61532005)資助

                    GBDT Based Railway Accident Type Prediction and Cause Analysis

                    More Information
                    • Fund Project:  Supported by Science and Technology Innovation 2030 Major Program: New Generation Artificial Intelligence (2018AAA0102101), the Fundamental Research Funds for the Central Universities (2018JBZ001), National Natural Science Foundation of China (61976018 and 61532005)
                    • 摘要: 運用數據挖掘技術進行鐵路事故類型預測及成因分析, 對于建立鐵路事故預警機制具有重要意義. 為此, 本文提出一種基于梯度提升決策樹(Grandient Boosting Decision Tree, GBDT)的鐵路事故類型預測及成因分析算法. 針對鐵路事故記錄數據缺失的問題, 提出一種基于屬性分布概率的補全算法, 最大程度保持原有數據分布, 從而降低數據缺失對事故類型預測造成的影響. 針對鐵路事故記錄數據類別失衡的問題, 提出一種集成的GBDT模型, 完成對事故類型的魯棒性預測. 在此基礎上, 根據GBDT預測模型中特征重要度排序, 實現事故成因分析. 通過在開放數據庫上進行實驗, 驗證了本文模型的有效性.
                    • 圖  1  基于GBDT的鐵路事故類型預測及成因分析框架

                      Fig.  1  The framework of GBDT-based railroad accident type prediction and cause analysis

                      圖  2  三種補全方法結果對比

                      Fig.  2  Comparison of three methods results

                      圖  3  不同GBDT集成個數下分類準確率

                      Fig.  3  Accuracy of classifiers with different number of GBDT

                      圖  4  混淆矩陣

                      Fig.  4  Confusion matrix

                      圖  5  不同特征數量下預測結果

                      Fig.  5  Prediction results of classifier with different features

                      圖  6  兩類事故致因中不同因素的比例

                      Fig.  6  Proportion of different factors in causes of two types of railroad accident

                      表  1  原始數據描述

                      Table  1  Description of original data

                      RecordAccident typeAttribute
                      Number 5 434 11 144
                      下載: 導出CSV

                      表  2  事故類型描述

                      Table  2  Description of accident types

                      TYPEDescribe
                      1 Derailment
                      2 Head on collision
                      3 Rearend collision
                      4 Side collision
                      5 Raking collision
                      6 Broken train collision
                      7 Hwy-rail crossing
                      8 RR Grade crossing
                      9 Obstruction
                      10 Fire
                      11 Other impacts
                      下載: 導出CSV

                      表  3  數據集部分示例

                      Table  3  Examples of the dataset

                      NameDescribeNumType
                      RAILROADRailroad code5 434Object
                      CARSNum.of cars carrying hazmat5 434Int64
                      TYPSPDTrain speed type5 086Object
                      TRNDIRTrain direction5 161Float64
                      TONSGross tonnage, excluding power units5 434Int64
                      TYPEQType of consist5 081Object
                      EQATTEquipment attended5 074Object
                      CDTRHRNum.of hours conductors on duty3 628Int64
                      ENGHRNum.of hours engineers on duty4 201Int64
                      TRKNAMETrack identification5 434Object
                      下載: 導出CSV

                      表  4  預處理后數據描述

                      Table  4  Description of preprocessed data

                      RecordAccident typeAttribute
                      Number5 43411119
                      下載: 導出CSV

                      表  5  三種方法補全前后特征TRNDIR取值分布

                      Table  5  Distribution of the attribute TRNDIR values before and after three completion method

                      Algorithm$a_j=1$$a_j=2$$a_j=3$$a_j=4$
                      Before completion0.220.200.310.27
                      Interpolation0.210.190.300.30
                      Mode0.210.190.340.26
                      Our algorithm0.220.200.310.27
                      下載: 導出CSV

                      表  6  不同采樣率下集成GBDT分類準確率

                      Table  6  Accuracy of classifiers with different sampling rate

                      $\alpha$0.60.70.80.91.0
                      Accuracy (%)0.8410.8460.8450.8520.848
                      下載: 導出CSV

                      表  7  各分類器性能對比

                      Table  7  Performance comparison of classifiers

                      ClassifierAccuracyPrecisionRecallF1
                      DT0.7280.730.730.73
                      RF0.7730.740.770.75
                      ET0.7340.700.730.71
                      GBDT0.8410.840.840.84
                      ensemble GBDT0.8520.850.850.85
                      下載: 導出CSV

                      表  8  重要度排名前15的特征

                      Table  8  Features of Top15 in importance

                      No.NameDescription
                      1LatitudeLatitude in decimal degrees
                      2LongitudeLongitude in decimal degrees
                      3CNTYCDFIPS County Code
                      4HIGHSPDMaximum speed
                      5TRKNAMETrack identification
                      6RRCAR1Car initials (fist involved)
                      7TEMPTemperature in degrees fahrenheit
                      8MILEPOSTMilepost
                      9STATIONNearest city and town
                      10TRNSPDSpeed of train in miles per hour
                      11RRCAR2Car initials (causing)
                      12SUBDIVRailroad subdivision
                      13ENGHRNum. of hours engineers on duty
                      14CDTRHRNum. of hours conductors on duty
                      15TONSGross tonnage
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Mehmed K. Data mining concepts, models, methods and algorithms. IIe Transaction, 2005, 36(5): 495?496
                      [2] 馮士雍. 回歸分析方法. 北京: 科學出版社, 1974.

                      Feng Shi-Yong. Regression Analysis Method. Beijing: Science Press, 1974
                      [3] 3 Rutkowski L, Jaworski M, Pietruczuk L, Duda P. Decision trees for mining data streams based on the gaussian approximation. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1): 108?119 doi:  10.1109/TKDE.2013.34
                      [4] 李定啟, 程遠平, 王海峰, 王亮, 周紅星, 孫建華. 基于決策樹ID3改進算法的煤與瓦斯突出預測. 煤炭學報, 2011, 36(4): 619?622

                      4 Li Ding-Qi, Cheng Yuan-Ping, Wang Hai-Feng, Wang Liang, Zhou Hong-Xing, Sun Jian-Hua. Coal and gas outburst prediction based on improved decision tree ID3 algorithm. Journal of China Coal Society, 2011, 36(4): 619?622
                      [5] 5 Breiman L. Random forest. Machine Learning, 2001, 45(1): 5?32 doi:  10.1023/A:1010933404324
                      [6] 6 Friedman J H. Greedy function approximation: a gradient boosting machine. The Annals of Statistics, 2001, 29(5): 1189?1232
                      [7] 7 Friedman J H. Stochastic gradient boosting. Computational Statistics and Data Analysis, 2002, 38(4): 367?378 doi:  10.1016/S0167-9473(01)00065-2
                      [8] 周志華. 機器學習. 北京: 清華大學出版社, 2016.

                      Zhou Zhi-Hua. Machine Learning. Beijing: Tsinghua University Press, 2016.
                      [9] 9 Schonlau M. Boosted regression (boosting): an introductory tutorial and a stata plugin. The Stata Journal, 2005, 5(3): 330?354 doi:  10.1177/1536867X0500500304
                      [10] 翁小雄, 呂攀龍. 基于 GBDT 算法的地鐵 IC 卡通勤人群識別. 重慶交通大學學報 (自然科學版), 2019, 38(5): 8?12

                      10 Weng Xiao-Xiong, Lv Pan-Long. Subway IC card commuter crowd identification based on GBDT algorithm. Journal of Chongqing Jiaotong University(Natural Science), 2019, 38(5): 8?12
                      [11] 11 Mursalin M, Zhang Yuan, Chen Yue-Hui, Chawla N V. Automated epileptic seizure detection using improved correlation-based feature selection with random forest classifier. Neurocomputing, 2017, 241: 204?214 doi:  10.1016/j.neucom.2017.02.053
                      [12] 12 Cheng J, Li G, Chen X H. Research on travel time prediction model of freeway based on gradient boosting decision tree. IEEE Access, 2018, 7: 7466?7480
                      [13] 13 Ma X, Ding C, Luan S, Wang Y, Wang Y P. Prioritizing influential factors for freeway incident clearance time prediction using the gradient boosting decision trees method. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(9): 2303?2310 doi:  10.1109/TITS.2016.2635719
                      [14] Su H W, Zhang W J, Li Z H. Analysis and prediction of water traffic accidents in jingtang port based on improved GM(1, 1) model. In: Proceedings of the 37th Chinese Control Conference (CCC). New York, USA: IEEE, 2018.2212?2217
                      [15] Das S, Sun X D. Investigating the pattern of traffic crashes under rainy weather by association rules in data mining. In: Proceedings of the 93rd Transportation Research Board (TRB) Annual Meeting. Washington, USA: Nation Academy of Sciences, 2014
                      [16] 金勇進. 缺失數據的統計處理, 北京: 中國統計出版社, 2009.

                      Jin Yong-Jin. Statistical Processing of Missing Data. Beijing: China Statistics Press, 2009.
                      [17] 金勇進. 調查中的數據缺失及處理 (I)-缺失數據及其影響. 數理統計與管理, 2001, 20(4): 58?60 doi:  10.3969/j.issn.1002-1566.2001.04.012

                      17 Jin Yong-Jin. Data loss and processing in survey(I)) data missing and impact. Journal of Applied Statistics and Management, 2001, 20(4): 58?60 doi:  10.3969/j.issn.1002-1566.2001.04.012
                      [18] 18 Collell G, Prelec D, Patil K R. A simple plug-in bagging ensemble based on threshold-moving for classifying binary and multiclass imbalanced data. Neurocomputing, 2018, 275: 330?340 doi:  10.1016/j.neucom.2017.08.035
                      [19] 19 Galar M, Fernandez A, Barrenechea E, Bustince H, Herrera F. A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches. IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications and Reviews), 2012, 42(4): 463?484 doi:  10.1109/TSMCC.2011.2161285
                      [20] 朱振峰, 湯靜遠, 常冬霞, 趙耀. 基于 GBDT 的商品分配層次化預測模型. 北京交通大學學報, 2018, 42(2): 9?13+45 doi:  10.11860/j.issn.1673-0291.2018.02.002

                      20 Zhu Zhen-Feng, Tang Jing-Yuan, Chang Dong-Xia, Zhao Yao. GBDT based hierarchical model for commodity distribution prediction. Journal of Beijing Jiaotong University, 2018, 42(2): 9?13+45 doi:  10.11860/j.issn.1673-0291.2018.02.002
                      [21] 楊連報, 李平, 薛蕊, 馬小寧, 吳艷華, 鄒丹. 基于不平衡文本數據挖掘的鐵路信號設備故障智能分類. 鐵道學報, 2018, 40(2): 59?66 doi:  10.3969/j.issn.1001-8360.2018.02.009

                      21 Yang Lian-Bao, Li Ping, Xue Rui, Ma Xiao-Ning, Wu YanHua, Zou Dan. Intelligent classification of faults of railway signal equipment based on imbalancd text data mining. Journal of the China Railway Society, 2018, 40(2): 59?66 doi:  10.3969/j.issn.1001-8360.2018.02.009
                      [22] Federal Railroad Administration Office of Safety Analysis [Online], available: https://safetydata.fra.dot.gov/OfficeofSafety/Default.aspx, June 1, 2019
                    • [1] 任俊超, 劉丁, 萬銀. 基于混合集成建模的硅單晶直徑自適應非線性預測控制[J]. 自動化學報, doi: 10.16383/j.aas.c190798
                      [2] 劉卓, 湯健, 柴天佑, 余文. 基于多模態特征子集選擇性集成建模的磨機負荷參數預測方法[J]. 自動化學報, doi: 10.16383/j.aas.c190735
                      [3] 田娟秀, 劉國才, 谷珊珊, 鞠忠建, 劉勁光, 顧冬冬. 醫學圖像分析深度學習方法研究與挑戰[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170153
                      [4] 余建波, 盧笑蕾, 宗衛周. 基于局部與非局部線性判別分析和高斯混合模型動態集成的晶圓表面缺陷探測與識別[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150311
                      [5] 湯健, 柴天佑, 劉卓, 余文, 周曉杰. 基于更新樣本智能識別算法的自適應集成建模[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150766
                      [6] 湯健, 柴天佑, 叢秋梅, 苑明哲, 趙立杰, 劉卓, 余文. 基于EMD和選擇性集成學習算法的磨機負荷參數軟測量[J]. 自動化學報, doi: 10.3724/SP.J.1004.2014.01853
                      [7] 楊春, 殷緒成, 郝紅衛, 閆琰, 王志彬<. 基于差異性的分類器集成:有效性分析及優化集成[J]. 自動化學報, doi: 10.3724/SP.J.1004.2014.00660
                      [8] 杜黨波, 張偉, 胡昌華, 周志杰, 司小勝, 張建勛. 含缺失數據的小波-卡爾曼濾波故障預測方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2014.02115
                      [9] 付忠良. 多標簽代價敏感分類集成學習算法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2014.01075
                      [10] 曹瑩, 苗啟廣, 劉家辰, 高琳. AdaBoost算法研究進展與展望[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.00745
                      [11] 谷叢, 梁彥, 張共愿, 楊峰, 潘泉. 量測缺失下多速率傳感器系統的H濾波器設計[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00881
                      [12] 葛俊鋒, 羅予頻. 非對稱AdaBoost算法及其在目標檢測中的應用[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.1403
                      [13] 張宇, 周志華. 基于集成的年齡估計方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00997
                      [14] 吳敏, 徐辰華. 基于煙氣溫度場分布的燒穿點智能集成預測方法[J]. 自動化學報, doi: 10.1360/aas-007-1313
                      [15] 謝勝利, 田森平, 謝振東. 基于向量圖分析的迭代學習控制新算法[J]. 自動化學報
                      [16] 費越, 汪力新, 戴汝為. 競爭監督學習法在集成型識別系統中的應用[J]. 自動化學報
                      [17] 汪力新, 戴汝為. 反饋集成網絡的動力學分析及其應用[J]. 自動化學報
                      [18] 喻明, 吳澄, 方崇智. 計算機集成制造系統(CIMS)的可靠性建模與分析[J]. 自動化學報
                      [19] 李月景. 利用模糊聚類分析自動識別汽車類型[J]. 自動化學報
                      [20] 鮑城志, 王鐘琪, 周劍鳴, 鄒揆南, 姚筱亦, 奚傳錚. 動力系統事故分析和處理的邏輯控制[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  345
                    • HTML全文瀏覽量:  300
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-09-11
                    • 錄用日期:  2020-01-17

                    基于 GBDT 的鐵路事故類型預測及成因分析

                    doi: 10.16383/j.aas.c190630
                      基金項目:  科技創新 2030-“新一代人工智能”重大項目(2018AAA0102101), 中央高?;究蒲袠I務費(2018JBZ001), 國家自然科學基金(61976018和61532005)資助
                      作者簡介:

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為計算機視覺, 機器學習. 本文通信作者. E-mail: mhzhong@bjtu.edu.cn

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為計算機視覺, 深度學習. E-mail: wlzhang@bjtu.edu.cn

                      北京交通大學信息科學研究所碩士研究生. 主要研究方向為數據挖掘, 機器學習. E-mail: liyouru@bjtu.edu.cn

                      北京交通大學信息科學研究所教授. 2005年獲中國科學院自動化研究所模式識別國家重點實驗室工學博士學位. 主要研究方向為圖像視頻分析與理解, 計算機視覺, 機器學習. E-mail: zhfzhu@bjtu.edu.cn

                      北京交通大學信息科學研究所教授, 所長. 1996年獲北京交通大學工學博士學位. 主要研究方向為圖像與視頻編碼, 數字水印與取證, 視頻分析及理解, 人工智能. E-mail: yzhao@bjtu.edu.cn

                    摘要: 運用數據挖掘技術進行鐵路事故類型預測及成因分析, 對于建立鐵路事故預警機制具有重要意義. 為此, 本文提出一種基于梯度提升決策樹(Grandient Boosting Decision Tree, GBDT)的鐵路事故類型預測及成因分析算法. 針對鐵路事故記錄數據缺失的問題, 提出一種基于屬性分布概率的補全算法, 最大程度保持原有數據分布, 從而降低數據缺失對事故類型預測造成的影響. 針對鐵路事故記錄數據類別失衡的問題, 提出一種集成的GBDT模型, 完成對事故類型的魯棒性預測. 在此基礎上, 根據GBDT預測模型中特征重要度排序, 實現事故成因分析. 通過在開放數據庫上進行實驗, 驗證了本文模型的有效性.

                    English Abstract

                    鐘敏慧, 張婉露, 李有儒, 朱振峰, 趙耀. 基于 GBDT 的鐵路事故類型預測及成因分析. 自動化學報, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    引用本文: 鐘敏慧, 張婉露, 李有儒, 朱振峰, 趙耀. 基于 GBDT 的鐵路事故類型預測及成因分析. 自動化學報, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    Citation: Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2020, 45(x): 1?9. doi: 10.16383/j.aas.c190630
                    • 近年來, 我國鐵路事業高速發展, 在推動國民經濟發展中發揮著至關重要的作用. 與此同時, 鐵路安全問題也愈發受到重視. 在大數據時代, 如何利用鐵路事故歷史記錄數據發掘有用信息, 建立事故預警機制, 對于推動鐵路行業信息化, 提高運輸效率, 防范安全隱患具有重要意義. 鐵路事故類型預測和事故致因分析是建立事故預警機制的兩個基礎環節. 鐵路事故預測利用歷史事故記錄估計和判斷未來某種情況下是否會發生事故. 鐵路事故成因分析通過分析事故發生時的客觀環境與人為因素, 尋找造成事故的最可能原因, 從而采取針對性的預警防護手段. 因此, 利用鐵路事故歷史記錄, 采用數據挖掘技術發掘其中有用信息, 進行鐵路事故類型預測與成因分析具有重大現實意義.

                      鐵路事故類型預測的本質是一個多分類問題. 常用的多分類模型有邏輯回歸(Logistic Regression, LR)[1]、支持向量機(Support Vector Machine, SVM)[2]和決策樹(Decision Tree, DT)[3]等. 文獻[4]利用決策樹算法進行煤與瓦斯的突出預測. 然而, 這類分類器主要適用于簡單、平衡的數據訓練, 對于鐵路事故記錄這種復雜、類別失衡的高維數據, 訓練較為困難, 且預測結果不夠理想. 集成學習能夠將多個模型集成以獲取更好的預測結果, 對于不平衡數據的分類問題具有更好的有效性. 常用集成學習模型主要包括隨機森林(Random Forest, RF)[5]和梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)[6-7]. RF基于Bagging思想[8], 并行集成基學習器, 模型簡單, 計算開銷小; 而GBDT則是基于Gradient Boosting思想[6, 9], 對基學習器進行串行集成, 對數據擬合能力很強. 文獻[10-13]分別使用以上模型進行預測.

                      鐵路事故成因分析是對事故類型預測的反演. 常用的事故成因分析方法有復雜網絡方法、灰色理論等. 文獻[14]結合灰色綜合關聯度和信息熵, 利用熵分析事件不確定性的原理, 針對事故相關屬性的重要度進行分析. 文獻[15]運用多維關聯規則提取技術找出事故成因關聯規則. 上述事故成因分析方法對于值類別數較多的特征, 運算較復雜.

                      此外, 現有鐵路事故記錄數據存在嚴重的數據缺失問題, 在進行鐵路事故類型預測和歸因前, 首先需要對數據進行補全. 選擇合適的補全方法對于提升預測結果的準確性有很大影響. 目前, 常用的補全方法主要包括均值填補法、最近距離填補法、回歸填補法等[16-17]. 然而, 前兩種方法在某種程度上會影響樣本狀態分布, 導致預測結果的偏差; 回歸填補法僅適用于連續特征, 對于離散特征并不適用.

                      針對上述問題, 本文提出了一種基于GBDT的鐵路事故類型預測及成因分析算法. 首先, 針對鐵路事故數據缺失問題, 提出了一種基于屬性分布概率的補全算法, 該算法最大程度的保持了原有的數據結構, 從而降低數據缺失對于類型預測造成的影響. 其次, 提出了一種基于Bagging的集成GBDT模型, 針對類別失衡的鐵路事故歷史記錄數據能夠高效訓練, 得到準確的事故類型預測結果. 同時, 結合統計學習理論, 根據GBDT預測模型中的特征重要度排序, 實現事故致因分析. 算法整體框架如圖1所示. 通過在公開的鐵路事故數據庫上進行實驗, 驗證了本文所提算法的有效性.

                      圖  1  基于GBDT的鐵路事故類型預測及成因分析框架

                      Figure 1.  The framework of GBDT-based railroad accident type prediction and cause analysis

                      • 在本節中, 我們主要介紹本文所提出的基于屬性分布概率的缺失數據補全算法. 其中, 1.1節給出本文所用符號的說明. 1.2節對算法進行具體描述.

                      • 為便于后文闡述, 首先對本文所用的一些符號進行說明. 令$ D {\in} {{\bf R}^{N\times(p+1)}} $表示記錄條數為$ N $的鐵路設備事故數據集, 其中每條記錄可表示為$ {\pmb d} =$$ {[{\pmb X_i}, y_i]} $, $ {0\leq{i}\leq{N}} $. 令$ X= $$ {[{\pmb X_1}, {\pmb X_2}, \cdots, {\pmb X_N}]}^{\rm T} {\in} $$ {{\bf R}^{N\times p}} $表示$ N $條記錄的$ p $維特征空間, 其中$ {{\pmb X_i}} =$$\left[ {x_i^1,x_i^2, \cdots ,} \right. $$ {\left. {x_i^p} \right]{\in}{{\bf R}^{1\times p}}} $表示每一條記錄的$ p $維特征向量. Y = $ {[{\pmb y_1}, {\pmb y_2}, \cdots, {\pmb y_N}]^{\rm T}{\in}{\bf R}^{N\times 1}} $表示$ N $條事故記錄的類型向量. 令$ x^j $表示第$ j $個特征, $ {1\leq j\leq p} $, 使用$ {a_j} $表示$ {x^j} $的取值. 若$ {x^j} $是離散的類別型屬性, 則$ {{a_j}{\in}}\{$類別$ 1, \cdots,$類別$ k $$ {\}} $, 使用數值化后的類別表示$ {a_j} $, 于是$ {a_j\in\{ 1,\cdots,k\}} $; 用$ {A_j} $表示$ {x^j} $可取值的個數, 則$ {{A_j} = k} $.

                      • 由于客觀環境及人為原因等干擾因素, 導致鐵路事故記錄數據存在缺失, 對后續事故類型預測建模及成因分析有不利影響. 因此, 需對鐵路事故數據進行缺失補全.

                        目前常用的補全方法包括均值補全、眾數補全等. 然而, 由于鐵路事故記錄數據中的屬性多為離散的類別型屬性, 常規補全方法并不適用. 例如, 均值補全適用于連續的數值型屬性; 眾數補全適用于數據本身缺失較少, 其中需補全的屬性的取值分布有明顯偏好的情況, 對于取值分布較均衡的屬性, 使用眾數補全會改變原有屬性取值的概率分布.

                        考慮到上述問題, 本文提出了一種基于屬性分布概率的補全算法. 算法流程由算法1給出. 針對鐵路事故記錄數據中取值分布較均衡的離散、類別型屬性$ {x^j} $, 計算現有數據下該屬性所有取值$ {a_j} $出現的概率$ {P_j^k} $, 基于概率進行缺失值的填補, 從而在保持屬性原有的分布的情況下, 完成對鐵路事故數據的補全, 降低數據缺失對事故類型預測的影響.

                        $ {P_j^k} $計算公式如下:

                        $$P_j^k = \dfrac{{A_j^k}}{{{N_{ALL}}}}$$ (1)

                        表示當前$ {N_{ALL}} $條事故記錄下, 屬性$ {x^j} $取值為類別$ k $的概率. $ {A_j^k} $表示屬性$ {x^j} $取值為類別$ k $的個數.

                        算法 1. 基于屬性分布概率的補全算法

                        輸入. 待插補的特征$ {x^j} $、取值$ {a_j = 1,\cdots, k} $的個數$ {A_j^1, \cdots, A_j^k} $、全部事故記錄條數$ N $.

                        輸出. 插補完成的特征$ {\hat{x}^j} $.

                        步驟 1. 計算事故記錄中特征$ x^j $存在的記錄的條數$ N_{ALL} = \sum_{n = 1}^{k}{A_j^n} $;

                        步驟 2. 計算事故記錄中特征$ x^j $空缺的記錄條數$ {{N_{LACK}} = N-N_{ALL} }$;

                        步驟 3. for 特征的所有取值

                        do

                        步驟 3.1. 計算特征$ x^j $每一個取值出現的概率$ P_j^n $$ = $$ {\frac{A_j^n}{N_{ALL}}} $;

                        步驟 3.2. 計算每一個取值需要插補的次數$ S_j^n\leftarrow{{P_j^n}\times N_{LACK}} $;

                        步驟 4. for 特征的所有取值$ (1, k) $

                        do

                        步驟 4.1. 將每一個要填補的取值按需要插補的次數擴展為集合$ T_j^n $$ \leftarrow $$ [a_j = n]\ast{S_j^n} $, $ n $$ = $$ (1,\cdots,k) $;

                        步驟 5. 將所有取值的集合合并為一個集合$ T_j $$ = $$ {T_j^1}\cup{T_j^2}\cup{\cdots}\cup{T_j^k} $;

                        步驟 6. for 每一個特征$ x^j $的缺失位置$(1, $$ {N_{LACK})} $

                        do

                        步驟 6.1. 從$ T_j $中隨機無放回地取值填入空缺位置;

                        步驟 7. 輸出插補完成的特征$ {\hat{x}^j} $.

                      • 鐵路事故預測本質上是一個多分類問題. 由于鐵路事故記錄數據類別不均衡且屬性多為離散值屬性, GBDT在處理這類數據時具有很好的有效性. 本章節詳細介紹了基于改進GBDT的鐵路事故類型預測模型. 其中, 2.1節簡要介紹了GBDT模型, 2.2節對本文所提模型進行詳細闡述.

                      • GBDT是基于Boosting算法[9]的集成決策樹模型. Boosting算法依據上一次訓練的殘差生成基學習器. GBDT在Boosting的基礎上, 在殘差減小的梯度方向上建立新的決策樹[6-7]. GBDT模型可表示為:

                        $${F_M}(x) = \displaystyle\sum\limits_{m = 1}^M {T(x;{\Theta _m})} $$ (2)

                        其中$ T(x;\Theta_m) $表示決策樹, $ \Theta_m $表示樹的參數, $ M $為樹的個數.

                        決策樹$ T(x;\Theta_m) $的損失函數用$ L(\cdot) $表示, 在GBDT中, 損失函數為平方誤差函數. 用$ T_{m-1}(x_i) $表示當前決策樹, GBDT通過最小化損失函數來確定下一棵決策樹的參數$ \hat{\Theta}_m $.

                        $${\hat \Theta _m} = \arg \min \displaystyle\sum\limits_{i = 1}^N L ({y_i},{T_{m - 1}}({x_i}) + T(x;{\Theta _m}))$$ (3)
                      • 由于鐵路事故樣本存在類別失衡的問題, 使用單一GBDT難以滿足分類需求. 集成學習中的Bagging算法能夠隨機有放回的選擇訓練數據, 構建基學習器, 然后將多個基學習器組合, 使用投票法或簡單平均法計算分類結果[8, 18-19]. 文獻[20]和[21]都是通過將多個分類器集成, 以獲得更好的分類效果. 本文參考文獻[20], 提出一種基于Bagging的集成GBDT算法, 以GBDT作為基學習器, 利用Bagging算法將多個GBDT集成, 構造集成GBDT模型, 獲得比單一GBDT優越的分類效果, 克服樣本類別失衡對預測造成的影響, 實現鐵路事故類型的精確預測.

                        算法流程如算法2所示. 對于輸入的訓練集$ (X,y) $, 利用Bootstrap算法[8]以采樣率$ \alpha $隨機采樣$ M $次, 得到$ M $個訓練子集, 從而構造$ M $$ GBDT_t $, $ t = 1, \cdots, M $; 對于每一個$ GBDT_t $的預測值$ \hat{y}_i $, 利用投票法, 選擇$ M $$ GBDT_t $的預測結果中出現次數最多的預測值作為集成GBDT的最終預測結果$ \hat{y}_i $.

                        算法 2. 基于Bagging的集成GBDT算法

                        輸入. 訓練集$ (X,y) $、基學習器$ GBDT_t $、迭代次數$ M $、Bootstrap采樣率$ \alpha $.

                        輸出. 集成GBDT預測值$ \hat{y}_i $.

                        步驟 1. for 每一輪迭代$ t\in(1,\cdots,M) $

                        do

                        步驟 1.1. 利用Bootstrap算法以采樣率$ \alpha $隨機采樣, 得到訓練子集$ (X,y)_t \leftarrow {{Bootstrap}(a,(X,y))} $;

                        步驟 1.2. 利用$ (X,y)_t $訓練GBDT, 得到$ GBDT_t $;

                        步驟 2. 利用訓練好的GBDT進行預測, 選擇預測結果中出現最多次的預測值作為最終結果${\hat y_i} \leftarrow GBDT({X_i}) = \arg {\max _{{y_i}}}\sum\nolimits_{t = 1}^M {\prod {(GBD{T_t}(} } {X_i}) = {y_i})$.

                      • 鐵路事故致因分析是鐵路事故類型預測的反演, 通過對鐵路事故發生時各種因素的分析, 能夠推演事故發生的過程和解析事故因果關系, 以建立事故預警機制, 進行安全防范. 由于鐵路事故記錄數據特征維度較大, 傳統致因分析方法[14-15]并不適用. 在進行GBDT模型訓練時, 可以輸出特征重要度, 以分析哪些特征對預測結果存在關鍵影響. 因此, 本文結合統計分析的方法, 基于GBDT的特征重要度排序[6], 進行鐵路事故致因分析.

                        對于某一特征$ x^j $的全局重要度, 通過該特征在單棵決策樹中重要度的平均值來衡量, 公式如公式(4)所示.

                        $$\hat J_i^2 = \dfrac{1}{M}\sum\limits_{m = 1}^M {\hat J_i^2(T(x;{\Theta _m}))} $$ (4)

                        其中, $ \hat{J}_i^2(T(x;\Theta_m)) $表示特征$ x^j $在單棵樹上的重要度, 公式如下:

                        $$\hat J_i^2(T(x;{\Theta _m})) = \sum\limits_{t = 1}^{L - 1} {\hat i_t^2} {\rm{1}}({v_t} = {x^j})$$ (5)

                        其中, $ L $表示樹的葉子節點數量, $ L-1 $即為樹的非葉子節點數量, $ v_t $表示與節點$ t $相關聯的特征, $ \hat{i}_t^2 $是節點$ t $分裂之后的平方損失的減少值[6].

                        分析可得, 非葉子節點$ t $在分裂時的$ \hat{i}_t^2 $越大, 說明特征越重要. 根據重要度排序篩選出特征后, 按排名將特征分組累加代入預測模型重新訓練, 以驗證選擇的可靠性.

                      • 本文通過在美國聯邦鐵路管理局(Federal Railroad Administration, FRA)[22]公開的鐵路設備事故數據上進行實驗, 驗證了本文所提算法的有效性.

                        實驗數據采用FRA對外公布的2016年至2018年鐵路設備事故數據. 數據集包含事故類型、事故發生具體時間、地點、日期、鐵路編號等信息. 原始數據集統計信息見表1, 共5434條記錄, 包含144個屬性和11種事故類型.11種事故類型描述如表2所示, 其中, 類型1(Derailment)記錄數量最多, 類型2(Head on collision)、類型6(Broken train collision)記錄數量極少.

                        表 1  原始數據描述

                        Table 1.  Description of original data

                        RecordAccident typeAttribute
                        Number 5 434 11 144

                        表 2  事故類型描述

                        Table 2.  Description of accident types

                        TYPEDescribe
                        1 Derailment
                        2 Head on collision
                        3 Rearend collision
                        4 Side collision
                        5 Raking collision
                        6 Broken train collision
                        7 Hwy-rail crossing
                        8 RR Grade crossing
                        9 Obstruction
                        10 Fire
                        11 Other impacts

                        原始數據存在嚴重屬性缺失情況, 如表3所示. 本文首先通過多次數據清洗, 去除部分與實驗結果無關性較強的屬性, 最終保留69個屬性. 這69個屬性中, 共有23個屬性存在缺失, 缺失屬性均為類別型屬性. 本文采用眾數補全和1.2基于屬性分布概率的補全算法兩種方法進行數據補全. 統計每一個缺失屬性取值的概率分布, 針對缺失屬性類別分布較均衡的屬性, 使用本文所提算法進行補全; 對于缺失值較少或類別分布有明顯偏好的屬性, 采用眾數補全. 針對補全后的數據, 采用one-hot編碼與factorize編碼, 對類別型屬性進行編碼, 以方便模型訓練. 經過預處理后數據集的統計信息描述如表4所示.

                        表 3  數據集部分示例

                        Table 3.  Examples of the dataset

                        NameDescribeNumType
                        RAILROADRailroad code5 434Object
                        CARSNum.of cars carrying hazmat5 434Int64
                        TYPSPDTrain speed type5 086Object
                        TRNDIRTrain direction5 161Float64
                        TONSGross tonnage, excluding power units5 434Int64
                        TYPEQType of consist5 081Object
                        EQATTEquipment attended5 074Object
                        CDTRHRNum.of hours conductors on duty3 628Int64
                        ENGHRNum.of hours engineers on duty4 201Int64
                        TRKNAMETrack identification5 434Object

                        表 4  預處理后數據描述

                        Table 4.  Description of preprocessed data

                        RecordAccident typeAttribute
                        Number5 43411119

                        本文采用交叉驗證的方式, 隨機選擇80%作為訓練集, 20%作為測試集.

                      • 本文通過在美國聯邦鐵路管理局(Federal Railroad Administration, FRA)[22]公開的鐵路設備事故數據上進行實驗, 驗證了本文所提算法的有效性. 本文采用均方誤差函數(Mean Square Error, MSE)作為補全算法有效性的評價標準, 其定義如下:

                        $$MSE({x^j}) = \dfrac{1}{{{N_{EMP}}}}\sum\limits_{t = 1}^{{N_{EMP}}} {{{({a_{jt}} - {{\hat a}_{jt}})}^2}} $$ (6)

                        其中, $ N_{EMP} $表示手動設置的空值的總數, $ a_{jt} $表示原始值, $ \hat{a}_{jt} $表示插補后的值.

                        對于鐵路事故類型預測模型, 本文采用準確率Accuracy、查準率Precision、查全率Recall和F1-score作為評價指標.

                        分類準確率計算公式為:

                        $$Accuracy = \sum\limits_{i \in C} {\frac{{{N_i}}}{N}(\frac{{T{P_i} + T{N_i}}}{{T{P_i} + T{N_i} + F{P_i} + F{N_i}}})} $$ (7)

                        查準率計算公式為:

                        $$Precision = \sum\limits_{i \in C} {\frac{{{N_i}}}{N}(\frac{{T{P_i}}}{{T{P_i} + F{P_i}}})} $$ (8)

                        查全率計算公式為:

                        $$Recall = \sum\limits_{i \in C} {\frac{{{N_i}}}{N}(\frac{{T{P_i}}}{{T{P_i} + F{N_i}}})} $$ (9)

                        F1-score計算公式為:

                        $$F1\_score = \dfrac{{2 \times Precision \times Recall}}{{Precision + Recall}}$$ (10)

                        其中, $ C $表示所有事故類型的總數; $ N_i $表示事故類型為$ i $的樣本個數, $ N $表示樣本總個數; $ TP_i $表示被正確預測為第$ i $類的個數; $ TN_i $被正確預測不為第$ i $類的個數; $ FP_i $表示被錯誤預測為第$ i $類的個數; $ FN_i $表示被錯誤預測為不為第$ i $類的個數.

                      • 為驗證基于屬性分布概率的補全算法的有效性, 本文將所提算法與插值法(Interpolation Completer)、眾數補全(Mode Completer)兩種方法進行比較. 基于屬性概率分布的補全算法最大程度的保持了原始數據的分布結構. 以特征TRNDIR為例. 特征TRNDIR有4種取值, $ a_j\in\{1,2,3,4\} $, $ A_j = 4 $, 表示火車運行的四個方向. 表5展示了使用三種方法進行補全后與補全之前4種取值的概率分布. 從表5可以看出, 使用插值法與眾數補全法補全后, 造成該特征某一取值過多, 破壞原本的數據分布, 而本文所提算法完全不改變原有的概率分布, 從而減少了由于數據缺失對鐵路事故類型預測帶來的影響.

                        表 5  三種方法補全前后特征TRNDIR取值分布

                        Table 5.  Distribution of the attribute TRNDIR values before and after three completion method

                        Algorithm$a_j=1$$a_j=2$$a_j=3$$a_j=4$
                        Before completion0.220.200.310.27
                        Interpolation0.210.190.300.30
                        Mode0.210.190.340.26
                        Our algorithm0.220.200.310.27

                        為進一步定量分析基于屬性分布概率的補全算法的有效性, 本實驗以均方誤差函數(MSE)作為評價標準, 對3種補全方法進行對比. 以TRNDIR、ENGHR、CDTRHR(特征描述見表3)三個特征為例, 隨機從數據集中選擇100條記錄, 設置以上三個特征的值為空, 用三種補全算法依次進行補全, 記錄每一種補全算法MSE. 共進行10次實驗, 取10次MSE之和的平均值進行對比, 實驗結果如圖2所示. 由圖2可得, 基于屬性概率分布的補全算法MSE明顯低于其他兩種方法, 表明本文所提算法具有很好的有效性.

                        圖  2  三種補全方法結果對比

                        Figure 2.  Comparison of three methods results

                      • 為驗證構造基于Bagging的集成GBDT模型時不同因素的影響, 本節對不同參數下集成GBDT的效果進行了對比, 以確定進行鐵路事故類型預測任務時的最佳參數設置.

                        基于Bagging的集成GBDT模型需要調優的參數可分為兩類, 包括Bagging框架參數和GBDT參數, GBDT參數又包括Boosting框架參數和決策樹參數. 其中, Bagging框架參數包括最大迭代次數, 即集成的GBDT數量, 以及最大采樣率; Boosting框架參數包括最大迭代次數, 即子樹的最大數量, 以及學習步長等; 決策樹的參數主要包括樹的深度.

                        首先, 利用網格搜索法(Grid Search)對單一GBDT的參數進行調優. 經過調優后, GBDT的迭代次數為100, 學習步長為0.2, 決策樹最大深度為6. 此時GBDT在測試集上的預測準確率為84.1%.

                        得到最優GBDT參數組合后, 對集成GBDT的Bagging框架參數進行調優, 考慮運行效率和分類性能, 以選擇合適的GBDT數量及采樣率. 在實驗中, 首先確定GBDT個數, 分別用5、10、15、20、25、30個GBDT進行集成, 此時最大采樣率設置為0.9, 以在測試集上預測結果的準確率和模型訓練時間作為評價標準, 結果如圖3所示. 數量為1時表示不進行集成, 僅用單一GBDT進行預測. 可以看出, 當GBDT個數增加時, 模型預測準確率呈上升趨勢, 證明使用Bagging進行集成的方法確實有效. 當GBDT個數為15和20時, 模型預測準確率最高, 達到85%~5.2%, 比單一GBDT預測準確率高出約1個百分比, 但使用15個GBDT訓練的時間是使用20個GBDT訓練時間的1/2. 綜合考慮分類效果和性能, 最終預測模型使用15個GBDT進行集成. 為進一步確定采樣率, 分別將采樣率設置為0.6、0.7、0.8、0.9、1.0進行實驗, GBDT的數量設置為15, 以預測結果的準確率作為評價標準. 最終結果如表6所示. 可以看出, 當采樣率為0.9時, 模型預測準確率最高.

                        圖  3  不同GBDT集成個數下分類準確率

                        Figure 3.  Accuracy of classifiers with different number of GBDT

                        表 6  不同采樣率下集成GBDT分類準確率

                        Table 6.  Accuracy of classifiers with different sampling rate

                        $\alpha$0.60.70.80.91.0
                        Accuracy (%)0.8410.8460.8450.8520.848
                      • 為進一步驗證基于Bagging的集成GBDT模型的有效性, 本實驗中使用相同的訓練集, 分別對DT[3]、RF[5]、ET[8]、GBDT[6-7]和集成GBDT (ensemble GBDT)進行訓練, 在相同測試集上進行測試, 對比預測結果. 共進行10次實驗, 取10次結果的平均值作為最終結果. 其中, 根據4.4節實驗, 集成GBDT的參數設置為: 集成的GBDT個數為15, 采樣率為0.9, 每個GBDT的迭代次數為100, 學習步長為0.2, 決策樹最大深度為6.

                        分類結果用混淆矩陣表示, 如圖4所示. 分類效果如表7所示. 從表7可以看出, 單一GBDT的分類F1-score較其他3種分類器高出10%~4%; 進行集成后查全率和召回率比單一GBDT提高了約1%, 效果最佳.

                        圖  4  混淆矩陣

                        Figure 4.  Confusion matrix

                        表 7  各分類器性能對比

                        Table 7.  Performance comparison of classifiers

                        ClassifierAccuracyPrecisionRecallF1
                        DT0.7280.730.730.73
                        RF0.7730.740.770.75
                        ET0.7340.700.730.71
                        GBDT0.8410.840.840.84
                        ensemble GBDT0.8520.850.850.85

                        因集成GBDT在每個GBDT訓練時隨機選擇訓練樣本, 降低了樣本類別失衡造成的影響, 且將Bagging與Boosting結合的方式充分考慮了模型過擬合問題, 提高了模型的泛化能力, 從而提高了分類的準確率, 故而效果最優.

                      • 本文根據特征重要度進行特征選擇, 將選擇特征按重要度排名分組累加, 代入模型重新訓練, 以進行事故致因分析. 為驗證特征選擇的有效性及可靠性, 在本節實驗中進行了不同特征組合對事故類型預測結果的對比. 將單一GBDT訓練中, 特征重要性大于0.001的特征篩選出來用于集成GBDT模型訓練, 訓練后的模型在測試集上分類準確率提高了1.6~1.8個百分點, 表明基于GBDT的特征選擇具有一定的可靠性. 為進一步分析所選特征的正確性, 將特征按重要度降序排列, 以十個為一組依次累加代入集成GBDT模型訓練, 結果如圖5所示. 實驗結果表明, 隨著特征數量的增多, 分類準確率呈現上升趨勢且逐步逼近于使用全部特征訓練所得準確率, 說明所選特征符合重要度排序. 當特征數量大于30時, 分類準確率趨于平穩, 表明之后增加的特征對預測結果幾乎沒有影響, 進一步驗證了特征符合重要度排序.

                        圖  5  不同特征數量下預測結果

                        Figure 5.  Prediction results of classifier with different features

                        為進行鐵路事故成因分析, 本文選擇排名前15的特征進行總結, 如表8所示. 將這15個特征按共性可劃分為地理位置(Location)、速度(Speed)、里程(Mileage)、天氣(Weather)、載貨(Freight)、監管人員因素(Manager)六大類. 以脫軌(Derailment)和碰撞(Collision)兩類事故為例, 綜合進行事故成因分析, 結果如圖6所示. 由圖6可知, 鐵路事故發生與地理位置、列車行駛速度等有重要聯系, 溫度和人員因素與事故發生也有一定聯系. 結果符合常規事故成因, 具有可靠性.

                        圖  6  兩類事故致因中不同因素的比例

                        Figure 6.  Proportion of different factors in causes of two types of railroad accident

                        表 8  重要度排名前15的特征

                        Table 8.  Features of Top15 in importance

                        No.NameDescription
                        1LatitudeLatitude in decimal degrees
                        2LongitudeLongitude in decimal degrees
                        3CNTYCDFIPS County Code
                        4HIGHSPDMaximum speed
                        5TRKNAMETrack identification
                        6RRCAR1Car initials (fist involved)
                        7TEMPTemperature in degrees fahrenheit
                        8MILEPOSTMilepost
                        9STATIONNearest city and town
                        10TRNSPDSpeed of train in miles per hour
                        11RRCAR2Car initials (causing)
                        12SUBDIVRailroad subdivision
                        13ENGHRNum. of hours engineers on duty
                        14CDTRHRNum. of hours conductors on duty
                        15TONSGross tonnage
                      • 本文提出了一種基于GBDT的鐵路事故類型預測和成因分析模型. 針對鐵路事故記錄數據缺失的問題, 提出基于屬性分布概率的補全算法, 以保持原有數據結構, 減少數據缺失對預測結果的影響. 由于鐵路事故數據存在類型失衡等問題, 對預測結果也存在很大影響. 為此, 本文基于Bagging對GBDT進行集成, 提高了單一GBDT的預測精度. 同時, 結合統計分析的方法, 根據特征重要度進行特征選擇, 進而對特征進行分析和總結, 推測鐵路事故成因, 減少了人力的投入. 實驗證明, 本文方法具有很好的可靠性和有效性.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回