2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    一種隨機配置網絡的模型與數據混合并行學習方法

                    代偉 李德鵬 楊春雨 馬小平

                    代偉, 李德鵬, 楊春雨, 馬小平. 一種隨機配置網絡的模型與數據混合并行學習方法. 自動化學報, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    引用本文: 代偉, 李德鵬, 楊春雨, 馬小平. 一種隨機配置網絡的模型與數據混合并行學習方法. 自動化學報, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    Dai Wei, Li De-Peng, Yang Chun-Yu, Ma Xiao-Ping. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    Citation: Dai Wei, Li De-Peng, Yang Chun-Yu, Ma Xiao-Ping. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411

                    一種隨機配置網絡的模型與數據混合并行學習方法


                    DOI: 10.16383/j.aas.c190411
                    詳細信息
                      作者簡介:

                      中國礦業大學信息與控制工程學院副教授. 主要研究方向為復雜工業過程建模、運行優化與控制. 本文通信作者. E-mail: weidai@cumt.edu.cn

                      中國礦業大學信息與控制工程學院碩士研究生. 主要研究方向為數據驅動建模、機器學習算法. E-mail:dpli@cumt.edu.cn

                      中國礦業大學信息與控制工程學院教授. 于2009年獲得東北大學博士學位. 主要研究方向為廣義系統和魯棒控制. E-mail: chunyuyang@cumt.edu.cn

                      中國礦業大學信息與控制工程學院教授. 主要研究方向為過程控制、網絡控制與故障診斷. E-mail: xpma@cumt.edu.cn

                    • 基金項目:  國家自然科學基金(61603393, 61973306), 江蘇省自然科學基金(BK20160275), 中國博士后科學基金(2018T110571), 流程工業綜合自動化國家重點實驗室開放基金資助(PAL-N201706)

                    A Model and Data Hybrid Parallel Learning Method for Stochastic Configuration Networks

                    More Information
                    • Fund Project:  Supported by National Natural Science Foundation of China(61603393, 61973306), Natural Science Foundation of Jiangsu Provinces(BK20160275), the Postdoctoral Science Foundation of China(2018T110571), State Key Laboratory of Synthetical Automation for Process Industries (PAL-N201706)
                    • 摘要: 隨機配置網絡(Stochastic configuration networks, SCNs)在增量構建過程引入監督機制來分配隱含層參數以確保其無限逼近特性, 具有易于實現、收斂速度快、泛化性能好等優點. 然而, 隨著數據量的不斷擴大, SCNs的建模任務面臨一定的挑戰性. 為了提高神經網絡算法在大數據建模中的綜合性能, 本文提出了一種混合并行隨機配置網絡(Hybrid parallel stochastic configuration networks, HPSCNs)架構, 即: 模型與數據混合并行的增量學習方法. 所提方法由不同構建方式的左右兩個SCNs模型組成, 以快速準確地確定最佳隱含層節點, 其中左側采用點增量網絡(PSCN), 右側采用塊增量網絡(BSCN); 同時每個模型建立樣本數據的動態分塊方法, 從而加快候選“節點池”的建立、降低計算量. 所提方法首先通過大規?;鶞蕯祿M行了對比實驗, 然后應用在一個實際工業案例上, 表明其有效性.
                    • 圖  1  模型并行結構圖

                      Fig.  1  The structure diagram of model parallelism

                      圖  2  數據并行策略

                      Fig.  2  Strategy of data parallelism

                      圖  3  不同算法綜合性能比較

                      Fig.  3  Comparison of comprehensive performance of different algorithms

                      圖  4  模型的收斂曲線

                      Fig.  4  Convergence curve of HPSCNs

                      圖  5  模型的逼近特性

                      Fig.  5  Approximation performance of HPSCNs

                      表  1  基準數據集說明

                      Table  1  Specification of benchmark data sets

                      數據集屬性樣本數
                      輸入變量輸出變量
                      DB114424 160
                      DB212110 000
                      DB310140 768
                      DB426114 998
                      下載: 導出CSV

                      表  2  分塊數遞增區間長度及其上下界

                      Table  2  Incremental interval length of block number and its upper and lower bounds

                      $L_{en}^k$$L_{\max }^k$$L_{\min }^k$
                      50500
                      10015050
                      150300150
                      ·········
                      下載: 導出CSV

                      表  3  不同算法性能比較

                      Table  3  Performance comparison of different algorithms

                      數據集算法t(s)kL
                      DB1SC-III24.35$\pm $1.69164.40$\pm $7.76164.40$\pm $7.76
                      ${\rm{BSC - }}{{\rm{I}}_3}$12.60$\pm $1.2169.20$\pm $3.03207.60$\pm $9.09
                      ${\rm{BSC - }}{{\rm{I}}_5}$9.41$\pm $1.3344.00$\pm $3.24220.00$\pm $16.20
                      ${\rm{HPSCN}}_1^1$3.48$\pm $0.38122.40$\pm $8.02122.40$\pm $8.02
                      ${\rm{HPSCN}}_3^1$3.03$\pm $0.2863.40$\pm $4.16162.80$\pm $7.90
                      ${\rm{HPSCN}}_5^1$2.96$\pm $0.1945.00$\pm $2.83215.00$\pm $9.71
                      DB2SC-III26.97$\pm $2.54300.00$\pm $14.18300.00$\pm $14.18
                      ${\rm{BSC - }}{{\rm{I}}_3}$14.66$\pm $1.33120.40$\pm $3.98361.20$\pm $11.93
                      ${\rm{BSC - }}{{\rm{I}}_5}$11.01$\pm $1.0778.80$\pm $2.91394.00$\pm $14.87
                      ${\rm{HPSCN}}_1^1$7.22$\pm $0.95239.30$\pm $14.55239.3$\pm $14.55
                      ${\rm{HPSCN}}_3^1$5.47$\pm $0.33123.50$\pm $3.34301.90$\pm $10.99
                      ${\rm{HPSCN}}_5^1$4.39$\pm $0.4281.80$\pm $3.74378.60$\pm $16.54
                      DB3SC-III18.04$2.15106.60$\pm $3.36106.60$\pm $3.36
                      ${\rm{BSC - }}{{\rm{I}}_3}$8.96$\pm $1.2139.80$\pm $2.28119.40$\pm $6.84
                      ${\rm{BSC - }}{{\rm{I}}_5}$6.81$\pm $0.5525.20$\pm $1.10126.00$\pm $5.48
                      ${\rm{HPSCN}}_1^1$3.45$\pm $0.2497.00$\pm $2.6597.00$\pm $2.65
                      ${\rm{HPSCN}}_3^1$2.05$\pm $0.1341.20$\pm $2.17106.40$\pm $4.39
                      ${\rm{HPSCN}}_5^1$1.88$\pm $0.1225.00$\pm $1.22121.00$\pm $6.44
                      DB4SC-III9.16$\pm $0.34161.20$\pm $2.56161.20$\pm $2.56
                      ${\rm{BSC - }}{{\rm{I}}_3}$3.79$\pm $0.6854.20$\pm $0.84162.60$\pm $2.51
                      ${\rm{BSC - }}{{\rm{I}}_5}$2.59$\pm $0.1333.40$\pm $0.89167.00$\pm $4.47
                      ${\rm{HPSCN}}_1^1$4.23$\pm $0.13154.80$\pm $2.59154.80$\pm $2.59
                      ${\rm{HPSCN}}_3^1$2.01$\pm $0.1359.00$\pm $2.00162.60$\pm $2.41
                      ${\rm{HPSCN}}_5^1$1.36$\pm $0.1134.20$\pm $1.09166.20$\pm $3.03
                      下載: 導出CSV

                      表  4  不同塊寬的算法性能比較

                      Table  4  Performance comparison of algorithms with different block sizes

                      數據集算法nRnLEff (%)
                      DB1${\rm{HPSCN}}_1^1$61.361.149.9
                      ${\rm{HPSCN}}_2^1$63.822.426.0
                      ${\rm{HPSCN}}_3^1$52.812.619.3
                      ${\rm{HPSCN}}_5^1$42.52.55.6
                      ${\rm{HPSCN}}_{10}^1$24.20.62.4
                      DB2${\rm{HPSCN}}_1^1$119.2120.150.2
                      ${\rm{HPSCN}}_2^1$115.056.432.9
                      ${\rm{HPSCN}}_3^1$99.224.319.7
                      ${\rm{HPSCN}}_5^1$74.27.69.3
                      ${\rm{HPSCN}}_{10}^1$44.60.40.9
                      DB3${\rm{HPSCN}}_1^1$48.448.650.1
                      ${\rm{HPSCN}}_2^1$40.823.436.4
                      ${\rm{HPSCN}}_3^1$33.67.618.4
                      ${\rm{HPSCN}}_5^1$24.01.04.0
                      ${\rm{HPSCN}}_{10}^1$13.60.21.4
                      DB4${\rm{HPSCN}}_1^1$77.377.550.0
                      ${\rm{HPSCN}}_2^1$64.229.431.4
                      ${\rm{HPSCN}}_3^1$51.87.212.2
                      ${\rm{HPSCN}}_5^1$33.01.23.5
                      ${\rm{HPSCN}}_{10}^1$17.00.21.1
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Chen Xing, Niu Ya-Wei, Wang Guang-Hui, Yan Gui-Ying. MKRMDA: Multiple Kernel Learning-based Kronecker Regularized Least Squares for MiRNA-disease Association Prediction. Journal of Translational Medicine, 2013, 15(1): 251?264
                      [2] 周平, 劉記平. 基于數據驅動多輸出ARMAX建模的高爐十字測溫中心溫度在線估計. 自動化學報, 2018, 44(3): 552?561

                      2 Zhou Ping, Liu Ji-ping. Data-driven Multi-output ARMAX Modeling for Online Estimation of Central Temperatures for Cross Temperature Measuring in Blast Furnace Ironmaking. Acta Automatica Sinica, 2018, 44(3): 552?561
                      [3] 湯健, 喬俊飛, 柴天佑, 劉卓, 吳志偉. 基于虛擬樣本生成技術的多組分機械信號建模. 自動化學報, 2018, 44(9): 1569?1589

                      3 Tang Jian, Qiao Jun-Fei, Chai Tian-You, Liu Zhuo, Wu ZhiWei. Modeling Multiple Components Mechanical Signals by Means of Virtual Sample Generation Technique. Acta Automatica Sinica, 2018, 44(9): 1569?1589
                      [4] Witten Ian H, Frank E, Hall M A. Data Mining: Practical Machine Learning Tools and Technique, third edition. Amsterdam: Morgan Kaufmann, 2011
                      [5] 5 Pao Y H, Takefji Y. Functional-link Net Computing: Theory, System Architecture, and Functionalities. Computer, 1992, 25(5): 76?79 doi:  10.1109/2.144401
                      [6] 6 Schmidt W F, Kraaijveld M A, Duin R P W. Feedforward neural networks with random weights. International Conference on Pattern Recognition IEEE Computer Society, 1992
                      [7] 7 Cao Wei-Peng, Wang Xi-Zhao, Ming Zhong, Gao Jin-Zhu. A Review on Neural Networks with Random Weights. Neurocomputing, 2018, 275: 278?287 doi:  10.1016/j.neucom.2017.08.040
                      [8] 8 Scardapane S, Wang Dian-Hui. Randomness in Neural Networks: An Overview. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 2017, 7(2): e1200 doi:  10.1002/widm.1200
                      [9] 9 Lu Jing, Zhao Jian-Wei, Cao Fei-Long. Extended Feed Forward Neural Networks with Random Weights for Face Recognition. Neurocomputing, 2014, 136: 96?102 doi:  10.1016/j.neucom.2014.01.022
                      [10] 10 Dai Wei, Liu Qiang, Chai Tian-You. Particle Size Estimate of Grinding Processes Using Random Vector Functional Link Networks with Improved Robustness. Neurocomputing, 2015, 169: 361?372 doi:  10.1016/j.neucom.2014.08.098
                      [11] 11 Dai Weo, Chen Qi-Xin, Chu Fei, Chai Tian-You. Robust Regularized Random Vector Functional Link Network and Its Industrial Application. IEEE Access, 2017, 5: 16162?16172 doi:  10.1109/ACCESS.2017.2737459
                      [12] 12 Li Ming, Wang Dian-Hui. Insights into Randomized Algorithms for Neural Networks: Practical Issues and Common Pitfalls. Information Sciences, 2017, 382: 170?178
                      [13] 13 Gorban A N, Tyukin I Y, Prokhorov D V, Sofeikov K I. Approximation with Random Bases: Pro et contra. Information Sciences, 2016, 364: 129?145
                      [14] 14 Wang Dian-Hui, Li Ming. Stochastic Configuration Networks: Fundamentals and Algorithms. IEEE Transactions on Cybernetics, 2017, 47(10): 3466?3479 doi:  10.1109/TCYB.2017.2734043
                      [15] 15 Zhu Xiao-Long, Feng Xiang-Chu, Wang Wei-Wei, Jia XiXi, He Rui-Qiang. A Further Study on the Inequality Constraints in Stochastic Configuration Networks. Information Sciences, 2019, 487: 77?83 doi:  10.1016/j.ins.2019.02.066
                      [16] 16 Wang Dian-Hui, Cui Cai-Hao. Stochastic Configuration Networks Ensemble for Large-Scale Data Analytics. biochemical treatment process. Information Sciences, 2017, 417: 55?71
                      [17] 17 Sheng Zhui-Yong, Zeng Zhi-Qiang, Qu Hong-Quan, Zhang Yuan. Optical fiber intrusion signal recognition method based on TSVD-SCN. Optical Fiber Technology, 2019, 48: 270?277 doi:  10.1016/j.yofte.2019.01.023
                      [18] 王前進, 楊春雨, 馬小平, 張春富, 彭思敏. 基于隨機配置網絡的井下供給風量建模. 自動化學報, doi:  10.16383/j.aas.c190602

                      18 Wang Qian-Jin, Yang Chun-Yu, Ma Xiao-Ping, Zhang Chun-Fu, Peng Si-Min. Underground Airflow Quantity Modeling Based on SCN. Acta Automatica Sinica, $ref.ref_year doi:  10.16383/j.aas.c190602
                      [19] 19 Wang Dian-Hui, Li Ming. Deep Stochastic Configuration Networks with Universal Approximation Property. In 2018 International Joint Conference on Neural Networks, 2018
                      [20] 20 Wang Dian-Hui, Li Ming. Robust Stochastic Configuration Networks with Kernel Density Estimation for Uncertain Data Regression. Information Sciences, 2017, 412-413: 210?222 doi:  10.1016/j.ins.2017.05.047
                      [21] 21 Li Ming, Huang Chang-Qin, Wang Dian-Hui. Robust Stochastic Configuration Networks with Maximum Correntropy Criterion for Uncertain Data Regression. Information Sciences, 2019, 473: 73?86 doi:  10.1016/j.ins.2018.09.026
                      [22] 22 He Qing, Shang Tang-Feng, Zhuang Fu-Zhen, Shi Zhon-Zhi. Parallel Extreme Learning Machine for Regression Based on MapReduce. Neurocomputing, 2013, 102: 52?58 doi:  10.1016/j.neucom.2012.01.040
                      [23] 23 Duan Ming-Xing, Li Ken-Li, Liao Xiang-Ke, Li Ke-Qin. A Parallel Multiclassification Algorithm for Big Data Using an Extreme Learning Machine. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2337?2351 doi:  10.1109/TNNLS.2017.2654357
                      [24] 24 Wang Yue-Qing, Dou Yong, Liu Xin-Wang, Lei Yuan-Wu. PR-ELM: Parallel Regularized Extreme Learning Machine Based on Cluster. Neurocomputing, 2016, 173: 1073?1081 doi:  10.1016/j.neucom.2015.08.066
                      [25] Lancaster P, Tismenetsky M. The Theory of Matrices: With Applications. Elsevier, 1985
                      [26] 26 Dai Wei, Li De-Peng, Zhou Ping, Chai Tian-You. Stochastic Configuration Networks with Block Increments for Data Modeling in Process Industries. Information Sciences, 2019, 484: 367?386 doi:  10.1016/j.ins.2019.01.062
                      [27] 27 Dai Wei, Zhou Ping, Zhao Da-Yong, Lu Shao-Wen, Chai Tian-You. Hardware-in-the-loop Simulation Platform for Supervisory Control of Mineral Grinding Process. Powder technology, 2016, 288: 422?434 doi:  10.1016/j.powtec.2015.11.032
                      [28] UCI Machine Learning Repository. [Online], available: https://archive.ics.uci.edu, 2013
                      [29] KEEL Data-Mining Software Tool: Data Set Repository, Integration of Algorithms and Experimental Analysis Framework. [Online], available: http://www.keel.es/, 2011
                    • [1] 秦超, 高曉光, 萬開方. 深度卷積記憶網絡時空數據模型[J]. 自動化學報, doi: 10.16383/j.aas.c180788
                      [2] 韓中, 程林, 熊金泉, 劉滿君. 大數據結構化與數據驅動的復雜系統維修決策[J]. 自動化學報, doi: 10.16383/j.aas.c170638
                      [3] 于洪, 何德牛, 王國胤, 李劼, 謝永芳. 大數據智能決策[J]. 自動化學報, doi: 10.16383/j.aas.c180861
                      [4] 張宇, 包研科, 邵良杉, 劉威. 面向分布式數據流大數據分類的多變量決策樹[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160809
                      [5] 鄭治豪, 吳文兵, 陳鑫, 胡榮鑫, 柳鑫, 王璞. 基于社交媒體大數據的交通感知分析系統[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160537
                      [6] 李飛, 高曉光, 萬開方. 基于改進并行回火算法的RBM網絡訓練研究[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160326
                      [7] 吳信東, 何進, 陸汝鈐, 鄭南寧. 從大數據到大知識:HACE+BigKE[J]. 自動化學報, doi: 10.16383/j.aas.2016.c160239
                      [8] 劉強, 秦泗釗. 過程工業大數據建模研究展望[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150510
                      [9] 萬九卿, 劉青云. 基于高階時空模型的視覺傳感網絡數據關聯方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2012.00236
                      [10] 王聰, 陳填銳, 劉騰飛. 確定學習與基于數據的建模及控制[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00693
                      [11] 于艾清, 顧幸生. 基于耦合瞬態混沌神經網絡的同等并行機調度[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00697
                      [12] 常亮, 鄧小明, 鄭碎武, 王永慶. 基于核集合的大數據快速Kernel Grower 聚類方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00376
                      [13] 彭真明, 蔣彪, 肖峻, 孟凡斌. 基于并行點火PCNN模型的圖像分割新方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.01169
                      [14] 張立權, 邵誠. 利用數據產生模糊推理系統的自適應學習方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00080
                      [15] 吳健康, 董梁, 包曉明. 數據流分隔——傳感網絡中的一種數據融合方法[J]. 自動化學報
                      [16] 邢宗義, 賈利民, 張永, 胡維禮, 秦勇. 一類基于數據的解釋性模糊建模方法的研究[J]. 自動化學報
                      [17] 李鴻儒, 顧樹生. 一種遞歸神經網絡的快速并行算法[J]. 自動化學報
                      [18] 王愛群, 鄭南京, 袁立行. 并行分層二維多速度運動檢測模型[J]. 自動化學報
                      [19] 張玉云, 熊光楞, 李伯虎. 并行工程方法、技術與實踐[J]. 自動化學報
                      [20] 鄭南寧, 劉健勤, 王慶元. 用于圖像分割的并行自適應層次化網絡模型[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  3146
                    • HTML全文瀏覽量:  822
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-05-27
                    • 錄用日期:  2019-12-02
                    • 網絡出版日期:  2019-12-24

                    一種隨機配置網絡的模型與數據混合并行學習方法

                    doi: 10.16383/j.aas.c190411
                      基金項目:  國家自然科學基金(61603393, 61973306), 江蘇省自然科學基金(BK20160275), 中國博士后科學基金(2018T110571), 流程工業綜合自動化國家重點實驗室開放基金資助(PAL-N201706)
                      作者簡介:

                      中國礦業大學信息與控制工程學院副教授. 主要研究方向為復雜工業過程建模、運行優化與控制. 本文通信作者. E-mail: weidai@cumt.edu.cn

                      中國礦業大學信息與控制工程學院碩士研究生. 主要研究方向為數據驅動建模、機器學習算法. E-mail:dpli@cumt.edu.cn

                      中國礦業大學信息與控制工程學院教授. 于2009年獲得東北大學博士學位. 主要研究方向為廣義系統和魯棒控制. E-mail: chunyuyang@cumt.edu.cn

                      中國礦業大學信息與控制工程學院教授. 主要研究方向為過程控制、網絡控制與故障診斷. E-mail: xpma@cumt.edu.cn

                    摘要: 隨機配置網絡(Stochastic configuration networks, SCNs)在增量構建過程引入監督機制來分配隱含層參數以確保其無限逼近特性, 具有易于實現、收斂速度快、泛化性能好等優點. 然而, 隨著數據量的不斷擴大, SCNs的建模任務面臨一定的挑戰性. 為了提高神經網絡算法在大數據建模中的綜合性能, 本文提出了一種混合并行隨機配置網絡(Hybrid parallel stochastic configuration networks, HPSCNs)架構, 即: 模型與數據混合并行的增量學習方法. 所提方法由不同構建方式的左右兩個SCNs模型組成, 以快速準確地確定最佳隱含層節點, 其中左側采用點增量網絡(PSCN), 右側采用塊增量網絡(BSCN); 同時每個模型建立樣本數據的動態分塊方法, 從而加快候選“節點池”的建立、降低計算量. 所提方法首先通過大規?;鶞蕯祿M行了對比實驗, 然后應用在一個實際工業案例上, 表明其有效性.

                    English Abstract

                    代偉, 李德鵬, 楊春雨, 馬小平. 一種隨機配置網絡的模型與數據混合并行學習方法. 自動化學報, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    引用本文: 代偉, 李德鵬, 楊春雨, 馬小平. 一種隨機配置網絡的模型與數據混合并行學習方法. 自動化學報, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    Dai Wei, Li De-Peng, Yang Chun-Yu, Ma Xiao-Ping. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    Citation: Dai Wei, Li De-Peng, Yang Chun-Yu, Ma Xiao-Ping. A model and data hybrid parallel learning method for stochastic configuration networks. Acta Automatica Sinica, 2019, 45(x): 1?11. doi: 10.16383/j.aas.c190411
                    • 信息技術的迅速發展使得生產制造行業進入大數據時代, 這為數據建模提供了大量的數據樣本, 使得數據驅動建模在不同領域產生廣闊的應用空間[1-3]. 然而, 系統復雜度和數據規模的日益增大為數據建模算法帶來新的挑戰. 模型精度取決于樣本的質量與數量, 但超過一定規模的樣本數據, 會顯著增加網絡參數訓練與優化的成本, 且難以有效學習, 導致模型的整體性能下降[4]. 在采用傳統神經網絡算法進行大數據建模時, 所得到的模型往往存在訓練耗時、網絡結構復雜等問題, 難以滿足實際應用的需求. 因此, 建立一種能夠從大量數據中快速、高效學習的策略具有重要意義.

                      上世紀90年代, 文[5]提出的隨機向量函數鏈接網絡, 與文[6]提出的另一種具有隨機權值的單層前饋神經網絡等被統稱為隨機權神經網絡(Random weight neural networks, RWNNs)[7-8]. 其特征在于隱含層參數(輸入權值和偏置)在給定的區間內隨機產生, 只需解析求解網絡輸出權值. 因RWNNs實現簡單、建模速度快等優勢受到了廣泛的關注. 文[9]設計了一種二維RWNNs分類器, 用于人臉識別, 其使用兩組輸入權值直接以特征矩陣作為輸入而不用轉換成向量形式, 能夠有效保留圖像數據的空間信息, 具有良好的分類性能. 文[10]將非參數的核密度估計方法與加權最小二乘估計引入到RWNNs的學習算法, 通過評估每個訓練樣本對于建模的貢獻度來抑制噪聲數據或離群點的負面影響, 從而建立了魯棒RWNN以及在線學習算法. 在此基礎上, 文[11]進一步引入正則項來防止過擬合現象, 有效減小輸出權值, 在一定程度上降低了模型復雜度. 然而, 兩個本質缺陷使得RWNNs的應用受到一定的限制: 1)隱含層節點數不能先于訓練而確定, 即難以設定合適的網絡結構; 2)隱含層參數在固定不變的區間內產生, 影響其實際逼近特性[12-13].

                      為了解決上述問題, Wang等人首次提出了一種隨機增量學習技術, 即隨機配置網絡(Stochastic configuration networks, SCNs)[14]. SCNs在一個可調區間內隨機分配隱含層參數, 并創新性地引入監督機制加以約束, 確保了其無限逼近特性. 作為一種增量學習算法, SCNs在每次的增量學習過程中, 均建立候選“節點池”以選出最佳節點, 加快了收斂速度; 同時, 網絡結構也可在增量學習過程中確定. 針對SCNs監督機制中關鍵參數的選擇問題, 文[15]指導性地給出了兩種不等式約束, 從而提高了隨機參數配置的效率, 有助于候選“節點池”的建立. 文[16]以SCNs作為基模型, 采用負相關學習策略來配置輸出權值, 提出了一種快速解除相關異構神經元的集成學習方法. 文[17]針對隱含層輸出矩陣可能存在的多重共線性等不適定情況, 在計算輸出權值時采用截斷奇異值分解對重新構建的輸出矩陣進行廣義逆運算, 建立了TSVD-SCN模型. 文[18]通過引入正則化技術, 進一步提升SCNs的泛化性能. 文[19]通過理論分析和算法實現將SCNs推廣到深度結構, 即DeepSCNs. 結果表明, 相比其他深度神經網絡, DeepSCNs可以快速有效地生成, 且學習特性和泛化性能之間具有一致性. 此外, 文[20]和[21]分別提出了兩種不同的魯棒SCNs算法用于受污染數據的建模問題.

                      然而, 現有的SCNs及其相關算法均采用點增量的構建方式. 在大數據建模任務中, 往往需要大量的迭代和耗時的偽逆運算. 為解決采用傳統計算方式將產生過大計算損耗的問題, 本文研究SCNs并行學習方法, 以提高SCNs在大數據應用中的效率.

                      現有面向大數據的神經網絡并行建模的研究成果可分為數據或者模型并行兩類[22-24]. 數據并行是將數據集分成若干數據塊以同時處理, 模型并行是將參數進行并行劃分以同時求解. 本文針對SCNs增量學習過程中網絡結構動態變化的特點, 提出一種新穎的模型與數據混合并行的增量學習方法. 主要貢獻在于: 將點增量和塊增量兩種增量模型構建方法進行并行, 左側為點增量SCN (PSCN), 右側為塊增量SCN(BSCN). 其中, PSCN每次迭代隱含層節點單個增加, 以準確地找到最佳網絡結構, BSCN每次迭代隱含層節點按塊添加, 具有較快的收斂速度. 同時針對樣本數據維數高、數據量大導致的計算耗時問題, 采用一種基于動態分塊策略的數據并行方法, 其在增量學習過程的不同階段, 根據當前節點數將訓練數據劃分為不同的數據塊, 從而采用并行計算方式, 同步進行運算; 然后, 在PSCN與BSCN計算輸出權值時整合數據塊, 并通過比較殘差, 擇優選取模型參數. 對所形成的混合并行隨機配置網絡(Hybrid parallel stochastic configuration networks, HPSCNs)進行對比實驗, 結果表明, 其具有資源利用率高、建模速度快、網絡模型緊致等優點.

                      • 對于給定的$ N $組訓練集樣本$ \left( {{{{x}}_i},{{\bf{t}}_i}} \right) $, 其輸入 $ {{X}}=\left\{ {{{{x}}_1}, {{{x}}_2}, \cdots ,{{{x}}_N}} \right\} $, $ {{{x}}_i}=\left\{ {{x_{i,1}}, \cdots ,{x_{i,d}}} \right\} \in{{\bf{R}}^d} $, 相應的輸出$ {{T}}{\rm{=}}\left\{ {{{{t}}_1},{{{t}}_2}, \cdots ,{{{t}}_N}} \right\} $, $ {{{t}}_i}=\left\{ {t_{i,1}}, \cdots , {t_{i,m}} \right\} \in$$ {{\bf{R}}^m} $. 其中$ i=1,2, \cdots ,N $. 具有$ L $個隱含層節點的RWNNs模型可以表示為:

                        $$ {f_L}({{X}})=\sum\limits_{j=1}^L {{{{\beta }}_j}} {{{g}}_j}({{{v}}_j},{b_j},{{X}}) $$ (1)

                        其中, $ {{{g}}_j}\left( \cdot \right) $表示隱含層第$ j $個節點的激活函數, 隱含層參數($ {{{v}}_j} $$ {b_j} $)分別在區間$ {\left[ { - \lambda ,\lambda } \right]^d} $$ \left[ { - \lambda ,\lambda } \right] $隨機生成, $ {{{\beta }}_j}{\rm{=}}{\left[ {{\beta _{j,1}}, \cdots ,{\beta _{j,q}},\cdots,{\beta _{j,m}}} \right]^{\rm{T}}} $為隱含層第$ j $個節點與$ m $個輸出節點之間的輸出權值, $ {f_L} $即當前網絡的輸出. 模型參數可以通過求解如下的二次型優化問題獲得.

                        $$ \left\{ {{{{\beta }}_1}, \cdots ,{{{\beta }}_L}} \right\}=\mathop {\min }\limits_{} {\sum\limits_{i=1}^N {\left\| {\sum\limits_{j=1}^L {{{{\beta }}_j}} {{{g}}_j}\left( {{{{v}}_j},{b_j},{{{x}}_i}} \right) - {{{t}}_i}} \right\|} ^2} $$ (2)

                        上述等式可以進一步表示為矩陣形式:

                        $$ {{{\beta }}^ * }=\arg \mathop {\min }\limits_{{\beta }} {\left\| {{{H\beta }} - {{T}}} \right\|^2}={{{H}}^{\dagger } }{{T}} $$ (3)

                        其中

                        $$ {{H}}=\left[ {\begin{array}{*{20}{c}} {g\left( {{{{v}}_1},{b_1},{{{x}}_1}} \right)}& \cdots &{g\left( {{{{v}}_L},{b_L},{{{x}}_1}} \right)}\\ \vdots & \cdots & \vdots \\ {g\left( {{{{v}}_1},{b_1},{{{x}}_N}} \right)}& \cdots &{g\left( {{{{v}}_L},{b_L},{{{x}}_N}} \right)} \end{array}} \right] $$ (4)

                        為隱含層輸出矩陣, $ {{{H}}^{\dagger } } $為其Moore-Penrose廣義逆[25].

                        通常, 傳統RWNNs所需要的節點數往往只能針對特定建模任務采用交叉驗證法確定, 實驗過程耗時, 且網絡結構的確定取決于交叉驗證時所選擇的參數.

                      • 增量構造學習算法是解決網絡結構的一種有效方法, 從隨機產生第一個節點$ {{{g}}_1}=g\left( {{{{v}}_1},{b_1},{{x}}} \right) $開始, 向網絡中逐漸增加節點; 相應地, 輸出權值為$ {{\beta} _1}{\rm{=}}{{{\left\langle {{{{e}}_0},{{{g}}_1}} \right\rangle } / {\left\| {{{{g}}_1}} \right\|}}^2} $, 其中$ {{{e}}_0}{\rm{=}}f $; 更新$ {{{e}}_1}{\rm{=}}f - {{\beta} _1}{{{g}}_1} $[12]. 通過重復上述過程可以同時解決網絡結構和參數優化問題, 增量RWNNs的構造過程如下.

                        首先, 設定增量學習的期望精度, 其輸出$ {f_L} $可以表示為先前網絡$ {f_{L - 1}} $與新增節點$ {{{g}}_L} $($ {{{v}}_L} $$ {b_L} $)的特定組合, 即:

                        $$ {f_L}(x)={f_{L{\rm{ - }}1}}(x) + {{\beta} _L}{{{g}}_L}(x) $$ (5)

                        其中, 新增節點的輸出權值依據下式

                        $$ {{{\beta }}_L}{\rm{=}}\frac{{\left\langle {{{{e}}_{L - 1}},{{{g}}_L}} \right\rangle }}{{{{\left\| {{{{g}}_L}} \right\|}^2}}} $$ (6)

                        且先前網絡的殘差

                        $$ {{{e}}_{L - 1}}=f - {f_{L - 1}}={\left[ {{{{e}}_{L - 1,1}}, \cdots ,{{{e}}_{L - 1,m}}} \right]} $$ (7)

                        增量RWNNs雖然解決了傳統RWNNs難以確定網絡結構的問題, 但網絡的輸入權值和偏置通常選擇在固定區間(如[?1, 1])內產生, 這種與樣本數據無關的參數設定方式導致RWNNs的逼近特性具有不確定性. 因此, 隨機參數的產生應該依賴于建模數據并加以約束.

                      • SCNs作為一種先進的隨機學習技術, 其本質特征在于隨機產生的輸入權值和偏置需要滿足監督機制, 并采用數據依賴策略動態調整隨機區間, 有效解決了RWNNs及其增量構造學習算法的本質缺陷. 然而, 傳統SCNs均是采用點增量的方式來構建網絡(PSCN), 即一次迭代過程只能添加一個節點. 采用這種方法, 每一個新增節點都需要重新建模, 當所需節點數較多時, 網絡的構建就會變得相對復雜、耗時. 從特征學習的角度來說, 前饋神經網絡從輸入樣本空間去逼近復雜非線性函數的能力很大程度上取決于隱含層的特征映射, 即從低維輸入數據到高維特征空間. 而節點可以被認為是高維空間的特征. 那么, 每次只增加一個節點則在很大程度上限制了特征的獲取. 因此, 使用點增量方法構建SCNs的過程往往需要較多的迭代, 不可避免地增加了計算量、影響了建模效率. 鑒于此, 我們最近的工作[26]將傳統點增量SCNs推廣為允許同時添加多個隱含層節點(節點塊)的塊增量網絡(BSCN), 用于加快構建過程.

                        點增量與塊增量算法分別具有網絡結構緊致但收斂速度慢和收斂速度快但模型不緊致的特點. 為了進一步提高算法的綜合性能, 本文對傳統SCNs進行改進, 提出了一種新的混合并行增量學習方法, 即: HPSCNs, 以應對大數據建模. 主要思想是: 在同一個建模任務中, 使用點和塊兩種增量構建模型方法進行并行學習, 且在學習過程中將樣本數據隨學習過程動態劃分為多個數據塊, 從而采用并行計算擇優選取模型參數.

                      • HPSCNs由PSCN和BSCN組成, 以單輸出為例, 其模型并行結構如圖1所示. 這里添加節點的過程被稱為迭代. 在訓練過程中, PSCN的構建方式采用點增量方法(隱含層節點每次迭代單個增加), 從而保證相對準確地找到最佳隱含層節點; BSCN的構建方式采用塊增量方法(隱含層節點每次迭代按塊添加), 以提高模型的收斂速度.

                        圖  1  模型并行結構圖

                        Figure 1.  The structure diagram of model parallelism

                        該策略采用平行網絡并行計算. 即在增量學習過程中, 平行的PSCN與BSCN通過并行計算被獨立地構建; 每次迭代結束后, 以當前網絡殘差為指標, 保留其中較優的網絡, 并將其模型參數作為本次迭代的最終結果; 同時將該結果賦值給另一個網絡以更新其節點數, 然后進行下一次迭代.

                      • 圖1所示的模型并行增量學習方法, 左側采用傳統點增量隨機配置網絡PSCN, 其學習過程約束根據引理1獲得.

                        引理 1([14]): 令$ \Gamma :=\left\{ {{g_1},{g_2},{g_3}, \cdots } \right\} $表示一組實值函數, $ {\rm{span}}(\Gamma ) $表示由$ \Gamma $組成的函數空間. 假設$ {\rm{span}}(\Gamma ) $稠密于$ {L_2} $空間且$ \forall g \in \Gamma $, $ 0 < \left\| g \right\| < {b_g} $, 其中$ {b_g} \in {{\bf{R}}^ + } $. 給定$ 0 < r < 1 $以及非負實值序列$ \left\{ {{\mu _L}} \right\} $, 其中$ \mathop {\lim }\limits_{L \to \infty } {\mu _L}=0 $, $ {\mu _L} \le \left( {1 - r} \right) $. 對于$ L =1,2,\cdots, $定義

                        $$ \delta _{L,q}^{}=\left( {1 - r - {\mu _L}} \right){\left\| {{{e}}_{L - 1,q}^{}} \right\|^2}, q=1,2, \cdots ,m. $$ (8)

                        若激活函數$ {{{g}}_L} $滿足下列不等式約束:

                        $$ {\left\langle {{{e}}_{L - 1,q}^{},{{{g}}_L}} \right\rangle ^2} \ge b_g^2\delta _{L,q}^{}, q=1,2, \cdots ,m . $$ (9)

                        并且輸出權值通過公式(3)計算, 那么$ \mathop {\lim }\limits_{L \to \infty } \left\| {f - {f_L}} \right\|=0 $恒成立.

                        在上述定理中, 將公式(8)代入(9), 可以得到點增量學習的監督機制:

                        $$ \begin{split} {\xi _{L,q}} =\;&\frac{{{{\left\langle {{{e}}_{L - 1, q}^{},{{g}}_L^{}} \right\rangle }^2}}}{{{{g}}_L^{\rm{T}}{{g}}_L^{}}}-\\ & \left( {1 - r - {\mu _L}} \right)\left\langle {{{e}}_{L - 1, q}^{},{{e}}_{L - 1, q}^{}} \right\rangle > 0 \end{split} $$ (10)

                        其中$ q=1,2, \cdots ,m $, $ {\mu _L}={{1 - r} / {L + 1}} $.

                        網絡構建過程簡述如下:

                        ● 在可調區間內隨機產生隱含層參數($ {{{v}}_L} $$ {b_L} $), 將滿足公式(10)的節點作為候選節點, 并保留最大的$ {\xi_{L,q}} $所對應的隨機參數;

                        ● 輸出權值$ {{\beta }} $通過公式(3)求解全局最小二乘得到;

                        ● 計算PSCN當前訓練殘差$ {{{e}}_L} $, 判斷是否滿足停止條件.

                      • 按照塊增量方法, 將引理1進行推廣, 有如下引理2.

                        引理 2([26]): 給定$ 0 < r < 1 $以及非負實值序列$ \left\{ {{\mu _L}} \right\} $, 其中$ \mathop {\lim }\limits_{L \to \infty } {\mu _L}=0 $, $ {\mu _L} \le \left( {1 - r} \right) $. 對于$L=1, $$ 2, \cdots$, $ {\Delta _k} \in \left\{ L \right\} $, 若隱含層輸出塊$ {{{H}}_{{\Delta _k}}} $滿足下列塊增量形式的監督機制:

                        $$ \begin{split} {\xi _{L,q}}=\;&\left\langle {{{e}}_{L - {\Delta _k},q}^{},{{{H}}_{{\Delta _k}}}{{{\tilde{ \beta }}}_{{\Delta _k},q}}} \right\rangle - \\ &\left( {1 - r - {\mu _L}} \right)\left\langle {{{e}}_{L - {\Delta _k}, q}^{},{{e}}_{L - {\Delta _k}, q}^{}} \right\rangle > 0 \end{split} $$ (11)

                        那么$ \mathop {\lim }\limits_{L \to \infty } \left\| {f - {f_{L - {\Delta _k}}}} \right\|=0 $恒成立. 其中塊寬$ {\Delta_k} $表示第$ k $次迭代中新加入的節點塊; ${{e}}_{L - {\Delta _k}}^{}{\rm{=}} $$ f - {f_{L - {\Delta _k}}} $表示第$ k-1 $次迭代結束時的訓練殘差; $ {{{H}}_{{\Delta _k}}}={\left[ {{{{g}}_{L - {\Delta _k} + 1}}, \cdots ,{{{g}}_L}} \right]_{N \times {\Delta _k}}} $表示第$ k $次迭代時的隱含層輸出塊; 而

                        $$ {{\tilde{ \beta }}_{{\Delta _k},q}}{\rm{=}}{\left( {{{H}}_{{\Delta _k}}^{\rm{T}}{{{H}}_{{\Delta _k}}}} \right)^{\dagger } }{{H}}_{{\Delta _k}}^{\rm{T}}{{e}}_{L - {\Delta _k},q}^{} $$ (12)

                        表示第$ k $次迭代中的輸出權值的中值.

                        BSCN的增量學習過程在PSCN的基礎上, 根據公式(11)在可調區間內隨機產生新增節點塊($ {{{v}}_{{\Delta _k}}} $$ {{}_{{\Delta _k}}} $), 從而實現了批量分配隱含層參數和按塊增加隱含層節點.

                      • 模型并行增量學習過程當前網絡節點數為$ L $時, 令新增節點數為$ l \in \left\{ {1,{\Delta _k}} \right\} $有:

                        $$ \begin{split} & {\left\| {{{{e}}_{L + l}}} \right\|^2} - \left( {r + {\mu _{L + l}}} \right){\left\| {{{{e}}_L}} \right\|^2} =\\ &\quad \min \left\{ {{{\left\| {{{{e}}_{L + 1}}} \right\|}^2},{{\left\| {{{{e}}_{L + {\Delta _k}}}} \right\|}^2}} \right\} - \left( {r + {\mu _{L + l}}} \right){\left\| {{{{e}}_L}} \right\|^2} =\\&\quad \left\| {{{e}}_{L + l}^ * } \right\| - \left( {r + {\mu _{L + l}}} \right){\left\| {{{{e}}_L}} \right\|^2} \end{split} $$ (13)

                        其中, $ {{e}}_{L + l}^ * $表示模型并行學習時不同構建方式下新增節點的最佳殘差.

                        1) 點增量($ l=1 $)時:

                        $$ \begin{split} & \left\| {{{e}}_{L + 1}^ * } \right\| - \left( {r + {\mu _{L + 1}}} \right){\left\| {{{{e}}_L}} \right\|^2} \le \\ & \qquad{\left\| {{{{\tilde{ e}}}_{L + {\Delta _k}}}} \right\|^2} - \left( {r + {\mu _{L + {\Delta _k}}}} \right){\left\| {{{{e}}_L}} \right\|^2} =\\ &\qquad\sum\limits_{q=1}^m {\left\langle {{{{e}}_{L,q}} - {{\tilde \beta }_{L + 1,q}}{{{g}}_{L + 1}}, {{{e}}_{L,q}} - {{\tilde \beta }_{L + 1,q}}{{{g}}_{L + 1}}} \right\rangle } -\\ &\qquad\sum\limits_{q=1}^m {\left( {r + {\mu _{L + 1}}} \right)\left\langle {{{{e}}_{L,q}}, {{{e}}_{L,q}}} \right\rangle }= \\ &\qquad\left( {1 - r - {\mu _{L + 1}}} \right){\left\| {{{{e}}_L}} \right\|^2} - \frac{{\displaystyle\sum\nolimits_{q=1}^m {{{\left\langle {{{{e}}_{L,q}},{{{g}}_{L + 1}} } \right\rangle }^2}} }}{{{{\left\| {{{{g}}_{L + 1}}} \right\|}^2}}}=\\ &\qquad{\delta _{L + 1}} - \frac{{\displaystyle\sum\nolimits_{q=1}^m {{{\left\langle {{{{e}}_{L,q}},{{{g}}_{L + 1}} } \right\rangle }^2}} }}{{{{\left\| {{{{g}}_{L + 1}}} \right\|}^2}}}\le\\ &\qquad{\delta _{L + 1}} - \frac{{\displaystyle\sum\nolimits_{q=1}^m {{{\left\langle {{{{e}}_{L,q}},{{{g}}_{L + 1}} } \right\rangle }^2}} }}{{b_g^2}} \end{split} $$ (14)

                        根據引理1可得$ \left\| {{{e}}_{L + 1}^ * } \right\| - \left( {r + {\mu _{L + 1}}} \right){\left\| {{{{e}}_L}} \right\|^2} \le 0 $.

                        2) 塊增量($ l={\Delta _k} $)時:

                        $$ \begin{split} & \left\| {{{e}}_{L + {\Delta _k}}^ * } \right\| - \left( {r + {\mu _{L + {\Delta _k}}}} \right){\left\| {{{{e}}_L}} \right\|^2} \le \\ &\qquad{\left\| {{{{\tilde{ e}}}_{L + {\Delta _k}}}} \right\|^2} - \left( {r + {\mu _{L + {\Delta _k}}}} \right){\left\| {{{{e}}_L}} \right\|^2} =\\ &\qquad\sum\limits_{q=1}^m {\left\langle {{{{e}}_{L,q}} - {{{H}}_{{\Delta _k}}}{{{\tilde{ \beta }}}_{{\Delta _k},q}}, {{{e}}_{L,q}} - {{{H}}_{{\Delta _k}}}{{{\tilde{ \beta }}}_{{\Delta _k},q}}} \right\rangle }- \\ &\qquad\sum\limits_{q=1}^m {\left( {r + {\mu _{L + {\Delta _k}}}} \right)\left\langle {{{{e}}_{L,q}}, {{{e}}_{L,q}}} \right\rangle } = \\ &\qquad{\delta _{L + {\Delta _k}}} - \sum\limits_{q=1}^m {\left( {{{e}}_{L,q}^{\rm{T}}{{{H}}_{{\Delta _k}}}{{\left( {{{H}}_{{\Delta _k}}^{\rm{T}}{{{H}}_{{\Delta _k}}}} \right)}^{\dagger } }{{H}}_{{\Delta _k}}^{\rm{T}}{{{e}}_{L,q}}} \right)} =\\ &\qquad{\delta _{L + {\Delta _k}}} - \sum\limits_{q=1}^m {\left\langle {{{{e}}_{L,q}},{{{H}}_{{\Delta _k}}}{{{\tilde{ \beta }}}_{{\Delta _k},q}}} \right\rangle } \end{split} $$ (15)

                        根據引理2可得$ \left\| {{{e}}_{L + {\Delta _k}}^ * } \right\| - \left( {r + {\mu _{L + {\Delta _k}}}} \right) {\left\| {{{{e}}_L}} \right\|^2} \le$$ 0 $.

                        由以上分析可知, 公式(13)$ \left\| {{{e}}_{L + l} } \right\| - \left( {r + {\mu _{L + l}}} \right)$${\left\| {{{{e}}_L}} \right\|^2} \le 0 $, 殘差序列$ \left\| {{{e}}_{L + l} } \right\| $單調遞減且有界. 進一步地,

                        $$ {\left\| {{{e}}_{L + l} } \right\|^2} \le r{\left\| {{{{e}}_L}} \right\|^2} + {\mu _{L + l}}{\left\| {{{{e}}_L}} \right\|^2} $$ (16)

                        注意到$ {\lim _{L \to \infty }}{\mu _{L + l}}{\left\| {{{{e}}_L}} \right\|^2}{\rm{=}}0 $, 其中$ {\lim _{L \to \infty }}{\mu _{L{\rm{ + }}1}}$${\rm{=}} 0 $. 根據公式(16)可以進一步得到$ {\lim _{L \to \infty }}{\left\| {{{e}}_{L + l}} \right\|^2}{\rm{=}}0 $, 即$ {\lim _{L \to \infty }}\left\| {{{e}}_{L + l}} \right\|{\rm{=}}0 $. 因此殘差序列$ \left\| {{{e}}_{L + l}} \right\| $單調遞減且收斂于0, 說明本文所提HPSCNs模型具有無限逼近特性.

                      • 在增量學習過程中, 將數據進行分塊處理, 以建立一種數據并行計算策略, 可進一步提高學習速度. 因此, 將訓練輸入樣本$ {{X}} $、訓練輸出樣本$ {{T}} $等分為$ M $塊, 即

                        $$ {{X}}=\left[ {\begin{array}{*{20}{c}} {{{{X}}_1}}\\ {{{{X}}_2}}\\ \vdots \\ {{{{X}}_M}} \end{array}} \right],{{T}}=\left[ {\begin{array}{*{20}{c}} {{{{T}}_1}}\\ {{{{T}}_2}}\\ \vdots \\ {{{{T}}_M}} \end{array}} \right] $$ (17)

                        每個數據塊的隱含層輸出矩陣通過并行計算獲得, 第$ p $個數據塊的隱含層輸出矩陣可表示為:

                        $$ {{{H}}_p}=\frac{1}{{1 + {{\rm{exp}}}( - {{{X}}_p}{{{v}}^{\rm{T}}} - b)}}, p=1,2, \cdots ,M $$ (18)

                        且第$ p $個數據塊與隱含層輸出矩陣的對應關系:

                        $$ {{{H}}_p}=\left[ {{{{g}}_{p,1}}\left( {{{{v}}_1},{b_1},{{{X}}_p}} \right), \cdots {{{g}}_{p,L}}\left( {{{{v}}_L},{b_L},{{{X}}_p}} \right)} \right] $$ (19)

                        這里$ {{{g}}_{p,L}} $表示節點數為$ L $時第$ p $個數據塊的隱含層輸出. 此時, PSCN的監督機制為:

                        $$ \begin{split} {\xi _{L,q}} =\;&\frac{{{{\left\langle {{{e}}_{L - 1, q}^{},\left[ {{{g}}_{1,L}^{\rm{T}}, \cdots ,{{g}}_{M,L}^{\rm{T}}} \right]} \right\rangle }^2}}}{{\displaystyle\sum\limits_{p=1}^M {{{g}}_{p,L}^{\rm{T}}{{g}}_{p,L}^{}} }}- \\&\left( {1 - r - {\mu _L}} \right)\left\langle {{{e}}_{L - 1, q}^{},{{e}}_{L - 1, q}^{}} \right\rangle > 0 \end{split} $$ (20)

                        相應地, BSCN的監督機制為:

                        $$ \begin{split} {\xi _{L,q}}=\;&\left\langle {{{e}}_{L - {\Delta _k},q}^{},{{\left[ {{{h}}_{1,k}^{\rm{T}}, \cdots ,{{h}}_{M,k}^{\rm{T}}} \right]}^{\rm{T}}}{{{\tilde{ \beta }}}_{k,q}}} \right\rangle - \\& \left( {1 - r - {\mu _L}} \right)\left\langle {{{e}}_{L - {\Delta _k}, q}^{},{{e}}_{L - {\Delta _k}, q}^{}} \right\rangle > 0 \end{split} $$ (21)

                        式中$ {{{h}}_{p,k}}=\left[ {{{{g}}_{p,}}_{L - {\Delta _k} + 1}, \cdots ,{{{g}}_{p,L}}} \right] $表示BSCN在第$ k $次迭代中數據塊$ p $對應的隱含層輸出塊, 而

                        $$ {{\tilde{ \beta }}_{k,q}}={\left( {\sum\limits_{p=1}^M {{{h}}_{p,k}^{\rm{T}}{{h}}_{p,k}^{}} } \right)^{\dagger } }\left( {{{\left[ {\begin{array}{*{20}{c}} {{{h}}_{1,k}^{}}\\ \vdots \\ {{{h}}_{M,k}^{}} \end{array}} \right]}^{\rm{T}}}{{e}}_{L - {\Delta _k}, q}^{}} \right) $$ (22)

                        表示第$ k $次迭代時輸出權值的中值.

                        根據不同數據規模的學習任務, 輸出權值$ {{\beta }} $可由下式計算獲得:

                        $$ {{\beta }}=\left\{ \begin{aligned}& {\left( {{{{H}}^{\rm{T}}}{{H}}} \right)^{\dagger } }{{{H}}^{\rm{T}}}{{T}},\; {\rm{ }}N \ge L\\& {{{H}}^{\rm{T}}}{\left( {{{H}}{{{H}}^{\rm{T}}}} \right)^{\dagger } }{{T}},\; {\rm{ }}N < L \end{aligned} \right. $$ (23)

                        對于大數據建模, 這里只考慮$ N \ge L $的情況, 因此, 數據并行學習方法中的輸出權值可以表示為:

                        $$ {{\beta }}={\left( {\sum\limits_{p=1}^M {{{H}}_p^{\rm{T}}{{{H}}_p}} } \right)^{\dagger } }\left( {\sum\limits_{p=1}^M {{{H}}_p^{\rm{T}}{{{T}}_p}} } \right) $$ (24)

                        公式(24)將不同數據塊整合并得到輸出權值.

                        注意到, 隨著學習過程中隱含層節點數的增加, 網絡尺寸逐漸增大, 計算負荷也隨之增加, 因此, 在增量學習過程的不同階段, 本文采用動態分塊策略, 逐漸增加數據塊數量, 以充分利用并行計算資源, 提高學習的效率. 所形成的數據并行策略如圖2所示, 其中從隱含層到輸入層的連接起到反饋作用, 實現數據塊$ M $隨學習過程中隱含層節點數$ L $的增加而變化, 具體動態分塊方法如下:

                        圖  2  數據并行策略

                        Figure 2.  Strategy of data parallelism

                        $$ {M_{k + 1}}\left( L \right){\rm{=}}{M_0} \times \frac{{L_{\max }^k}}{{L_{en}^k}},L_{\min }^k < L \le L_{\max }^k $$ (25)

                        其中$ {M_0} $表示初始樣本數據分塊基數; $ {L_{en}^k} $表示第$ k $次迭代時分塊數遞增區間長度, $ L_{\max}^k $$ L_{\min}^k $ 分別表示相應遞增區間的上下界, 則$ L_{en}^k=L_{\max }^k - L_{\min }^k $. $ L_{\max }^k $$ L_{\min }^k $的選取詳見性能評估部分.

                        注 1: HPSCNs繼承了原始SCNs自組織學習的特點, 其隱含層節點在監督機制下自主構建, 無需采用傳統自組織學習的剪枝等算法即可保證模型的緊致性. 此外, HPSCNs中PSCN和BSCN的監督機制分別不同于傳統SCNs和塊增量SCNs. 以PSCN為例, 若根據$ M $個不同的數據塊同步獲取一組隱含層輸出$ {{ g}_{1,L}},\cdots,{{ g}_{p,L}},\cdots,{{ g}_{M,L}} $后, 直接帶入SCNs中得到$ M $組滿足條件的不等式約束, 盡管該網絡仍具有無限逼近特性, 但收斂性會變差. 這是因為監督機制的數據依賴特性. 每組監督機制只包含當前數據塊的信息而忽略了其他數據塊, 不可避免地放寬了約束的作用, 導致所得到的輸入權值和偏置"質量"變低, 從而影響到模型收斂性. 因此, 隱含層參數的分配需要考慮全體數據塊.

                        注 2: RWNNs與SCNs均直接使用式(3)求解輸出權值, 導致廣義逆運算成為構建過程中較為耗時環節, 尤其針對大數據建模, 即$ N >>L $的情況, 則需要對$ N \times L $階的矩陣進行廣義逆運算; 而基于數據并行采用式(24), 則只需要計算$ L \times L $階矩陣的廣義逆, 大大降低了計算量.

                      • 混合并行增量學習算法的具體實現描述如下:

                        給定訓練輸入$ {{X}} \in {{\rm{R}}^{N \times d}} $, 輸出$ {{T}}\; \in {{\rm{R}}^{N \times m}} $. 設置增量構建過程中的容忍誤差$ \varepsilon $和最大迭代次數$ {k_{\max}} $; 隱含層參數分配區間集$ {{\Upsilon}} {\rm{=}}\left\{ {{\lambda _1},{\lambda _2}, \cdots ,{\lambda _{end}}} \right\} $; 最大隨機配置次數$ {T_{\max }} $; BSCN中的塊寬$ {\Delta_k} $等.

                        步驟 1: 初始化訓練集數據分塊數$ M=M_1 $;

                        步驟 2: 開始模型與數據并行學習;

                        PSCN:

                        1) 在區間$ {\left[ { - {\lambda _i},{\lambda _i}} \right]^d} $$ \left[ { - {\lambda _i},{\lambda _i}} \right] $內隨機生成隱含層參數$ {{{v}}_L} $$ {b_L} $, $ {\lambda _i} \in {{\Upsilon}} ,\; i=1,2, \cdots ,end $;

                        2) 使用不同數據塊同步獲取PSCN的隱含層輸出$ {{g}}_{1,L}^{}, \cdots ,{{g}}_{p,L}^{}, \cdots ,{{g}}_{M,L}^{} $;

                        3) 根據公式(20)建立候選“節點池”, 并找出使得$ {\xi _{L,q}} $最大的隨機參數$ {{v}}_L^ * $$ b_L^ * $;

                        4) 根據公式(24)整合數據塊并評估PSCN的輸出權值.

                        BSCN:

                        1) 在區間$ {\left[ { - {\lambda _i},{\lambda _i}} \right]^{{\Delta _k} \times d}} $$ {\left[ { - {\lambda _i},{\lambda _i}} \right]^{{\Delta _k} \times 1}} $內隨機生成隱含層參數$ {{{v}}_{{\Delta _k}}} $$ {{}_{{\Delta _k}}} $, $ {\lambda _i} \in {{\Upsilon}} ,\; i=1,2, \cdots ,end $;

                        2) 使用不同數據塊同步獲取BSCN的隱含層輸出塊$ {{h}}_{1,k}^{}, \cdots ,{{h}}_{p,k}^{}, \cdots ,{{h}}_{M,k}^{} $;

                        3) 根據公式(21)建立候選“節點池”, 并找出使得$ {\xi _{L,q}} $最大的隨機參數$ {{v}}_{{\Delta _k}}^ * $$ {}_{{\Delta _k}}^ * $;

                        4) 根據公式(24)整合數據塊并評估BSCN的輸出權值.

                        步驟 3: 計算PSCN和BSCN的訓練殘差;

                        步驟 4: 通過比較殘差擇優選取模型參數并用于更新另一個模型的隱含層節點數$ L $;

                        步驟 5: 更新下一次迭代中訓練數據的分塊數$ M=M_{k+1}(L) $;

                        步驟 6: 重復上述步驟, 直至模型達到停止標準;

                        步驟 7: 返回最終模型參數$ {{v}}_{}^ * $, $ {}_{}^ * $$ {{{\beta }}^ * } $.

                        注 3: 神經網絡的模型精度會隨隱含層節點數的增加而逐漸提高, 但當節點數過多時會使訓練誤差變小而測試誤差增大, 即過擬合現象. 本文所提方法達到停止條件時立即結束迭代, 不再繼續增加隱含層節點, 在一定程度上避免了過擬合現象.

                        注 4: 為盡可能地提高學習效率, 需要多次隨機配置隱含層參數, 以建立候選"節點池", 從而尋找出最佳的隱含層節點. $ {T_{\max }} $決定著隨機配置隱含層參數的次數, 過大增加計算損耗、過小不利于候選“節點池”的建立[14]. 此外, 隱含層參數分配區間集$ {{\Upsilon}} {\rm{=}}\left\{ {{\lambda _1},{\lambda _2}, \cdots ,{\lambda _{end}}} \right\} $可設置從$ {{\lambda _1}} $$ {{\lambda _{end}}} $逐漸增長, 學習過程從$ {{\lambda _1}} $開始逐次選擇. 以PSCN為例: 首先在$ {\left[ { - {\lambda _1},{\lambda _1}} \right]^d} $$ \left[ { - {\lambda _1},{\lambda _1}} \right] $內隨機生成$ {T_{\max }} $組隱含層參數$ {{v}}_L^{} $$ b_L^{} $, 并從后續所建立的候選"節點池"中找出最佳的一組隨機參數$ {{v}}_L^ * $$ b_L^ * $; 若候選"節點池"為空, 則從參數集$ {{\Upsilon}} $中選擇$ {\lambda _2} $, 調節分配區間, 進而重復上述步驟.

                      • 本文選取收斂性和緊致性作為衡量模型質量的評價指標. 其中收斂性在數值上表現為殘差序列的遞減程度, 可采用達到期望容忍誤差時的學習時間來衡量, 收斂性好有利于建模的快速性. 緊致性表現為網絡尺寸, 可采用達到期望容忍誤差時的隱含層節點數來度量, 模型不緊致往往包含不必要的冗余節點, 不利于泛化性能, 且會顯著增加計算空間和硬件實現的成本. 此外, 采用均方根誤差(Root mean squares error, RMSE)計算建模精度, 均值(Mean)和標準差(Standard deviation, Std)則分別用來反映模型性能的平均值和離散程度.

                        為驗證本文所提混合并行增量學習模型的有效性, 將傳統SCNs (SC-III)[14]、塊增量SCNs (BSC-I)[26]和混合并行隨機配置網絡(HPSCNs)分別對大數據建模并根據評價指標進行性能評估. 仿真實驗在MATLAB 2016a環境下運行, 所用PC的CPU為i5, 3.4 GHz, 內存為16 GB RAM.

                      • 四個不同領域的基準數據: DB1 (SGEMM GPU Kernel Performance Data Set)、DB2 (Electrical Grid Stability Simulated Data Set)、DB3 (Mv Data Set)和DB4 (Pole Telecommunications Data Set)來自UCI (University of California at Irvine)[28]和KEEL (Knowledge Extraction based on Evolutionary Learning)[29].

                        所選數據集信息見表1. 針對每個大規模數據, 我們隨機選取80 %的樣本作為訓練集, 余下的20 %作為測試集.

                        表 1  基準數據集說明

                        Table 1.  Specification of benchmark data sets

                        數據集屬性樣本數
                        輸入變量輸出變量
                        DB114424 160
                        DB212110 000
                        DB310140 768
                        DB426114 998
                      • 在數據預處理階段, 輸入輸出樣本均被歸一化至[?1, 1]. 實驗參數設定如下:

                        ● 最大迭代次數$ {k_{\max }} $=300;

                        ● 最大隨機配置次數$ {T_{\max }} $=10;

                        ● 隨機參數范圍$ \lambda \in \left\{ {1,10,50,100,150,200} \right\} $;

                        ● 學習參數$ r \in \left\{ {0.9,0.99,0.999, \cdots } \right\} $;

                        ● 容忍誤差$ \varepsilon $ = 0.1(DB1和DB2), $ \varepsilon $ = 0.01(DB3和DB4);

                        ● 不同BSCN每次迭代的塊寬分別取固定值$ {\Delta _k} $=1、3、5;

                        ● 大規模訓練集分塊基數$ {M_0} $=4, 第$ k $次迭代時分塊數遞增區間長度$ L_{en}^k=L_{\max }^k - L_{\min }^k $取50, 100, 150, ···, 具體對應關系見表2.

                        表 2  分塊數遞增區間長度及其上下界

                        Table 2.  Incremental interval length of block number and its upper and lower bounds

                        $L_{en}^k$$L_{\max }^k$$L_{\min }^k$
                        50500
                        10015050
                        150300150
                        ·········

                        因此, 根據式(25)可得

                        $$ M={M_{k + 1}}\left( L \right)=\left\{\!\!\! \begin{array}{l} 4,\; \; \; \; 0 < L \le 50\\ 6,\; \; 50 < L \le 150\\ 8,150 < L \le 300\\ \quad\quad\quad \vdots \end{array} \right. $$ (26)

                        為了便于描述, 本文以下標的形式表示BSC-I算法中的塊寬, 以上下標的形式分別表示HPSCNs中左側隨機配置網絡PSCN和右側隨機配置網絡BSCN的塊寬. 如$ {\rm{BSC - I}}_3^{} $表示其每次迭代添加3個隱含層節點; $ {\rm{HPSCN}}_3^1 $表示本文所提方法中PSCN每次迭代添加1 個隱含層節點, 而BSCN每次迭代添加3 個隱含層節點. 需要指出的是, 點增量構建方式是塊增量中$ {\Delta _k} $取1的特例.

                        表3記錄了不同算法50 次獨立實驗結果的均值和標準差(Mean±Std). 通過比較SC-III、$ {\rm{BSC - I}}_3^{} $$ {\rm{BSC - I}}_5^{} $可以看出, 隨著塊寬$ {\Delta _k} $取值的增加, 達到期望容忍誤差$ \varepsilon $時所需要的迭代次數$ k $明顯降低, 建模時間$ t $顯著減少, 即塊增量的構建方式可以有效加快傳統SCNs的收斂速度; 然而, 塊增量SCNs需要更多的節點數$ L $, 導致網絡復雜度增加, 不利于模型泛化性能. 這是因為從特征學習的角度來說, 殘差序列單調遞減, 尚未學習的特征也會隨著增量學習的過程減少, 然而$ {\rm{BSC - I}}_3^{} $$ {\rm{BSC - I}}_5^{} $在每次迭代中采用固定的塊寬, 不可避免地導致了特征(節點)的冗余. 尤其在構建過程后期, 每次迭代中節點塊對于建模的貢獻近似于單個節點, 卻徒增了網絡復雜度. 因此, 塊增量SCNs是一種以犧牲模型緊致性為代價的極速建模方法.

                        表 3  不同算法性能比較

                        Table 3.  Performance comparison of different algorithms

                        數據集算法t(s)kL
                        DB1SC-III24.35$\pm $1.69164.40$\pm $7.76164.40$\pm $7.76
                        ${\rm{BSC - }}{{\rm{I}}_3}$12.60$\pm $1.2169.20$\pm $3.03207.60$\pm $9.09
                        ${\rm{BSC - }}{{\rm{I}}_5}$9.41$\pm $1.3344.00$\pm $3.24220.00$\pm $16.20
                        ${\rm{HPSCN}}_1^1$3.48$\pm $0.38122.40$\pm $8.02122.40$\pm $8.02
                        ${\rm{HPSCN}}_3^1$3.03$\pm $0.2863.40$\pm $4.16162.80$\pm $7.90
                        ${\rm{HPSCN}}_5^1$2.96$\pm $0.1945.00$\pm $2.83215.00$\pm $9.71
                        DB2SC-III26.97$\pm $2.54300.00$\pm $14.18300.00$\pm $14.18
                        ${\rm{BSC - }}{{\rm{I}}_3}$14.66$\pm $1.33120.40$\pm $3.98361.20$\pm $11.93
                        ${\rm{BSC - }}{{\rm{I}}_5}$11.01$\pm $1.0778.80$\pm $2.91394.00$\pm $14.87
                        ${\rm{HPSCN}}_1^1$7.22$\pm $0.95239.30$\pm $14.55239.3$\pm $14.55
                        ${\rm{HPSCN}}_3^1$5.47$\pm $0.33123.50$\pm $3.34301.90$\pm $10.99
                        ${\rm{HPSCN}}_5^1$4.39$\pm $0.4281.80$\pm $3.74378.60$\pm $16.54
                        DB3SC-III18.04$2.15106.60$\pm $3.36106.60$\pm $3.36
                        ${\rm{BSC - }}{{\rm{I}}_3}$8.96$\pm $1.2139.80$\pm $2.28119.40$\pm $6.84
                        ${\rm{BSC - }}{{\rm{I}}_5}$6.81$\pm $0.5525.20$\pm $1.10126.00$\pm $5.48
                        ${\rm{HPSCN}}_1^1$3.45$\pm $0.2497.00$\pm $2.6597.00$\pm $2.65
                        ${\rm{HPSCN}}_3^1$2.05$\pm $0.1341.20$\pm $2.17106.40$\pm $4.39
                        ${\rm{HPSCN}}_5^1$1.88$\pm $0.1225.00$\pm $1.22121.00$\pm $6.44
                        DB4SC-III9.16$\pm $0.34161.20$\pm $2.56161.20$\pm $2.56
                        ${\rm{BSC - }}{{\rm{I}}_3}$3.79$\pm $0.6854.20$\pm $0.84162.60$\pm $2.51
                        ${\rm{BSC - }}{{\rm{I}}_5}$2.59$\pm $0.1333.40$\pm $0.89167.00$\pm $4.47
                        ${\rm{HPSCN}}_1^1$4.23$\pm $0.13154.80$\pm $2.59154.80$\pm $2.59
                        ${\rm{HPSCN}}_3^1$2.01$\pm $0.1359.00$\pm $2.00162.60$\pm $2.41
                        ${\rm{HPSCN}}_5^1$1.36$\pm $0.1134.20$\pm $1.09166.20$\pm $3.03

                        相同的結論可以見算法$ {\rm{HPSCN}}_1^1 $、$ {\rm{HPSCN}}_3^1 $$ {\rm{HPSCN}}_5^1 $. 不同的是, 本文所提方法可以獲得更好的綜合性能, 即相比于SC-III和BSC-I, $ {\rm{HPSCN}}_1^1 $$ {\rm{HPSCN}}_3^1 $能夠保證模型較為緊致的同時進一步減少建模時間, 原因如下:

                        1)數據并行通過使用動態分塊策略并同步獲取隱含層輸出, 加快了候選“節點池”的建立; 同時, 針對大數據本文所提方法采用公式(24)整合數據塊并計算輸出權值, 在很大程度上降低了廣義逆運算負擔;

                        2)模型并行通過單次迭代中PSCN與BSCN獨立地同步建模, 完成當前迭代后選擇獲得殘差較小的模型參數. 其中, HPSCNs中的BSCN采用塊增量的構建方式, 具有較快的收斂性; PSCN采用點增量的構建方式, 從而準確地找到最佳隱含層節點數. 模型并行增量學習也有效減少了迭代次數.

                        為了評估模型的綜合性能, 圖3給出不同算法對數據集DB1-DB4的建模時間(t)和隱含層節點數(L). 其中, tL均歸一化處理至[0, 1], 并表示對應性能指標的得分情況. 如: 在DB1 建模任務中, SC-III相比其他算法用時最長, 其$ t $對應的得分為1、$ {\rm{BSC - I}}_5^{} $所需節點數最多, 其L對應的得分為1. 顯然, 分數越低, 性能越好. 因此, 由圖3可以看出, 本文所提混合并行增量學習方法具有較好的綜合性能, 且$ {\rm{HPSCN}}_3^1 $最佳.

                        圖  3  不同算法綜合性能比較

                        Figure 3.  Comparison of comprehensive performance of different algorithms

                      • 需要指出的是, $ {\rm{HPSCN}}_5^1 $雖然所需時間最少但已經失去了模型緊致性上的優勢, 是一種折中的算法. 為了進一步研究不同塊寬對本文所提方法的影響, 我們定義HPSCNs的有效性(Effectiveness, Eff):

                        $$ Eff=\frac{{nL}}{{nL + nR}} \times 100\,{\text{%}} $$ (27)

                        其中nLnR分別表示每次迭代PSCN和BSCN貢獻最佳模型參數的次數, 則Eff正比于nL.

                        表4記錄了HPSCNs中BSCN選擇不同塊寬$ {\Delta _k} $時的模型并行情況. 可以看出, 對于DB1-DB4, 隨著$ {\Delta _k} $的增加, Eff的數值越來越小, 如$ {\Delta _k}=10 $時, $ {\rm{HPSCN}}_{10}^1 $的Eff最低, 此時PSCN基本上失去了其在模型并行中的作用. 因此, 考慮模型的綜合性能, 使用HPSCNs進行大數據建模時, 其BSCN的塊寬建議取$ {\Delta _k} \in \left\{ {1,2,3} \right\} $.

                        表 4  不同塊寬的算法性能比較

                        Table 4.  Performance comparison of algorithms with different block sizes

                        數據集算法nRnLEff (%)
                        DB1${\rm{HPSCN}}_1^1$61.361.149.9
                        ${\rm{HPSCN}}_2^1$63.822.426.0
                        ${\rm{HPSCN}}_3^1$52.812.619.3
                        ${\rm{HPSCN}}_5^1$42.52.55.6
                        ${\rm{HPSCN}}_{10}^1$24.20.62.4
                        DB2${\rm{HPSCN}}_1^1$119.2120.150.2
                        ${\rm{HPSCN}}_2^1$115.056.432.9
                        ${\rm{HPSCN}}_3^1$99.224.319.7
                        ${\rm{HPSCN}}_5^1$74.27.69.3
                        ${\rm{HPSCN}}_{10}^1$44.60.40.9
                        DB3${\rm{HPSCN}}_1^1$48.448.650.1
                        ${\rm{HPSCN}}_2^1$40.823.436.4
                        ${\rm{HPSCN}}_3^1$33.67.618.4
                        ${\rm{HPSCN}}_5^1$24.01.04.0
                        ${\rm{HPSCN}}_{10}^1$13.60.21.4
                        DB4${\rm{HPSCN}}_1^1$77.377.550.0
                        ${\rm{HPSCN}}_2^1$64.229.431.4
                        ${\rm{HPSCN}}_3^1$51.87.212.2
                        ${\rm{HPSCN}}_5^1$33.01.23.5
                        ${\rm{HPSCN}}_{10}^1$17.00.21.1
                      • 將所提方法應用在典型一段磨礦過程, 建立以磨機給礦量、磨機入口給水量和分級機溢流質量濃度為輸入, 以磨礦粒度為輸出的軟測量模型. 從磨礦半實物仿真平臺[26]中采集20 000訓練樣本和5 000測試樣本, 設置容忍誤差$ \varepsilon $=0.05, 塊寬$ {\Delta _k}{\rm{=}}3 $, 其余實驗參數設定同比較實驗部分.

                        圖4圖5分別為基于HPSCNs的磨礦粒度軟測量模型的收斂特性和逼近特性. 由圖4可以看出, 在訓練過程中所提方法具有較好的收斂效果, 且在接近容忍誤差前殘差序列能夠快速下降. 為了便于觀察, 這里僅取500個測試數據的逼近效果(如圖5所示), 從中可以看出模型輸出與真實值基本吻合, 可以實現磨礦粒度的準確估計.

                        圖  4  模型的收斂曲線

                        Figure 4.  Convergence curve of HPSCNs

                        圖  5  模型的逼近特性

                        Figure 5.  Approximation performance of HPSCNs

                        此外, 從圖5可知, 所建立磨礦粒度軟測量模型在達到期望精度時, 建模時間較快, 網絡結構簡單, 具有良好的泛化性能; Eff = 25.0 %, 其中左側點增量網絡(PSCN)、右側塊增量網絡(BSCN)貢獻最佳模型參數的次數分別為3和9, 說明模型具有較高的有效性. 需要指出的是, 上述礦粒度軟測量模型是通過輸入特性維數較少的樣本建立的, 本文所提方法應用到其他數據維數較多的工業案例中, 將會取得更好的優勢. 同時在多維大數據應用時, 還可以考慮并行節點池構建策略, 以提高學習速度.

                      • 本文基于隨機配置網絡提出了一種模型與數據混合并行的增量學習方法. 實際數據仿真研究表明: 與傳統SCNs和塊增量SCNs相比, 本文所提方法大大降低了計算量, 提高了資源利用率, 所建立模型綜合性能好, 且利于硬件實現, 具有良好的實用價值. 然而, HPSCNs直接根據PSCN和BSCN的殘差選擇新增節點, 在BSCN獲得殘差優勢不明顯的情況下, 選擇了增加節點塊構建模型, 不利于模型緊致性. 下一步的研究目標是進一步提高算法的綜合性能, 如針對HPSCNs模型的有效性, 建立新的模型參數交互準則; 在保留塊增量SCNs極速建模優勢的情況下, 削減其中的冗余隱含層節點.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回