2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    基于核自適應濾波器的時間序列在線預測研究綜述

                    韓敏 馬俊珠 任偉杰 鐘凱

                    韓敏, 馬俊珠, 任偉杰, 鐘凱. 基于核自適應濾波器的時間序列在線預測研究綜述. 自動化學報, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    引用本文: 韓敏, 馬俊珠, 任偉杰, 鐘凱. 基于核自適應濾波器的時間序列在線預測研究綜述. 自動化學報, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    Citation: Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051

                    基于核自適應濾波器的時間序列在線預測研究綜述


                    DOI: 10.16383/j.aas.c190051
                    詳細信息
                      作者簡介:

                      大連理工大學電子信息與電氣工程學部教授. 主要研究方向為模式識別, 復雜系統建模及時間序列預測. 本文通信作者.E-mail: minhan@dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部碩士研究生. 主要研究方向為時間序列在線建模, 預測.E-mail: majunzhu@mail.dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部博士研究生. 主要研究方向為時間序列分析和特征選擇.E-mail: renweijie@mail.dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部博士研究生. 主要研究方向為工業過程監控, 故障診斷.E-mail: zhongkai0402@mail. dlut.edu.cn

                    • 基金項目:  國家自然科學基金(61773087)資助

                    A Survey of Time Series Online Prediction based on Kernel Adaptive Filters

                    More Information
                    • Fund Project:  Supported by National Natural Science Foundation of China (61773087)
                    • 摘要: 核自適應濾波器是時間序列在線預測的重點研究領域之一, 本文對核自適應濾波器的最新進展及未來研究方向進行了分析和總結. 基于核自適應濾波器的時間序列在線預測方法, 能較好的解決預測、跟蹤問題. 本文首先概述了三類核自適應濾波器的基本模型, 包括核最小均方算法, 核遞歸最小二乘算法和核仿射投影算法. 在此基礎上, 從核自適應濾波器在線預測的內容和機理入手, 綜述基于核自適應濾波器的時間序列在線預測方法. 最后, 本文將介紹這一領域潛在的研究方向和發展趨勢, 并展望未來的挑戰.
                    • 圖  1  從輸入空間到特征空間的非線性映射f(·)

                      Fig.  1  Nonlinear mapping f(·) from input space to feature space

                      圖  2  KAF方法分類框圖

                      Fig.  2  Classification diagram of the KAF method

                      表  1  不同KAF方法的時間序列在線預測特性對比結果

                      Table  1  Comparison of online prediction characteristics of time series of different KAF methods

                      算法類型 預測效率 預測精度 收斂速度 特點
                      KLMS[19] 較高 較低 較慢 泛化能力和正則化特性
                      KRLS[20] 較低 較高 較快 白化處理, 收斂速度較快
                      KAPA[21] 考慮多個樣本, 降低梯度噪聲
                      下載: 導出CSV

                      表  2  每次迭代過程涉及的計算復雜度比較

                      Table  2  Comparison of computational complexity involved in each iteration

                      核自適應濾
                      波器類型
                      在線稀
                      疏類型
                      計算復雜度
                      KLMS[19] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L^2}} \right) $
                      在線VQ ${\rm O}\left( {{L}} \right)$
                      SF 更新$ {\omega} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      KRLS[20] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
                      在線VQ ${\rm O}\left( {{L}} \right)$
                      更新$ {P}\left( i \right) $ ${\rm O}\left( {{L^2}} \right)$
                      ALD 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L^2}} \right)$(${\rm O}\left( {{L^2}} \right)$
                      假如字典改變)
                      更新ALD ${\rm O}\left( {{L^2}} \right)$
                      更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                      SW 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                      假如字典改變)
                      更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                      更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                      FB 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                      假如字典改變)
                      更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                      更新$ {{\hat K}_n}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
                      MF 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      更新${D}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                      CC 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                      假如字典改變)
                      更新$ {e}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
                      更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                      KAPA[21] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
                      在線VQ ${\rm O}\left( {{L}} \right)$
                      更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                      HC 更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      更新$ {\bf{\zeta }}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Gan M, Chen C L P, Li H X, Chen L. Gradient radial basis function based varying-coefficient autoregressive model for nonlinear and nonstationary time series. IEEE Signal Processing Letter, 2015, 22(7): 809?812 doi:  10.1109/LSP.2014.2369415
                      [2] 2 Schamberg G, Ba D, Coleman T P. A Modularized Efficient Framework for Non-Markov Time Series Estimation. IEEE Transactions on Signal Processing, 2018, 66(12): 3140?3154 doi:  10.1109/TSP.2018.2793870
                      [3] 3 Gonzalez J P, San Roque A M, Perez E A. Forecasting functional time series with a new Hilbertian ARMAX model: Application to electricity price forecasting. IEEE Transactions on Power Systems, 2018, 33(1): 545?556 doi:  10.1109/TPWRS.2017.2700287
                      [4] 4 Rahman M M, Islam M M, Murase K, and Yao X. Layered ensemble architecture for time series forecasting. IEEE Transactions on Cybernetics, 2016, 46(1): 270?283 doi:  10.1109/TCYB.2015.2401038
                      [5] 5 Zhu J, Chen N, Peng W. Estimation of Bearing Remaining Useful Life Based on Multiscale Convolutional Neural Network. IEEE Transactions on Industrial Electronics, 2019, 66(4): 3208?3216 doi:  10.1109/TIE.2018.2844856
                      [6] 6 Chang F J, Chen P A, Lu Y R, Huang E, Chang K Y. Real-time multi-step-ahead water level forecasting by recurrent neural networks for urban flood control. Journal of Hydrology, 2014, 517: 836?846 doi:  10.1016/j.jhydrol.2014.06.013
                      [7] Vapnik V. The nature of statistical learning theory. Springer Science & Business Media, 2013
                      [8] 8 Girosi F, Jones M, Poggio T. Regularization theory and neural networks architectures. Neural Computation, 1995, 7(2): 219?269 doi:  10.1162/neco.1995.7.2.219
                      [9] 9 Platt J. A resource-allocating network for function interpolation. Neural Computation, 1991, 3(2): 213?225 doi:  10.1162/neco.1991.3.2.213
                      [10] 10 Huang G B, Saratchandran P, Sundararajan N. A generalized growing and pruning RBF (GGAP-RBF) neural network for function approximation. IEEE Transactions on Neural Networks, 2005, 16(1): 57?67 doi:  10.1109/TNN.2004.836241
                      [11] 11 Suykens J A K, Vandewalle J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9(3): 293?300 doi:  10.1023/A:1018628609742
                      [12] Scholkopf B, Smola A J. Learning with kernels: support vector machines, regularization, optimization, and beyond. MIT Press, 2001
                      [13] Liu W F, Principe J C, Haykin S. Kernel adaptive filtering: a comprehensive introduction. John Wiley & Sons, 2011
                      [14] 14 Scholkopf B, Smola A, Muller K R. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 1998, 10(5): 1299?1319 doi:  10.1162/089976698300017467
                      [15] 15 Feng D Z, Bao Z, Jiao L C. Total least mean squares algorithm. IEEE Transactions on Signal Processing, 1998, 46(8): 2212?2130
                      [16] 16 Henon M. A two-dimensional mapping with a strange attractor. The Theory of Chaotic Attractors. Springer, New York, NY, 1976: 94?102
                      [17] 17 Kivinen J, Smola A J, Williamson R C. Online learning with kernels. IEEE Transactions on Signal Processing, 2004, 52(8): 2165?2176 doi:  10.1109/TSP.2004.830991
                      [18] 18 Richard C, Bermudez J C M, Honeine P. Online prediction of time series data with kernels. IEEE Transactions on Signal Processing, 2009, 57(3): 1058?1067 doi:  10.1109/TSP.2008.2009895
                      [19] 19 Liu W, Pokharel P P, Principe J C. The kernel least-mean-square algorithm. IEEE Transactions on Signal Processing, 2008, 56(2): 543?554 doi:  10.1109/TSP.2007.907881
                      [20] 20 Engel Y, Mannor S, Meir R. The kernel recursive least squares algorithm. IEEE Transactions on Signal Processing, 2004, 52(8): 2275?2285 doi:  10.1109/TSP.2004.830985
                      [21] 21 Liu W, Principe J C. Kernel affine projection algorithms. EURASIP Journal on Advances in Signal Processing, 2008, 2008(1): 784292 doi:  10.1155/2008/784292
                      [22] 22 Chen B, Zhao S, Zhu P, et al. Quantized kernel least mean square algorithm. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(1): 22?32 doi:  10.1109/TNNLS.2011.2178446
                      [23] 23 Zhao J, Liao X, Wang S, Principe J C. Kernel least mean square with single feedback. IEEE Signal Processing Letters, 2015, 22(7): 953?957 doi:  10.1109/LSP.2014.2377726
                      [24] 24 Zheng Y, Wang S, Feng J, Chi K. A modified quantized kernel least mean square algorithm for prediction of chaotic time series. Digital Signal Processing, 2016, 48: 130?136 doi:  10.1016/j.dsp.2015.09.015
                      [25] 25 Liu Y, Sun C, Jiang S. A Kernel Least Mean Square Algorithm Based on Randomized Feature Networks. Applied Sciences, 2018, 8(3): 458 doi:  10.3390/app8030458
                      [26] Van Vaerenbergh S, Via J, Santamaria I. A sliding-window kernel RLS algorithm and its application to nonlinear channel identification. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toulouse, France: IEEE, 2006. 5: V-V
                      [27] 27 Liu W, Park I, Wang Y, Principe J C. Extended kernel recursive least squares algorithm. IEEE Transactions on Signal Processing, 2009, 57(10): 3801?3814 doi:  10.1109/TSP.2009.2022007
                      [28] Van Vaerenbergh S, Santamaria I, Liu W, Principe J C. Fixed-budget kernel recursive least-squares. In: Proceeding of IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). Dallas, TX, USA: IEEE, 2010. 1882−1885
                      [29] 29 Van Vaerenbergh S, Lazaro-Gredilla M, Santamaria I. Kernel recursive least-squares tracker for time-varying regression. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(8): 1313?1326 doi:  10.1109/TNNLS.2012.2200500
                      [30] 30 Chen B, Zhao S, Zhu P, Principe J C. Quantized kernel recursive least squares algorithm. IEEE Transactions on Neural Networks and Learning Systems, 2013, 29(4): 1484?1491
                      [31] 31 Wang S, Wang W, Duan S, Wang L. Kernel Recursive Least Squares With Multiple Feedback and Its Convergence Analysis. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2017, 66(10): 1237?1241
                      [32] Zhang S, Han M, Wang J, Wang D. Multivariate time series online prediction based on adaptive normalized sparse kernel recursive least squares algorithm. In: Proceeding of 2017 Seventh International Conference on Information Science and Technology (ICIST). Da Nang, Vietnam: IEEE, 2017. 38−44.
                      [33] Ogunfunmi T, Paul T. On the complex kernel-based adaptive filter. In: Proceeding of IEEE International Symposium on Circuits and Systems (ISCS). Rio de Janeiro, Brazil: IEEE, 2011. 1263−1266
                      [34] Gil-Cacho J M, van Waterschoot T, Moonen M, Soren Holdt Jensen. Nonlinear acoustic echo cancellation based on a parallel-cascade kernel affine projection algorithm. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Kyoto, Japan: IEEE, 2012. 33−36
                      [35] Yang X, Hua Q, Zhao J, Chen B. Hybrid affine projection algorithm. In: Proceeding of International Conference on Control Automation Robotics & Vision (CARV). Marina Bay Sands, Singapore: 2014. 964−968
                      [36] Ren X, Yu Q, Chen B, Zheng N, Ren P. A reconfigurable parallel FPGA accelerator for the kernel affine projection algorithm. In: Proceeding of IEEE International Conference on Digital Signal Processing (DSP). Singapore: IEEE, 2015. 906−910
                      [37] Singh A, Ahuja N, Moulin P. Online learning with kernels: Overcoming the growing sum problem. In: Proceeding of IEEE International Workshop on Machine Learning for Signal Processing (MLSP). Santander, Spain: IEEE, 2012. 1−6
                      [38] 38 Haykin S S. Adaptive filter theory. Pearson Education India, 2008
                      [39] 39 Zhao S, Chen B, Zhu P, Principe J C. Fixed budget quantized kernel least-mean-square algorithm. Signal Processing, 2013, 93(9): 2759?2770 doi:  10.1016/j.sigpro.2013.02.012
                      [40] Rzepka D. Fixed-budget kernel least mean squares. In: Proceeding of IEEE 17th Conference on Emerging Technologies & Factory Automation (ETFA). Krakow, Poland: IEEE, 2012. 1−4
                      [41] 41 Fan H, Song Q. A linear recurrent kernel online learning algorithm with sparse updates. Neural Networks, 2014, 50: 142?153 doi:  10.1016/j.neunet.2013.11.011
                      [42] 42 Liu W, Park I, Principe J C. An information theoretic approach of designing sparse kernel adaptive filters. IEEE Transactions on Neural Networks, 2009, 20(12): 1950?1961 doi:  10.1109/TNN.2009.2033676
                      [43] 43 Ma W, Duan J, Man W, Chen B. Robust kernel adaptive filters based on mean p-power error for noisy chaotic time series prediction. Engineering Applications of Artificial Intelligence, 2017, 58: 101?110 doi:  10.1016/j.engappai.2016.11.010
                      [44] 44 Chen B, Xing L, Zhao H, Principe J C. Generalized correntropy for robust adaptive filtering. IEEE Transactions on Signal Processing, 2016, 64(13): 3376?3387 doi:  10.1109/TSP.2016.2539127
                      [45] 45 Chen B, Wang J, Zhao H, Principe J C. Convergence of a fixed-point algorithm under maximum correntropy criterion. IEEE Signal Processing Letters, 2015, 22(10): 1723?1727 doi:  10.1109/LSP.2015.2428713
                      [46] 46 Chen B, Zhao S, Zhu P, et al. Mean square convergence analysis for kernel least mean square algorithm. Signal Processing, 2012, 92(11): 2624?2632 doi:  10.1016/j.sigpro.2012.04.007
                      [47] 47 Gao W, Chen J, Richard C, Hang J. Online dictionary learning for kernel LMS. IEEE Transactions on Signal Processing, 2014, 62(11): 2765?2777 doi:  10.1109/TSP.2014.2318132
                      [48] Han M, Wang Y. Nonlinear time series online prediction using reservoir Kalman filter. In: Proceeding of IEEE International Joint Conference on Neural Networks (IJCNN). Atlanta, GA, USA: IEEE, 2009. 1090−1094
                      [49] 49 Zhou H, Huang J, Lu F, ThiaKirubarajan. Echo state kernel recursive least squares algorithm for machine condition prediction. Mechanical Systems and Signal Processing, 2018, 111: 68?86 doi:  10.1016/j.ymssp.2018.03.047
                      [50] Wang X, Han M. Multivariate time series prediction based on multiple kernel extreme learning machine. In: Proceeding of IEEE International Joint Conference on Neural Networks (IJCNN). Beijing, China: IEEE, 2014. 198−201
                      [51] Xu M, Zhang S, Han M. Multivariate time series modeling and prediction based on reservoir independent components. In: Proceeding of IEEE Sixth International Conference on Intelligent Control and Information Processing (ICICIP). Wuhan, China: IEEE, 2015. 325−330
                      [52] 52 Han M, Zhang S, Xu M, Qiu T, Wang N. Multivariate Chaotic Time Series Online Prediction Based on Improved Kernel Recursive Least Squares Algorithm. IEEE Transactions on Cybernetics, 2018(99): 1?13
                      [53] 53 Han M, Ren W, Xu M, Qiu T. Nonuniform State Space Reconstruction for Multivariate Chaotic Time Series. IEEE Transactions on Cybernetics, 2018(99): 1?11
                      [54] 韓敏, 任偉杰, 許美玲. 一種基于L1范數正則化的回聲狀態網絡. 自動化學報, 2014, 40(11): 2428?2435

                      54 Han Min, Ren Wei-Jie, Xu Mei-Ling. An improved echo state network via L1-norm regularization. Acta Automatica Sinica, 2014, 40(11): 2428?2435
                      [55] 唐舟進, 任峰, 彭濤, 王文博. 基于迭代誤差補償的混沌時間序列最小二乘支持向量機預測算法. 物理學報, 2014, 63(5): 1?10

                      55 Tang Zhou-Jin, Ren Feng, Peng Tao, Wang Wen-Bo. A least square support vector machine prediction algorithm for chaotic time series based on the iterative error correction. Acta Physica Sinica, 2014, 63(5): 1?10
                      [56] 劉暢, 郎勁. 基于混核LSSVM的批特征功率預測方法. 自動化學報, 2018, 42(3): 252?264

                      56 Liu Chang, Lang Jin. Wind Power Prediction Method Based on Hybrid Kernel LSSVM with Batch Feature. Acta Automatica Sinica, 2018, 42(3): 252?264
                      [57] 梅英, 譚冠政, 劉振燾, 武鶴. 基于大腦情感學習模型和自適應遺傳算法的混沌時間序列預測. 物理學報, 2018, 67(8): 80502?80502

                      57 Mei Ying, Tan Guan-Zheng, Liu Zhen-Tao, Wu He. Chaotic time series prediction based on brain emotional learning model and self-adaptive genetic algorithm. Acta Physica Sinica, 2018, 67(8): 80502?80502
                      [58] 楊臻明, 岳繼光, 王曉保, 蕭蘊詩. 基于獨立成分分析的含噪聲時間序列預測. 控制與決策, 2013, 28(4): 501?505

                      58 Yang Zhen-Ming, Yue Ji-Guang, Wang Xiao-Bao, Xiao Yun-Shi. Noisy time series prediction using independent component analysis. Control and Decision, 2013, 28(4): 501?505
                      [59] 宋曉祥, 郭艷, 李寧, 余東平. 基于稀疏貝葉斯學習的協同進化時間序列缺失數據預測算法. 計算機科學, 2018, 46(7): 1?7 doi:  10.11896/j.issn.1002-137X.2018.07.001

                      59 Song Xiao-Xiang, Guo Yan, Li Ning, Yu Dong-Ping. Missing data prediction algorithm based on sparse Bayesion learning in coevolving time series. Computer Science, 2018, 46(7): 1?7 doi:  10.11896/j.issn.1002-137X.2018.07.001
                      [60] 宋曉樣, 郭艷, 李寧, 王萌. 基于壓縮感知的時間序列缺失數據預測算法. 計算機科學, 2019, 46(06): 35?40

                      60 Song Xiao-Xiang, Guo Yan, Li Ning, Wang Meng. Missing Data Prediction Based on Compressive Sensing in Time Series. Computer Science, 2019, 46(06): 35?40
                      [61] 61 Paul T K, Ogunfunmi T. On the Convergence Behavior of the Affine Projection Algorithm for Adaptive Filters. IEEE Transactions on Circuits and Systems, 2011, 58(8): 1813?1826 doi:  10.1109/TCSI.2011.2106091
                      [62] 62 Slavakis K, Theodoridis S, Yamada I. Online kernel-based classification using adaptive projection algorithms. IEEE Transactions on Signal Processing, 2008, 56(7): 2781?2796 doi:  10.1109/TSP.2008.917376
                      [63] 63 Yukawa M. Multikernel adaptive filtering. IEEE Transactions on Signal Processing, 2012, 60(9): 4672?4682 doi:  10.1109/TSP.2012.2200889
                      [64] 張帆. Adaline神經網絡隨機逼近LMS算法的仿真研究. 電子設計工程, 2009, 17(9): 88?90 doi:  10.3969/j.issn.1674-6236.2009.09.034

                      64 Zhang Fan. Simulation study of stochastic approximation LMS algorithm of Adaline neural network. Electronic Design Engineering, 2009, 17(9): 88?90 doi:  10.3969/j.issn.1674-6236.2009.09.034
                      [65] 65 Han M, Zhong K, Qiu T, Han B. Interval type-2 fuzzy neural networks for chaotic time series prediction: a concise overview. IEEE Transactions on Cybernetics, 2018, 49(7): 2720?2731
                      [66] 李海林, 梁葉. 基于動態時間彎曲的股票時間序列聯動性研究. 數據采集與處理, 2016, 31(1): 117?129

                      66 Li Hai-Lin, Liang Ye. Co-movement research of stock timeseries bsed on dynamic time warping. Data Acquisition and Processing, 2016, 31(1): 117?129
                      [67] 67 Li H. Piecewise aggregate representations and lower-bound distance functions for multivariate time series. Physica A: Statistical Mechanics and its Applications, 2015, 427: 10?25 doi:  10.1016/j.physa.2015.01.063
                      [68] 韓敏, 王亞楠. 基于Kalman濾波的儲備池多元時間序列在線預報器. 自動化學報, 2010, 36(1): 169?173 doi:  10.3724/SP.J.1004.2010.00169

                      68 Han Min, Wang Ya-Nan. Multivariate time series online predictor with Kalman filter trained reservoir. Acta Automatica Sinica, 2010, 36(1): 169?173 doi:  10.3724/SP.J.1004.2010.00169
                      [69] 69 Aghabozorgi S, Teh Y W. Stock market co-movement assessment using a three-phase clustering method. Expert Systems with Applications, 2014, 41(4): 1301?1314 doi:  10.1016/j.eswa.2013.08.028
                      [70] 70 Jeon S, Hong B, Chang V. Pattern graph tracking-based stock price prediction using big data. Future Generation Computer Systems, 2018, 80: 171?187 doi:  10.1016/j.future.2017.02.010
                      [71] 萬?;? 李海林. 基于特征表示的金融多元時間序列數據分析. 統計與決策, 2015, 44(23): 151?155

                      71 Wan Xiao-Ji, Li Hai-Lin. Financial multivariate time series data analysis based on feature representation. Statistics and Decision, 2015, 44(23): 151?155
                      [72] 72 Lu L, Zhao H, Chen B. Time series prediction using kernel adaptive filter with least mean absolute third loss function. Nonlinear Dynamics, 2017, 90(2): 999?1013 doi:  10.1007/s11071-017-3707-7
                      [73] Lu L, Zhao H, Chen B. KLMAT: a kernel least mean absolute third algorithm. arXiv preprint, arXiv: 1603.03564, 2016
                      [74] Anava O, Hazan E, Mannor S, Ohad Shamir. Online learning for time series prediction. In: Proceeding of Conference on Learning Theory. 2013. 172−184
                      [75] 75 Santos J D A, Barreto G A. An outlier-robust kernel RLS algorithm for nonlinear system identification. Nonlinear Dynamics, 2017, 90(3): 1707?1726 doi:  10.1007/s11071-017-3760-2
                      [76] 76 Hong Y S T. Dynamic nonlinear state-space model with a neural network via improved sequential learning algorithm for an online real-time hydrological modeling. Journal of Hydrology, 2012, 468: 11?21
                      [77] 77 Chen B, Liang J, Zheng N, Principe J C. Kernel least mean square with adaptive kernel size. Neurocomputing, 2016, 191: 95?106 doi:  10.1016/j.neucom.2016.01.004
                      [78] Song Q. Time Series Prediction Based on Online Learning. In: Proceeding of IEEE 14th International Conference on Machine Learning and Applications (ICMLA). Miami, FL, USA: IEEE, 2015. 857-864
                      [79] 79 Tuia D, Munoz-Mari J, Rojo-Alvarez J L, Manel Martinez R, Gustavo C V. Explicit recursive and adaptive filtering in reproducing kernel Hilbert spaces. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(7): 1413?1419 doi:  10.1109/TNNLS.2013.2293871
                      [80] 80 Wang S, Zheng Y, Duan S, Wang L, Tan H. Quantized kernel maximum correntropy and its mean square convergence analysis. Digital Signal Processing, 2017, 63: 164?176 doi:  10.1016/j.dsp.2017.01.010
                      [81] Constantin I, Lengelle R. Performance analysis of kernel adaptive filters based on RLS algorithm. In: Proceeding of IEEE 25th International Conference on Microelectronics (ICM). bEIRUT, lEBANON: IEEE, 2013. 1−4
                      [82] Van Vaerenbergh S, Santamaria I, Lazaro-Gredilla M. Estimation of the forgetting factor in kernel recursive least squares. In: Proceeding of IEEE International Workshop on Machine Learning for Signal Processing (MLSP). sANTANDER, sPAIN: IEEE, 2012. 1−6
                      [83] 83 Crammer K, Dekel O, Keshet J, Shalev-Shwartz S, Singer Y. Online passive-aggressive algorithms. Journal of Machine Learning Research, 2006, 7(Mar): 551?585
                      [84] 84 Mairal J, Bach F, Ponce J, Sapiro G. Online learning for matrix factorization and sparse coding. Journal of Machine Learning Research, 2010, 11(Jan): 19?60
                      [85] 85 Guan N, Tao D, Luo Z, Yuan B. Online nonnegative matrix factorization with robust stochastic approximation. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(7): 1087?1099 doi:  10.1109/TNNLS.2012.2197827
                      [86] 86 Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 2011, 12(Jul): 2121?2159
                      [87] 87 Zhao P, Hoi S C H, Jin R. Double updating online learning. Journal of Machine Learning Research, 2011, 12(May): 1587?1615
                      [88] 88 Wang Z, Crammer K, Vucetic S. Breaking the curse of kernelization: Budgeted stochastic gradient descent for large-scale svm training. Journal of Machine Learning Research, 2012, 13(Oct): 3103?3131
                      [89] 89 Le T, Nguyen T D, Nguyen V, Phung D. Approximation vector machines for large-scale online learning. The Journal of Machine Learning Research, 2017, 18(1): 3962?4016
                      [90] 90 Hoi S C H, Wang J, Zhao P. Libol: A library for online learning algorithms. The Journal of Machine Learning Research, 2014, 15(1): 495?499
                      [91] Bottou L, Cun Y L. Large scale online learning. In: Proceeding of Advances in neural information processing systems(NIPS). Vancouver, British, Columbia, 2004. 217−224
                      [92] 92 Dieuleveut A, Flammarion N, Bach F. Harder, better, faster, stronger convergence rates for least-squares regression. The Journal of Machine Learning Research, 2017, 18(1): 3520?3570
                      [93] 93 Lin J, Zhou D X. Online learning algorithms can converge comparably fast as batch learning. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2367?2378 doi:  10.1109/TNNLS.2017.2677970
                      [94] 94 Flores A, de Lamare R C. Set-membership adaptive kernel NLMS algorithms: Design and analysis. Signal Processing, 2019, 154: 1?14 doi:  10.1016/j.sigpro.2018.07.007
                      [95] 95 Liu Y, Sun C, Jiang S. Kernel filtered-x LMS algorithm for active noise control system with nonlinear primary path. Circuits, Systems, and Signal Processing, 2018: 1?19
                      [96] 96 Lei Y, Shi L, Guo Z C. Convergence of unregularized online learning algorithms. The Journal of Machine Learning Research, 2017, 18(1): 6269?6301
                      [97] 97 Ma Y, Zheng T. Stabilized sparse online learning for sparse data. The Journal of Machine Learning Research, 2017, 18(1): 4773?4808
                      [98] Wada T, Fukumori K, Tanaka T. Dictionary learning for gaussian kernel adaptive filtering with variablekernel center and width. In: Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE, 2018. 2766−2770
                      [99] 99 Wang S, Dang L, Chen B, Ling C, Wang L, Duan S. Kernel online learning algorithm with scale adaptation. IEEE Transactions on Circuits and Systems Ⅱ: Express Briefs, 2018, 65(11): 1788?1792 doi:  10.1109/TCSII.2017.2765523
                      [100] Ohnishi M, Yukawa M. Online nonlinear estimation via iterative L2-space projections: reproducing kernel of subspace. arXiv preprint arXiv: 1712.04573, 2017
                      [101] Shin B S, Yukawa M, Cavalcante R L G, Dekorsy A. Distributed adaptive learning with multiple kernels in diffusion networks. arXiv preprint arXiv: 1801.07087, 2018
                    • [1] 馬躍峰, 梁循, 周小平. 一種基于全局代表點的快速最小二乘支持向量機稀疏化算法[J]. 自動化學報, doi: 10.16383/j.aas.2017.c150720
                      [2] 王琴, 沈遠彤. 基于壓縮感知的多尺度最小二乘支持向量機[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150296
                      [3] 陶劍文, 王士同. 核分布一致局部領域適應學習[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.01295
                      [4] 陶劍文, 王士同. 領域適應核支持向量機[J]. 自動化學報, doi: 10.3724/SP.J.1004.2012.00797
                      [5] 孫明軒, 畢宏博. 學習辨識:最小二乘算法及其重復一致性[J]. 自動化學報, doi: 10.3724/SP.J.1004.2012.00698
                      [6] 吳楓, 仲妍, 吳泉源. 基于增量核主成分分析的數據流在線分類框架[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00534
                      [7] 李妍, 毛志忠, 王琰. 基于偏差補償遞推最小二乘的Hammerstein-Wiener模型辨識[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00163
                      [8] 吳秀永, 徐科, 徐金梧. 基于Gabor小波和核保局投影算法的表面缺陷自動識別方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00438
                      [9] 王雪松, 田西蘭, 程玉虎, 易建強. 基于協同最小二乘支持向量機的Q學習[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00214
                      [10] 徐東彬, 黃磊, 劉昌平. 自適應核密度估計運動檢測方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00379
                      [11] 王永忠, 梁彥, 趙春暉, 潘泉. 基于多特征自適應融合的核跟蹤方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00393
                      [12] 郝燕玲, 王眾. 基于SNN核的景象匹配算法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.01475
                      [13] 顏學峰. 基于徑基函數-加權偏最小二乘回歸的干點軟測量[J]. 自動化學報, doi: 10.1360/aas-007-0193
                      [14] 李麗娟, 蘇宏業, 褚健. 基于在線最小二乘支持向量機的廣義預測控制[J]. 自動化學報, doi: 10.1360/aas-007-1182
                      [15] 許建化, 張學工, 李衍達. 最小平方誤差算法的正則化核形式[J]. 自動化學報
                      [16] 趙龍, 陳哲. 新型聯邦最小二乘濾波算法及應用[J]. 自動化學報
                      [17] 李松濤, 張長水, 榮鋼, 邊肇祺, Dongming Zhao. 一種基于最小二乘估計的深度圖像曲面擬合方法[J]. 自動化學報
                      [18] 王曉, 韓崇昭, 萬百五. 兩種新的有效的非線性系統最小二乘辨識算法[J]. 自動化學報
                      [19] 羅貴明. 基于最小二乘算法的最優適應控制器[J]. 自動化學報
                      [20] 孟曉風, 王行仁, 黃俊欽. 最小二乘估計的HOUSEHOLDER變換快速遞推算法[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  927
                    • HTML全文瀏覽量:  3182
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-01-21
                    • 錄用日期:  2019-09-24
                    • 網絡出版日期:  2020-01-02

                    基于核自適應濾波器的時間序列在線預測研究綜述

                    doi: 10.16383/j.aas.c190051
                      基金項目:  國家自然科學基金(61773087)資助
                      作者簡介:

                      大連理工大學電子信息與電氣工程學部教授. 主要研究方向為模式識別, 復雜系統建模及時間序列預測. 本文通信作者.E-mail: minhan@dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部碩士研究生. 主要研究方向為時間序列在線建模, 預測.E-mail: majunzhu@mail.dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部博士研究生. 主要研究方向為時間序列分析和特征選擇.E-mail: renweijie@mail.dlut.edu.cn

                      大連理工大學電子信息與電氣工程學部博士研究生. 主要研究方向為工業過程監控, 故障診斷.E-mail: zhongkai0402@mail. dlut.edu.cn

                    摘要: 核自適應濾波器是時間序列在線預測的重點研究領域之一, 本文對核自適應濾波器的最新進展及未來研究方向進行了分析和總結. 基于核自適應濾波器的時間序列在線預測方法, 能較好的解決預測、跟蹤問題. 本文首先概述了三類核自適應濾波器的基本模型, 包括核最小均方算法, 核遞歸最小二乘算法和核仿射投影算法. 在此基礎上, 從核自適應濾波器在線預測的內容和機理入手, 綜述基于核自適應濾波器的時間序列在線預測方法. 最后, 本文將介紹這一領域潛在的研究方向和發展趨勢, 并展望未來的挑戰.

                    English Abstract

                    韓敏, 馬俊珠, 任偉杰, 鐘凱. 基于核自適應濾波器的時間序列在線預測研究綜述. 自動化學報, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    引用本文: 韓敏, 馬俊珠, 任偉杰, 鐘凱. 基于核自適應濾波器的時間序列在線預測研究綜述. 自動化學報, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    Citation: Han Min, Ma Jun-Zhu, Ren Wei-Jie, Zhong Kai. A survey of time series online prediction based on kernel adaptive filters. Acta Automatica Sinica, 2019, 45(x): 1?17. doi: 10.16383/j.aas.c190051
                    • 氣象、水文、金融、醫學以及工程等領域, 其數據多以時間序列的形式進行存儲. 時間序列是某種變量或統計指標的數值隨時間排序所形成的序列集合, 其中既含有全部變量的歷史信息, 又含有參與系統動態演化的變量信息, 例如在氣象數據中, 溫度、濕度、風速、風向、氣壓、降雨量、日照時數、紫外線強度的變化等. 從時間序列數據的歷史信息中預測未來的變化, 以提前做好防護措施, 對保障人類生命財產安全具有重要意義[1-6].

                      近年來, 隨著對時間序列研究的深入化, 傳統的線性自適應濾波算法[7], 例如最小均方(least mean squares, LMS)算法, 遞歸最小二乘(recursive least squares, RLS)算法等都不滿足預測要求. LMS 收斂過程緩慢, 步長與收斂速度、失調之間也存在矛盾. RLS具有計算復雜度較高、所需存儲量較大的缺陷. 同時, 它們的應用實時性也較差, 在處理非線性、非平穩、高復雜性等問題時效果并不理想. 所以對非線性、非平穩、復雜系統的研究已經引起了許多國內外專家學者的廣泛關注, 并取得了一定的研究成果.

                      對于上述問題, 出現的建模方法主要包括: 人工神經網絡(artificial neural networks, ANN)[8-10]、支持向量機(support vector machines, SVM)[11]、核自適應濾波器(kernel adaptive filter, KAF)[12,13]以及一些其它非線性方法. ANN和SVM都屬于離線方法, 不滿足在線實時性要求. 而KAF是指線性自適應濾波器在核空間(kernel space, KS)的擴展[14,15], 該過程滿足在線預測要求, 對復雜時間序列預測具有實時輸出的特點. 其中“核技巧”操作不需被顯式地知道訓練樣本在特征空間內的映射[16], 它直接通過核函數計算來完成特征空間的內積計算, 整個計算過程被簡化, 該映射過程如圖1.

                      圖  1  從輸入空間到特征空間的非線性映射f(·)

                      Figure 1.  Nonlinear mapping f(·) from input space to feature space

                      目前, 國內外學者使用最多的是高斯核函數. 核函數是先將輸入數據映射到高維空間, 再在高維空間進行線性操作.該過程對解決非線性問題具有明顯的優勢[17,18]. 隨著對核函數[15-18]研究的深入, 學者們相繼提出了應用于時間序列的計算復雜度較低、跟蹤時變能力較強的KAF在線預測算法.

                      近年來, 由于時間序列組成的非線性系統越來越復雜, 簡單的離線預測已經不能滿足用戶的要求. 對于上述問題, 多種時間序列在線預測方法相繼出現. 目前, 時間序列在線預測方法主要分為以下幾類: 重新建模方法、動態神經網絡方法、在線支持向量回歸方法、遞歸貝葉斯估計方法和KAF方法.

                      KAF使用核方法實現非線性傳遞函數. 在KAF中, 信號被映射到高維線性特征空間, 并且非線性函數被近似為核的總和, 其域是特征空間. 如果這是在再生核希爾伯特空間(Reproducing kernel Hilbert space, RKHS) 中完成的, 則核方法可以是非線性函數的通用逼近器. 內核方法具有凸損函數的優點, 同時沒有局部最小值[13]. 近年來, 隨著環境的不斷復雜化, 其預測、跟蹤問題也日趨復雜化. 在線預測作為一種實時預測、跟蹤時變的有效方法, 在時間序列預測方面展現出較好的能效結果, 并滿足用戶的實時監測與控制的要求[19-21]. 基于KAF 的在線預測方法在許多實際應用領域中都已展現出較好的預測性能, 其中主要包括三類, 核最小均方(kernel least mean squares, KLMS)[19]算法, 核遞歸最小二乘(kernel recursive least squares, KRLS)[20]算法和核仿射投影算法(kernel affine projection algorithm, KAPA)[21]. 在此基礎上, 許多學者也提出相應的改進算法, 根據KAF的發展進程, KAF在線預測模型的研究進展具體如圖2 所示, 它詳細的概括了文章的整體研究脈絡.

                      圖  2  KAF方法分類框圖

                      Figure 2.  Classification diagram of the KAF method

                      然而, KAF方法在時間序列在線預測過程中還存在以下的問題: 隨著新樣本的加入, 系統所占用的內存不斷增加(主要表現為核矩陣維度的增加), 計算復雜度會隨樣本量的增加而增長. 針對該問題, 學者們對以上三類KAF方法進行了相應的改進[22-36].在一定程度上, 在線預測幫助研究者實現了對非線性、非平穩、復雜時間序列系統的實時預測, 對進一步將要發生的變化做出更科學、合理的決策.

                      本文的貢獻主要集中在: 總結基于KAF的時間序列在線預測研究進展, 重點介紹基于KAF的時間序列在線預測方法, 主要包括KLMS, KRLS和KAPA三類, 在本文還介紹了這一研究領域的研究趨勢和發展延伸, 并展望未來的挑戰, 即充分理解基于KAF的時間序列在線預測的發展趨勢, 以供進一步研究.

                      • 對于KLMS中存在的計算復雜度和核矩陣的增長問題, 文獻[22]提出一種量化核最小均方(quantization kernel least mean square, QKLMS)算法, 其量化操作限制了核函數維數的無限增長, 基本思想是通過量化操作壓縮輸入數據, 而不像其他稀疏化方法那樣直接丟棄冗余數據. 文獻[23] 提出了單反饋核最小均方((single feedback kernel least mean square, SF-KLMS)算法, 它使用單個延遲輸出以循環方式更新權重, 過去信息的使用也顯著加快了收斂速度. 文獻[24] 提出了改進的量化核最小均方(modification quantization kernel least mean square, M-QKLMS)算法, 它在使用預測誤差的同時還用梯度下降方法來更新濾波器系數. 不同于QKLMS 只考慮預測誤差, M-QKLMS 采用新的訓練數據和預測誤差來調整字典中最接近中心的系數. 文獻[25]提出了一種基于隨機特征網絡的KLMS算法(kernel least mean square base on random feature networks, KLMS-RFN), 它與理論上隱式地將輸入映射到無限維空間高斯核相反, 隨機特征映射是將樣本輸入到相對低維的特征空間, 并使變換后的樣本與使用移位不變內核的特征空間中近似等效.

                        KAF作為在線預測模型, 已經在時間序列預測領域展現出較好的性能[18]. 以下將詳細說明基于KLMS及其改進方法的時間序列在線預測機理.

                      • 目前, 對于復雜難預測環境, LMS與核方法結合的應用方式隨之出現. 2008年, Liu等將LMS嵌入KS提出KLMS[19]. KLMS是指在RKHS中進行的自適應過程, 它結合核技巧和LMS來實現樣本到樣本的更新[37].

                        對于一個有限的訓練數據集, KLMS可通過未知映射將輸入樣本由低維的原始空間映射到高維特征空間, 再在高維特征空間執行簡單的線性計算. 其中涉及步進參數的預設置, 主要有兩種方法實現: 1) 根據經驗設置步進參. 2) 隨著新樣本的到來, 自適應更新權重$ {{w}}\left( i \right) $ 的同時實時改變步進參數.

                        $$ \begin{array}{l} {{w}}\left( i \right) = {{w}}\left( {i - 1} \right) + \mu {{e}}\left( i \right){{\varphi}} \left( i \right) \end{array} $$ (1)

                        其中, $ \mu $是步進參數. $ {{e}}\left( i \right) $表示預測誤差, $ {{\varphi}} \left( i \right) $表示在特征空間映射后的輸入樣本.

                        $$ \begin{array}{l} {{e}}\left( i \right) = {{d}}\left( i \right) - {{w}}{\left( {i - 1} \right)^{\rm{T}}}{{\varphi}} \left( i \right) \end{array} $$ (2)

                        其中, $ {{d}}\left( i \right) = {{\varphi}} {\left( i \right)^{\rm{T}}}w\left( i \right) $.

                        上述過程在增加較少運算量的情況下加快了模型收斂速度, 可較快跟蹤到自適應參數, 減少訓練序列的預處理時間, 從而提高自適應參數的利用效率. 通過以上過程, 得到KLMS模型的預測輸出$ {{y}}\left( i \right) $.

                        $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {{{{\alpha}} _j}\left( i \right)k\left( {{{u}}\left( i \right),{{u}}\left( j \right)} \right)} \end{array} $$ (3)

                        其中, $ {{{\alpha}} _j}\left( i \right) = \eta {{e}}\left( j \right) $, $ \eta $ 表示學習率. $ k\left( { \cdot , \cdot } \right) $表示核函數, 該計算過程也被稱為核技巧.

                        總的來說, KAF在時間序列預測中是一個記憶強化操作. 同時KAF還屬于在線操作范疇, 它通過使用之前的樣本和預測誤差來逐步構造出KAF的輸出.

                        隨著KLMS不斷應用于時間序列預測, 其預測也出現了許多亟待解決的問題[38]. 隨著預測樣本的不斷增多, 預測過程中出現計算復雜度較大的問題, 即隨著新樣本的不斷到來, 核矩陣維數不斷增大, 模型內存消耗也不斷增大, 從而出現預測時間長、效率低、精度低等問題. 對于上述問題, 本章第2節到第5節對給出的多種解決方案進行詳細說明.

                      • 2012年Chen等在KLMS的基礎上提出矢量量化(vector quantization, VQ)操作, 得到量化核最小均方算法. VQ 方法不同于近似依賴準則(approximate linear dependence, ALD)[20], 驚奇準則(surprise criterion, SC), 固定預算準則(fixed budget, FB)[39,40] 和新奇準則(novel criterion, NC)等稀疏方法. VQ 作為稀疏[41,42]的一種替代方法, 其基本思想是矢量量化并以此壓縮輸入或特征空間, 用以遏制自適應濾波器中高斯核結構的增長. QKLMS 中權重$ {{\Omega}} \left( i \right) $ 的更新過程如下所示:

                        $$ \begin{array}{l} {{\Omega}} \left( i \right) = {{\Omega}} \left( {i - 1} \right) + {{\eta}} e\left( i \right)Q\left[ {{{\varphi}} \left( i \right)} \right] \end{array} $$ (4)

                        其中, $ Q\left[ \cdot \right] $是量化算子. 與稀疏方法不同, VQ操作是使用“冗余”數據來更新最接近中心的系數, 該過程提高了數據的利用效率[22].

                        QKLMS的預測輸出$ {{y}}\left( i \right) $如下式所示:

                        $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^{size\left( {C\left( {i - 1} \right)} \right)} {{{{\alpha}} _j}\left( i \right)k\left( {{{{C}}_j}\left( {i - 1} \right),{{u}}\left( i \right)} \right)} \end{array} $$ (5)

                        其中, $ {{{C}}_j}\left( \cdot \right) $表示字典$ {{C}} $中的第$ j $個元素.

                        QKLMS已經應用于短時混沌時間序列預測[22]. 同時VQ利用“冗余”數據來更新最接近的中心系數, 以產生更緊湊的網絡, 最終在時間序列在線預測上得到更高的預測精度和預測效率.

                      • 前述的KLMS和QKLMS都是前饋網絡, 2015年Zhao等首次提出具有單反饋結構的單反饋核最小均方(SF-KLMS)算法. 在SF-KLMS中只有一個延遲輸出被用于以循環方式更新權重, 過去信息的使用顯著地加快了模型的收斂速度. SF-KLMS 具有更緊湊、更高效的循環結構.

                        在SF-KLMS中包含兩個權重更新過程: 1) 前饋權重$ {{w}}\left( i \right) $; 2) 反饋權重$ \gamma \left( i \right) $.

                        $$ \begin{split} {{w}}\left( {i + 1} \right) =& {{w}}\left( i \right){\rm{ + }}\frac{{{\eta _w}\left( i \right)}}{{{\rho _w}\left( i \right)}}e\left( i \right){{k}}\left( i \right) {\rm{ + }}\\[-5pt] &\frac{{{\eta _w}\left( i \right)}}{{{\rho _w}\left( i \right)}}e\left( i \right){\beta _w}\left( i \right)\gamma \left( i \right){{{D}}_w}\left( {i - 1} \right) \end{split} $$ (6)
                        $$ \begin{split} \gamma \left( {i + 1} \right) =& \gamma \left( i \right){\rm{ + }}\frac{{{\eta _\gamma }\left( i \right)}}{{{\rho _\gamma }\left( i \right)}}e\left( i \right)y\left( {i - 1} \right)+ \\[-3pt] &\frac{{{\eta _\gamma }\left( i \right)}}{{{\rho _\gamma }\left( i \right)}}e\left( i \right){\beta _\gamma }\left( i \right)\gamma \left( i \right){D_\gamma }\left( {i - 1} \right) \end{split}$$ (7)

                        其中, $ {\eta _w} $$ {\eta _w} $是學習率, $ {\rho _w} $$ {\rho _\gamma } $ 是歸一化參數, $ {\beta _w} $$ {\beta _\gamma } $是調整最新梯度信息的參數, ${{{D}}_w}\left( i \right) = {{k}}\left( i \right) + $$ {\beta _w}\left( i \right)\gamma \left( i \right){{{D}}_w}\left( {i - 1} \right) $是當前梯度信息, ${D_\gamma }\left( i \right){\rm{ = }} $$ y\left( {i - 1} \right) + {\beta _\gamma }\left( i \right)\gamma \left( i \right){D_\gamma }\left( {i - 1} \right) $.

                        SF-KLMS具有以下優勢: 1) SF-KLMS利用延遲輸出的先前梯度信息$ {{{D}}_w}\left( {i - 1} \right) $ 來更新當前梯度$ {{{D}}_w}\left( i \right) $; 2) 與無反饋的KAF(如KLMS)和含多反饋的KAF(如LRKOL)相比, SF-KLMS具有更緊湊的結構, 更快的收斂速度和更好的預測性能.

                        根據上述分析, 得到SF-KLMS模型的輸出$ {{y}}\left( i \right) $.

                        $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{l = 1}^m {k\left( {{{u}}\left( i \right),{{u}}\left( {{C_l}} \right)} \right){w_l} + \gamma \left( i \right)y\left( {i - 1} \right)} \end{array} $$ (8)

                        其中, $ {{u}}\left( {{C_l}} \right) $表示字典的第$ l $個信號.

                        在短時時間序列預測中, 調節因子$ {\beta _w} $被設置成較小值, 而$ {\beta _\gamma } $ 可被設置為相對較大的值用以提高反饋的效果[43].

                      • KAF在線預測算法已經在解決復雜系統的預測、跟蹤方面展現出強大的能力. 改進的量化核最小均方(M-QKLMS)算法于2016年被Zheng等提出, 該方法是在QKLMS方法的基礎上進行的改進[24]. M-QKLMS 采用梯度下降方法來更新核自適應濾波器系數, 不同于QKLMS只考慮預測誤差, 該方法還采用新訓練數據與預測誤差來共同調整字典最接近中心的系數.

                        計算新樣本與現存字典之間的距離.

                        $$ \begin{array}{l} \begin{array}{l} dis\left( {{{u}}\left( i \right),D\left( {i - 1} \right)} \right)=\\ \mathop {\min }\limits_{1 \text{≤} l \text{≤} \left( {D\left( {i - 1} \right)} \right)} \left\| {{{u}}\left( i \right) - {D_l}\left( {i - 1} \right)} \right\| > \gamma \end{array} \end{array} $$ (9)

                        其中, $ \gamma $是量化參數. 如果$ dis\left( {{{u}}\left( i \right),D\left( {i - 1} \right)} \right) \text{≤} \gamma $, 那么權重矩陣為$ {{w}}_{{l^ * }}\left( i \right) = {{\bf{{{w}}}}_{{l^ * }}}\left( {i - 1} \right) + \eta \kappa ( {D_{{l^ * }}}\left( {i - 1} \right),$${{u}}\left( i \right) )e\left( i \right) $. 否則, 權重矩陣為$ {{w}}\left( i \right) = [ {{w}}\left( {i - 1} \right),$$\eta e\left( i \right) ] $.

                        根據上述判斷結果, 得到輸出$ {{y}}\left( i \right) $.

                        $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {{{{w}}_j}\left( {i - 1} \right)k\left( {{{{D}}_j}\left( {i - 1} \right),{{u}}\left( i \right)} \right)} \end{array} $$ (10)

                        M-QKLMS先執行VQ操作, 再利用梯度下降方法與預測誤差共同作用, 從而有效地降低網絡結構復雜度. 該過程提高了歷史信息的利用效率[24]. 總之, M-QKLMS利用新訓練數據隱藏的信息, 達到了更好的預測精度.

                      • 為了在非靜態環境中構建在線KAF, Liu等于2018年提出了基于隨機特征網絡的核最小均方算法[25]. KLMS-RFN與將輸入映射到高維特征空間的高斯核相比, 隨機特征映射變換是將樣本輸入到相對低維的特征空間, 其中變換后的樣本近似等于在特征空間中使用一個移位不變核, 如下所示:

                        $$ \begin{array}{l} {{k}} \left( {{{{x}}_1},{{{x}}_2}} \right) = \left\langle {\Phi \left( {{{{x}}_1}} \right),\Phi \left( {{{{x}}_2}} \right)} \right\rangle \approx \varphi {\left( {{{{x}}_1}} \right)^{\rm T}}\varphi \left( {{{{x}}_2}} \right) \end{array} $$ (11)

                        其中, $ \varphi \left( {{x}} \right):{\rm{R}^m} \to {\rm{R}^M} $, 表示特征映射后的輸入矩陣.

                        然后, KLMS-RFN模型的預測過程可總結為: (1)計算隨機傅立葉特征向量$ \varphi \left( {{{x}}\left( n \right)} \right) $

                        $$ \begin{array}{l} \varphi \left( {{{x}}\left( n \right)} \right) = {\left[ \begin{array}{l} \cos \left( {{{w}}_1^{\rm{T}}{{{x}}_n}} \right)\\ \cdot \cdot \cdot \\ \cos \left( {{{w}}_M^{\rm{T}}{{{x}}_n}} \right)\\ \sin \left( {{{w}}_1^{\rm{T}}{{{x}}_n}} \right)\\ \cdot \cdot \cdot \\ \sin \left( {{{w}}_M^{\rm{T}}{{{x}}_n}} \right) \end{array} \right]^{\rm{T}}} \end{array} $$ (12)

                        (2)得到自適應濾波器的輸出$ {{y}}\left( n \right) $

                        $$ \begin{array}{l} {{y}}\left( n \right) = {{{w}}^{\rm T}}\left( {n - 1} \right)\varphi \left( {{{x}}\left( n \right)} \right) \end{array} $$ (13)

                        (3)得到權重更新矩陣$ {{w}}\left( n \right) $

                        $$ \begin{array}{l} {{w}}\left( n \right) = {{w}}\left( {n - 1} \right){\rm{ + }}\eta e\left( n \right)\varphi \left( {{{x}}\left( n \right)} \right) \end{array} $$ (14)

                        其中, $ e\left( n \right) = d\left( n \right) - y\left( n \right) $表示預測誤差.

                        KLMS-RFN不需要存儲重要樣本, 可節省大量存儲成本. 當所選樣本較多時, KLMS-RFN的計算復雜度明顯低于核矩陣的計算復雜度. 此外, KLMS-RFN還可以約束不斷增長的權重網絡的結構, 同時更新樣本來跟蹤輸入的特征變化. 該模型已經在時間序列得到應用, 明顯的提高了模型在非平穩環境下的預測性能[25].

                      • 通過對KLMS及其改進模型的說明, 就降低核矩陣維數、提高歷史信息的利用效率方面來說, 可以看出KAF在時間序列在線預測領域已得到廣泛的應用[44-46]. 在本章節, 主要討論基于KLMS在時間序列在線預測中出現的核矩陣計算量大, “冗余”信息利用效率低等問題的解決方法. 針對上述問題, 通過VQ來提高歷史信息的利用效率, 并在此基礎上采用預測誤差來自適應更新濾波器結構, 降低核矩陣的維數.

                        KLMS是在高維特征空間中推導的, 它使用隨機梯度方法解決最小二乘問題, 從Hadamard意義上來講, KLMS不需要明確的正則化. KLMS及相應的改進模型已經在復雜時間序列中得到廣泛的應用[19,22,24,47]. KAF在一定程度上縮短了預測時間, 簡化了核矩陣的計算步驟, 降低了計算復雜度, 也通過使用“冗余”樣本, 提高了信息的利用效率, 提高了時間序列在線預測精度.

                      • 對于KRLS建模中出現的在線樣本量和核矩陣維數的限制問題, 文獻[26]提出滑動窗口核遞歸最小二乘方法(sliding window kernel recursive least squares, SW-KRLS), 它只選取固定長度的序列樣本進行計算, 從而降低核矩陣維度. 文獻[27] 提出擴展核遞歸最小二乘(extended kernel recursive least squares, EX-KRLS)算法, 該方法可以在KS內表達狀態空間模型, 還可以利用狀態空間模型動態表示在時變環境條件下的時間序列的變化趨勢. 文獻[28]提出固定預算核遞歸最小二乘(fixed budget kernel recursive least squares, FB-KRLS)算法, 它只選取固定數量樣本, 且保留相關性較強的數據樣本進行計算, 拋棄相關性弱的數據樣本, 該過程不僅降低了核矩陣的維度, 而且提高了預測精度. 文獻[29] 提出核遞歸最小二乘跟蹤(kernel recursive least squares with tracker, KRLS-T)算法, 包括遺忘因子原則和數值穩定的方式, 它固定了內存量和每一個時間步長的計算, 限制了核矩陣的維數, 并以自然的方式結合正則化, 從而跟蹤每次預測的時變特性. 與文獻[22]類似, 文獻[30]提出了量化核遞歸最小二乘(quantization kernel recursive least squares, QKRLS)算法, 其基本思想也是通過量化操作壓縮輸入數據, 限制核矩陣維數, 該方法將“冗余”數據利用起來, 用以提高預測精度. 文獻[31] 提出了多反饋核遞歸最小二乘(multi-feedback kernel recursive least squares, MF-KRLS)算法, 它是利用多個先前輸出來遞歸更新結構參數, 具有跟蹤時變的特性. 文獻[32] 提出自適應歸一化稀疏核遞歸最小二乘(adaptive normalized sparse kernel recursive least squares, ANS-KRLS)算法, 它結合一致性準則、ALD 和動態自適應調整來限制核矩陣維數, 同時提高了預測精度.

                        目前, KRLS已經廣泛應用于數據挖掘、機器學習等領域[20]. KRLS將輸入樣本通過Mercer 核映射到高維特征空間, 然后在高維特征空間中利用矩陣反演引理執行線性回歸, 從而在線的解決復雜時間序列預測問題[48-57]. 以下將詳細說明基于KRLS及其改進方法的時間序列在線預測機理.

                      • KRLS利用矩陣反演引理簡化核矩陣的求逆過程, 目的在于簡化計算, 并降低存儲要求、提高預測效率. 目前, KRLS 已經在復雜時間序列預測中展現出較好的預測性能[20], 它能夠以在線的形式實時處理樣本序列.

                        KRLS模型的ALD閾值是根據經驗獲得, 太大或太小都會降低預測精度[20]. 當樣本進入KRLS模型后, 計算該樣本與當前字典在特征空間的線性擴展距離$ \delta \left( i \right) $, 如果大于$ \nu $, 那么該樣本滿足要求被加入字典進行預測. 反之, 如果小于$ \nu $, 那么該數據樣本被移除, 這保證了核矩陣維數的有限性.

                        $$ \begin{array}{l} \delta \left( i \right) = {\left\| {\displaystyle\sum\limits_{k = 1}^{i - 1} {\alpha \left( k \right)\varphi \left( {{{x}}\left( k \right)} \right) - \varphi \left( {{{x}}\left( i \right)} \right)} } \right\|^2} > \nu \end{array} $$ (15)

                        其中, $ \nu $是設置的ALD閾值.

                        根據以上過程, 得到權重矩陣$ {{w}}\left( i \right) $.

                        $$ \begin{split} {{w}}\left( i \right) =&{\left[ {\lambda {{I}} + \Phi {{\left( i \right)}^{\rm{T}}}\Phi \left( i \right)} \right]^{ - 1}}\Phi \left( i \right){{d}}\left( i \right) = \Phi \left( i \right)\\ &{\left[ {\lambda {{I}} + \Phi {{\left( i \right)}^{\rm{T}}}\Phi \left( i \right)} \right]^{ - 1}}{{d}}\left( i \right) \end{split} $$ (16)

                        其中, $ \lambda $是正則化參數, $ {{\Phi}} \left( i \right) $表示特征空間映射后的輸入矩陣, $ {{I}} $表示單位矩陣, $ d\left( i \right) $表示期望輸出. 該過程使用矩陣反演引理.

                        再將$ w\left( i \right) $代入輸出模型, 得到輸出結果$ f\left( {{{{u}}_ * }} \right) $.

                        $$ \begin{array}{l} f\left( {{{{u}}_ * }} \right) = \displaystyle\sum\limits_{j = 1}^i {{{{\alpha}} _j}\left( i \right)k\left( {{{u}}\left( j \right),{{{u}}_ * }} \right)} \end{array} $$ (17)

                        根據上述過程對預測結果進行分析[48-51], 得到復雜系統下一步的發展趨勢及實時信息, 最終做出更科學的決策.

                        與第2章的KLMS相比, 就收斂速度而言, KRLS模型比KLMS模型小一個數量級, 但是這種性能的改善是以增加計算復雜度為代價的. 所以, 如何改善預測模型的計算復雜度?本章第2節到第8節對給出的多種改進方法進行詳細說明.

                      • 滑動窗口核遞歸最小二乘方法[26]是Van Vaerenbergh等于2006年提出. SW-KRLS是結合滑動窗和傳統L2范數正則化得到的. SW-KRLS中滑動窗對核矩陣維數的要求是固定而非限制, 是始終保持字典的維度不變. L2范數正則化則是改進了模型的泛化能力. 該方法多用于無記憶非線性系統, 并在時變環境、跟蹤突變問題上體現出較好的預測性能. 在SW方法中, 選定窗口$ n $, 得到正則化核矩陣$ {{{K}}_n} $.

                        $$ \begin{array}{l} {{{K}}_n} = {{\tilde{ X}}_n}{\tilde{ X}}_n^{\rm{T}} + c{{I}} \end{array} $$ (18)

                        其中, $ c $是正則化參數, $ {{I}} $表示單位矩陣, 觀測矩陣被表示為$ {{{X}}_n} = {\left[ {{X_n},{X_{n - 1}}, \cdot \cdot \cdot ,{X_{n - N + 1}}} \right]^{\rm{T}}} $. 當處于在線環境時, 核矩陣的維數取決于觀測值$ N $.

                        如何保持核矩陣維度固定不變?對于新到來樣本, 核矩陣添加新行和新列通過公式(20)實現, 核矩陣移除最舊行和列可通過公式(19)實現.

                        $$ \begin{array}{l} {{{K}}^{ - 1}} = \left[ {\begin{array}{*{20}{c}} {{{{A}}^{ - 1}}\left( {{{I}} + {}{{}^{\rm{T}}}{{{A}}^{ - 1\rm{H}}}g} \right)}&{ - {{{A}}^{ - 1}}{}g}\\ { - {{\left( {{{{A}}^{ - 1}}{}} \right)}^T}g}&g \end{array}} \right]\\[-18pt] \end{array} $$ (19)
                        $$ \begin{array}{l} {{{D}}^{ - 1}} = {{G}} - {{f}}{{{f}}^{\rm{T}}}/e \end{array}\qquad\qquad\qquad\qquad \quad$$ (20)

                        其中, $ {{A}} $是非奇異矩陣, $ g = {\left( {d - {{}^{\rm{T}}}{{{A}}^{ - 1}}{}} \right)^{ - 1}} $, $ {{K}} $是添加新行和列后的矩陣, $ {{D}} $是移除最舊行和列后的矩陣, $ {{}^{\rm{T}}}{{f}}{\rm{ + }}dg = 1 $.

                        根據以上過程, 得到系數矩陣$ {{{\alpha}} _n} $.

                        $$ \begin{array}{l} {{{\alpha}} _n} = {{K}}_n^{ - 1}{{{y}}_n} \end{array} $$ (21)

                        其中, $ {{y}}\left( n \right) = \left[ {{y_n},{y_{n - 1}}, \cdot \cdot \cdot ,{y_{n - N + 1}}} \right] $表示觀測向量, $ {{K}}_n^{ - 1} = \left( {{{K}} + c{{I}}} \right) $.

                        SW-KRLS采用正則化解決了過擬合問題, 并結合滑動窗口(sliding window, SW)和矩陣反演引理來解決計算復雜度的限制問題, 不僅節省了內存空間, 簡化了計算, 也提高了預測精度[26].

                      • 2009年Liu等又提出了在RKHS中的擴展遞歸最小二乘算法的核化形式, 即擴展核遞歸最小二乘算法[27]. EX-KRLS在RKHS中首次實現了一般線性狀態模型.

                        EX-KRLS使用顯式狀態轉移和卡爾曼濾波器來學習內核回歸權向量, 也通過樣本數據完成在線學習[27]. 當$ {{A}} = \alpha {{I}} $時, 得到的狀態轉換模型(22)與觀測模型(23).

                        $$ \begin{array}{l} {{x}}\left( {i + 1} \right) = \alpha {{x}}\left( i \right) + {{n}}\left( i \right) \end{array} $$ (22)
                        $$ \begin{array}{l} {{d}}\left( i \right) = {{\varphi}} {\left( i \right)^{\rm{T}}}{{x}}\left( i \right) + {{v}}\left( i \right) \end{array} $$ (23)

                        其中, $ {{\varphi}} \left( i \right) \in {{F}} $代替$ {{u}}\left( i \right) \in {{U}} $, $ \alpha $是一個升降參數, 既可放大也可衰減.

                        EX-KRLS具有明確的狀態轉移過程, 且可以提高KRLS的跟蹤能力[27], 其跟蹤模型如(24).

                        $$ \begin{array}{l} {{a}}\left( i \right) = \left[ {\begin{array}{*{20}{c}} {{{a}}\left( {i - 1} \right) - {{z}}\left( i \right){{r}}{{\left( i \right)}^{ - 1}}e\left( i \right)}\\ {{{r}}{{\left( i \right)}^{ - 1}}e\left( i \right)} \end{array}} \right] \end{array} $$ (24)

                        其中, $ {{r}}\left( i \right) = \lambda {\rm{ + }}{{\varphi}} {\left( i \right)^{\rm{T}}}{{\varphi}} \left( i \right) - {{z}}{\left( i \right)^{\rm{T}}}{{k}}\left( i \right) $, $ \lambda $ 是用以控制初始狀態向量的正則化參數, $ {{z}}\left( i \right) $表示非奇異矩陣, $ {{k}}\left( i \right) $表示核矩陣, $ e\left( i \right) $ 是預測誤差, $ {{a}}\left( i \right) $是系數矩陣, 它們都是根據樣本點不斷地自適應更新. 所以, EX-KRLS適合于慢衰落、狀態變化小的非線性系統建模.

                      • 對于計算復雜度較大問題, 固定預算核遞歸最小二乘方法于2010年被Van Vaerenbergh等提出[28]. 其中FB準則在限制內存的同時, 不僅減少預測時間, 還提高歷史信息的利用效率.

                        FB準則是Dekel等在2006年提出的. 在預測時間序列樣本時, 隨著新樣本的加入, 直到字典達到預設閾值M之前, FB 準則不起作用. 當樣本達到M+1時, 核矩陣如(25), FB作用, 拋棄最不重要、不相關的數據如(26), 期間字典大小始終為M, 即當新樣本滿足條件時, 就刪除最不相關的數據. 反之, 新樣本如果不滿足條件, 那么新樣本就不被允許加入字典, 即字典保持原來的狀態不變. 該過程不僅限制了輸入數據的維數, 也提高了數據利用效率.

                        $$ \begin{array}{l} {\hat{ K}}_n^{ - 1} = \left[ {\begin{array}{*{20}{c}} {{{K}}_{n - 1}^{ - 1} + g{{e}}{{{e}}^{\rm{T}}}}&{ - g{{e}}}\\ { - g{{{e}}^{\rm{T}}}}&g \end{array}} \right] \end{array}\qquad\qquad $$ (25)
                        $$ \begin{array}{l} {\hat{ K}}_n^{ - 1} = \left[ {\begin{array}{*{20}{c}} e&{{{{f}}^{\rm{T}}}}\\ {{f}}&{{G}} \end{array}} \right] \Rightarrow {{K}}_n^{ - 1} = {{G}} - {{f}}{{{f}}^{\rm{T}}}/e \end{array} $$ (26)

                        其中, $ {{\hat{ K}}_n} $表示添加新行和列的核矩陣, $ {{e}} = {{K}}_{n - 1}^{ - 1}{} $, $ g = {\left( {d - {{}^T}e} \right)^{ - 1}} $, $ {{}^{\rm{T}}}{{f}}{\rm{ + }}dg = 1 $, $ {{{K}}_n} $ 表示移除任意行和列的核矩陣.

                        為保持核矩陣維度不變, FB準則中的拋棄計算如下所示:

                        $$ \begin{array}{l} d\left( {{{{x}}_i},{y_i}} \right) = \left| {{{{\alpha}} _i}} \right|/{\left[ {{\hat{ K}}_n^{ - 1}} \right]_{i,i}} \end{array} $$ (27)

                        根據上述拋棄準則, FB-KRLS模型可以有效地跟蹤時變序列的信息[28]. FB-KRLS 主要應用于非線性系統識別問題. 它不僅能夠保持內存不變, 拋棄最不重要的樣本點, 提高信息利用效率, 而且其標簽更新過程也表現出模型的跟蹤時變特性, 更拓寬了FB-KRLS的應用范圍[28].

                      • 不同于SW-KRLS、EX-KRLS和FB-KRLS, 核遞歸最小二乘跟蹤[29]是引入貝葉斯框架, 在統一現有的KRLS 理論下, 提出的“遺忘”的概念, 即通過明確方式處理復雜的時間序列數據. 為保證最優性能, 需要確定核參數、正則化參數, 以及在非平穩環境中的遺忘因子.

                        由于KRLS-T等價于特定時空協方差的高斯過程(Gaussian processing, GP)回歸模型, 所以可通過GP 超參數估計來確定KRLS-T 的所有參數. 采用潛在函數邊緣化的方法, 用超參數表示觀測數據的概率[29].

                        $$\begin{split} \log p\left( {{y}|\delta ,\sigma ,\varepsilon } \right) =& - \frac{1}{2}{{{y}}^{\rm{T}}}{\left( {{{\Lambda}} \circ {{K}} + {\sigma ^2}{{I}}} \right)^{ - 1}}{{y}}\\ &- \frac{1}{2}\left| {{{\Lambda}} \circ {{K}} + {\sigma ^2}{{I}}} \right| - \frac{n}{2}\log \left( {2 \text{π} } \right) \end{split} $$ (28)

                        其中, $ \circ $表示Hadamard乘積, $ {{\Lambda}} $是一個對角矩陣, 它的第$ j $個對角元素值為$ {\lambda ^{\frac{{\left| j \right|}}{2}}} $, $ \lambda \in \left( {0,1} \right] $.

                        在KRLS-T中, 需要存儲和更新三個變量: 1) 字典中與基對應的當前預測均值$ {{{\mu}} _t} $; 2) 表示先驗值的核逆矩陣$ {{{Q}}_t} = {{K}}_t^{ - 1} $; 3) 相應的預測方差$ {{\Sigma} _t} $它可以捕獲后驗協方差.

                        $$\begin{array}{l} {{{\mu}} _{_t}} = \dfrac{{{y_t}k\left( {{{{x}}_t},{{{x}}_t}} \right)}}{{\sigma _n^2 + k\left( {{{{x}}_t},{{{x}}_t}} \right)}}n \end{array}\qquad\quad$$
                        $${{K}}_t^{ - 1} = {{{Q}}_t} = k\left( {{{{x}}_i},{{{x}}_j}} \right) + \varepsilon {\delta _{ij}}$$
                        $${{{h}}_{t + 1}} = \sum {_t} {{{q}}_{t + 1}}\qquad\qquad\quad$$

                        其中, $ {{{q}}_{t + 1}} = {{{Q}}_t}{{{k}}_{t + 1}} $, $ \varepsilon $是遺忘因子且$ \varepsilon \in \left( {0,1} \right) $, $ {\sigma ^2} $是超參數, $ \delta $是正則化參數.

                        因為KRLS-T不能提供對過去時刻的預測, 僅保留與當前時刻相關的小部分樣本, 所以對短期時間序列預測有更好的預測效果. 同時這樣的預測機制極大降低了計算成本[29].

                      • Chen等于2013年又將VQ應用到KRLS模型, 它是以遞歸形式被推導得到量化核遞歸最小二乘算法[30]. QKRLS也是將輸入空間量化分配, 其基本思想也是使用較小數據集來表示整個輸入數據的信息, 從而提高預測精度[23,30].

                        VQ具有多種優勢: 1) 計算簡單; 2) 量化的大小比較容易選擇; 3) 冗余數據可以很容易的被利用, 用以提高預測性能.

                        首先在線VQ需要設置量化尺碼$ \varepsilon $, 然后計算$ {{u}}\left( i \right) $$ {{C}}\left( {i - 1} \right) $之間的距離.

                        $$ \begin{array}{l} dis\left( {{{u}}\left( i \right),{{C}}\left( {i - 1} \right)} \right) = \left\| {{{u}}\left( i \right) - {{{C}}_{{j^ * }}}\left( {i - 1} \right)} \right\| \end{array} $$ (29)

                        其中, $ {j^ * } = \mathop {\arg \min }\limits_{1 \text{≤} j \text{≤} \left| {{\bf{{{C}}}}\left( {i - 1} \right)} \right|} \left\| {{{u}}\left( i \right) - {{{C}}_j}\left( {i - 1} \right)} \right\| $, $ {{{C}}_j}\left( {i - 1} \right) $表示$ {{C}}\left( {i - 1} \right) $的第$ j $個元素.

                        當新樣本$ {{u}}\left( i \right) $進入預測模型時, 如果$ dis ( {{u}}\left( i \right),$$ {{C}}\left( {i - 1} \right)) $不大于$ \varepsilon $, 此時的量化碼本保持不變, 用公式(30)更新權重系數矩陣. 如果$dis ( {{u}}\left( i \right), $$ {{C}}\left( {i - 1} \right)) $小于$ \varepsilon $, 那么新樣本被加入到量化碼本$ {{C}}\left( \cdot \right) $中, 用公式(31)更新權重系數.

                        $$ \begin{split} {{\tilde{ \alpha}} ^ * }\left( i \right) =& {{\tilde{ \alpha}} ^ * }\left( {i - 1} \right) + \\ &\frac{{{{{P}}_{{j^ * }}}\left( {i - 1} \right)\left[ {{{y}}\left( i \right) - {{{\tilde{ K}}}_{{j^ * }}}{{\left( {i - 1} \right)}^{\rm{T}}}{{{\tilde{ \alpha}} }^ * }\left( {i - 1} \right)} \right]}}{{1 + {{{\tilde{ K}}}_{{j^ * }}}{{\left( {i - 1} \right)}^{\rm{T}}}{{{P}}_{{j^ * }}}\left( {i - 1} \right)}} \end{split} $$ (30)
                        $$ \begin{array}{l} {{\tilde{ \alpha}} ^ * }\left( i \right) = \left[ {\begin{array}{*{20}{c}} {{{{\tilde{ \alpha}} }^ * }\left( {i - 1} \right) - {{{z}}_\Lambda }\left( i \right){{r}}{{\left( i \right)}^{ - 1}}{{e}}\left( i \right)}\\ {r{{\left( i \right)}^{ - 1}}{{e}}\left( i \right)} \end{array}} \right] \end{array}\quad $$ (31)

                        其中, $ {{{z}}_\Lambda }\left( i \right) = {{P}}\left( {i - 1} \right){{\Lambda}} \left( {i - 1} \right){{h}}\left( i \right) $, $ {{e}}\left( i \right) = {{y}}\left( i \right) -$$ {{h}}{\left( i \right)^{\rm{T}}}{{\tilde{ \alpha}} ^ * }\left( {i \!-\! 1} \right) ,$ $ {{z}}\left( i \right) \!=\! {{P}}{\left( {i \!-\! 1} \right)^{\rm{T}}}{{h}}\left( i \right), $ $ {{r}}\left( i \right) \!=\! \gamma \!+\! {{\kappa}} ( {{u}}\left( i \right),$${{u}}\left( i \right) ) - {{h}}{\left( i \right)^{\rm{T}}}{{{z}}_\Lambda }\left( i \right) $.

                        QKRLS在預測時間序列時, 除了能夠保持期望性能, 在產生緊湊模型方面也非常有效[30]. 計算復雜度和預測精度之間的折衷也可以通過改變量化碼本的大小進行簡單、有效地控制.

                      • 近年來, 大多數KAF都是無反饋結構的預測模型[26-30]. 在1.3節, SF-KLMS首次將反饋結構引入KAF模型. 隨后Wang等在2017年提出了具有反饋結構的多反饋核遞歸最小二乘算法[31]. MF-KRLS 是將延遲輸出與最近的輸入結合來估計最近輸出的過程.

                        在MF-KRLS結構中, 它的前饋系數(feed forward coefficient, FFC)和反饋系數(feedback coefficient, FBC)利用最速下降法進行更新. 同時MF-KRLS采用多個先前的輸出以遞歸的形式更新結構參數. FFC和FBC都采用最速下降法進行在線更新.

                        $$ \begin{array}{l} {{\alpha}} \left( {i + 1} \right) = \left[ {\begin{array}{*{20}{c}} {{{\alpha}} \left( i \right)}\\ 0 \end{array}} \right] + \dfrac{{{\eta _\alpha }\left( i \right)}}{{{\rho _\alpha }\left( i \right)}}{{{D}}_\alpha }\left( i \right){{e}}\left( i \right) \end{array} $$ (32)
                        $$ \begin{array}{l} {{\lambda}} \left( {i + 1} \right) = \left[ {\begin{array}{*{20}{c}} {{{\lambda}} \left( i \right)}\\ 0 \end{array}} \right] + \dfrac{{{\eta _\lambda }\left( i \right)}}{{{\rho _\lambda }\left( i \right)}}{{{D}}_\lambda }\left( i \right){{e}}\left( i \right) \end{array} $$ (33)

                        其中, $ {\mu _\alpha }\left( i \right) = {\eta _\alpha }\left( i \right)/{\rho _\alpha }\left( i \right) $表示FFC的步進參數, $ {\mu _\lambda }\left( i \right) = {\eta _\lambda }\left( i \right)/{\rho _\lambda }\left( i \right) $表示FBC的步進參數. ${{{D}}_\alpha }\left( i \right) = $$ \partial {{y}}\left( i \right)/\partial {{\alpha}} \left( i \right) $, $ {{{D}}_\lambda }\left( i \right) = \partial {{y}}\left( i \right)/\partial {{\lambda}} \left( i \right) $.

                        根據上述分析, 在時變環境中, MF-KRLS具有較好的自適應更新調整能力, 在估計精度和收斂速率上也得到改善[31].

                        將FFC和FBC帶入輸出模型得到$ {{y}}\left( i \right) $.

                        $$ \begin{array}{l} {{y}}\left( i \right) = \displaystyle\sum\limits_{j = 1}^i {k\left( {{{u}}\left( i \right),{{u}}\left( {{C_j}} \right)} \right){{\alpha}} \left( j \right) + {{\lambda}} \left( j \right){{y}}\left( {i - 1} \right)}\end{array} $$ (34)

                        在MF-KRLS的時間序列在線預測應用中, 其前饋和反饋結構的有效結合不僅提高了KRLS的濾波精度, 還加快了收斂速度[31].

                      • 隨著在線稀疏方法的不斷發展, Han等于2018年提出自適應歸一化稀疏核遞歸最小二乘方法[32], 該方法已經在多元混沌時間序列在線預測方面得到較好的預測性能.

                        ANS-KRLS是結合動態調整策略和一致性準則(coherence criterion, CC), 并基于KRLS得到的改進模型. 在ANS-KRLS中, 一致性準則不僅可以減少核矩陣維度, 還可以降低模型的計算復雜度. 動態調整策略在時變環境中具有自適應調整權值的能力.

                        首先, 動態調整過程權重系數$ {\tilde{ \alpha}} \left( i \right) $的更新過程如下所示:

                        $$ \begin{split} {\tilde{ \alpha}} \left( i \right) =& {\tilde{ \alpha}} \left( {i - 1} \right) + \\ &\frac{{{{q}}\left( i \right){{{\tilde{ K}}}^{ - 1}}\left( i \right)\left( {{{y}}\left( i \right) - {\tilde{ k}}_{i - 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i - 1} \right)} \right)}}{{\varepsilon + {{\left\| {{\tilde{ k}}_{i - 1}^{\rm{T}}\left( {{\bf{{{x}}}}\left( i \right)} \right)} \right\|}^2}}} \end{split} $$ (35)

                        其中, $ {{q}}\left( i \right) = \dfrac{{{{q}}\left( i \right){{\alpha}} \left( i \right)}}{{1 + {{\alpha}} {{\left( i \right)}^{\rm{T}}}{{q}}\left( i \right){{\alpha}} \left( i \right)}} $, $ {{q}}\left( i \right) $是正則自相關矩陣, $ \varepsilon $ 用以避免誤調的發生.

                        其次, 一致性稀疏準則如下式所示:

                        $$ \begin{array}{l} \mu = \mathop {\max }\limits_{j = 1,2, \cdot \cdot \cdot ,i - 1} \left| {k\left( {{{x}}\left( i \right),{{x}}\left( j \right)} \right)} \right| \end{array} $$ (36)

                        其中,當$ \mathop {\max }\limits_{j = 1,2, \cdot \cdot \cdot ,i - 1} \left| {k\left( {{{x}}\left( i \right),{{x}}\left( j \right)} \right)} \right| \text{≤} {\mu _0} $, $ {{x}}\left( j \right) $ 被加入字典. 否則, 字典保持不變, 且$ \mu \in \left( {0,1} \right) $.

                        當新樣本到來時, 如果$ {{x}}\left( j \right) $不滿足公式(15)且公式(36)不大于$ {\mu _0} $ 時, 新樣本$ {{x}}\left( j \right) $被加入字典, 權重系數根據公式(37)進行更新. 如果$ {{x}}\left( j \right) $不滿足公式(15), 或公式(36)大于$ {\mu _0} $時, 字典大小保持不變, 此時根據公式(35)更新權重系數.

                        $$ \begin{split} \begin{array}{l} {\tilde{ \alpha}} \left( i \right) = \dfrac{1}{{\delta \left( i \right)}}\\ \quad \left[ {\begin{array}{*{20}{c}} {{\tilde{ \alpha}} \left( {i \!-\! 1} \right) \!-\! {\tilde{ \alpha}} \left( i \right)\left( {{{y}}\left( i \right) \!- \!{\tilde{ k}}_{i \!-\! 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i - 1} \right)} \right)}\\ {\left( {{{y}}\left( i \right) \!-\! {\tilde{ k}}_{i \!-\! 1}^{\rm{T}}\left( {{{x}}\left( i \right)} \right){\tilde{ \alpha}} \left( {i \!-\! 1} \right)} \right)} \end{array}} \right] \end{array} \end{split} $$ (37)

                        其中, $ \delta \left( i \right) $表示ALD閾值.

                        總之, ANS-KRLS在時間序列在線預測可通過上述稀疏過程降低計算復雜度. ANS-KRLS還具有在線操作和在時變環境中自適應調整的能力. 所以, ANS-KRLS在提高預測精度和效率方面更具優勢[32].

                      • 通過以上對KRLS及其改進模型的介紹, 就基于KRLS時間序列在線預測方法中改進的KAF模型而言, SW-KRLS、FB-KRLS、QKRLS和ANS-KRLS是以不同類型的“稀疏”方式來簡化核矩陣維數, 從而降低計算復雜度、提高預測精度. EX-KRLS、KRLS-T 除了降低計算復雜度和提升預測精度外, 在跟蹤時變方面也展現出優越的性能. 而MF-KRLS是以添加反饋結構的形式來提高模型的預測精度.

                        KRLS改進方法的自相關矩陣在后期運算時會出現秩虧的現象, 引入正則化可以解決秩虧的問題. 和第1 章的KLMS模型相比, KRLS的不同之處在于需要明確的正則化. 但該正則化過程也存在以下問題: 隨著數據樣本的增加, 正則化的效率會開始緩慢地減弱.

                        從以上分析可知, 基于KAF的時間序列在線預測在降低計算復雜度、提高預測精度和效率, 以及在跟蹤時變方面都展現出較好的優勢[58-60].

                      • 對于KAPA建模中出現的計算復雜度和核矩陣維數限制問題, 文獻[33]提出了歸一化復合核仿射投影算法(normalized composite kernel affine projection algorithm, NC-KAPA). 文獻[34]提出并行滑動窗口核仿射投影算法(parallel sliding window kernel affine projection algorithm, PSW-KAPA)和級聯滑動窗口核仿射投影算法(cascade sliding window kernel affine projection algorithm, CSW-KAPA). 文獻[35]首次將多核引入APA 中, 提出混合核仿射投影算法(kernel hybrid affine projection algorithm, KHAPA), 它將最大相關熵準則與均方誤差策略結合來改進KAPA. 文獻[36]提出了量化核仿射投影算法(quantization kernel affine projection algorithm, QKAPA), 它將矢量量化操作應用于KAPA 來提高預測精度.

                        KAPA是Liu等在2008年提出的, 它是由核技巧與(affine projection algorithm, APA)[61] 結合產生的非線性擴展方法[21,62]. KAPA使用隨機梯度法解決最小二乘問題, 該非線性擴展已經在時間序列在線預測領域得到廣泛應用[21]. 以下將詳細說明基于KAPA 及其改進方法的時間序列在線預測機理.

                      • KAPA通過類似KLMS的方法將APA擴展到RKHS中, 除了樣本數量以外, 還存在另外兩個自由度: 1) 代價函數的正則化; 2) Newton更新方法. 文獻[21]通過輸入相關矩陣的特征值擴展來解決梯度下降法收斂速度慢的問題.

                        根據不同的參數設置得到不同KAPA, 從而組成KAPA族. 1) 根據梯度下降法得到KAPA-1的權重矩陣$ {{{w}}_1}\left( i \right) $.

                        $$ \begin{array}{l} {{{w}}_1}\left( i \right) = {{w}}\left( {i - 1} \right) + \eta {{\Phi}} \left( i \right)\left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{array} $$ (38)

                        其中, $ \eta $表示學習率, $ d\left( i \right) $表示期望輸出.

                        2) 根據Newton法得到KAPA-2的權重矩陣$ {{{w}}_2}\left( i \right) $.

                        $$ \begin{split} {{{w}}_2}\left( i \right) =& {{w}}\left( {i - 1} \right) + \eta {{\Phi}} \left( i \right){\left[ {{{{\Phi}} ^{\rm{T}}}\left( i \right){{\Phi}} \left( i \right){\rm{ + }}\varepsilon {{I}}} \right]^{ - 1}}\times \\ & \left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{split} $$ (39)

                        其中, $ {{\Phi}} \left( i \right) = \left[ {\varphi \left( {i - K + 1} \right), \cdot \cdot \cdot ,\varphi \left( i \right)} \right] $, $ \varepsilon $ 是正則化參數.

                        3) 再給定正則化代價函數, 根據隨機梯度下降法可得到KAPA-3的權重矩陣$ {{{w}}_3}\left( i \right) $.

                        $$ \begin{split} {{{w}}_3}\left( i \right) = &\left( {1 - \lambda \eta } \right){{w}}\left( {i - 1} \right) +\\ & \eta {{\Phi}} \left( i \right)\left[ {{{d}}\left( i \right) - {{{\Phi}} ^{\rm{T}}}\left( i \right){{w}}\left( {i - 1} \right)} \right] \end{split} $$ (40)

                        4) 相應地, 再根據Newton法得到KAPA-4的權重矩陣$ {{{w}}_4}\left( i \right) $.

                        $$ \begin{split} {{{w}}_4}\left( i \right) =& \left( {1 - \eta } \right){{w}}\left( {i - 1} \right) +\\ & \eta {{\Phi}} \left( i \right){\left[ {{{{\Phi}} ^{\rm{T}}}\left( i \right){{\Phi}} \left( i \right){\rm{ + }}\lambda {{I}}} \right]^{ - 1}}{{d}}\left( i \right) \end{split} $$ (41)

                        其中, $ \lambda $也是正則化參數, 當傳統風險最小化病態時, 通常是約束解的范數$\mathop {\min }\limits_w E{\left| {{{d}} - {{{w}}^{\rm{T}}}{{\varphi}} \left( i \right)} \right|^2} + $$ \lambda {\left\| {{w}} \right\|^2} $, 得到(40). 與KAPA-1 不同, KAPA-3添加了尺度因子$ \left( {1 - \lambda \eta } \right) $用于對先前數據強加“遺忘”機制, 并使該部分數據的影響呈指數下降趨勢.

                        上述的四種變換中, 前三種都需要誤差信息來更新網絡, 計算量較大. 而KAPA-4不需要, 因為它只需對一個 階的矩陣求逆. 總之, KAPA算法的性能已經在時間序列、信道均衡方面得到體現[21,62].

                      • 近年來, KLMS和KRLS及其改進模型的研究都集中在單核形式. Ogunfunmi等在2011年首次將復合核應用于APA 模型, 得到歸一化復合核仿射投影算法[33]. 該算法適用于復雜數據的實時非線性建模.

                        在NC-KAPA中, 使用復雜核函數$ \kappa \left( {{{z}},{{w}}} \right) $.

                        $$ \begin{array}{l} \kappa \left( {{{z}},{{w}}} \right) = \exp \left( { - \sigma \displaystyle\sum\limits_{i = 1}^N {{{\left( {{{{z}}_i} - {{w}}_i^ * } \right)}^2}} } \right) \end{array} $$ (42)

                        其中, $ {{z}},{{w}} \in {C^N} $, $ \sigma $是影響轉換映射的核參數.

                        定義$ {{{X}}_{ap}}\left( i \right) = \left[ {{{\Phi}} \left( {{{z}}\left( {i - K + 1} \right)} \right) \cdot \cdot \cdot {{\Phi}} \left( {{{z}}\left( i \right)} \right)} \right] $, 得到權重矩陣$ {{w}}\left( i \right) $.

                        $$\begin{split} {{w}}\left( i \right) =& {{w}}\left( {i - 1} \right) + \mu {{{X}}_{ap}}\left( i \right) \times \\ &{\left[ {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right){\rm{ + }}\varepsilon {{I}}} \right]^{ - 1}}{{e}}_{ap}^ * \left( i \right) \end{split}$$

                        其中, $ {{{\lambda}} _{ap}}\left( i \right) = {\left( {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right)} \right)^{ - 1}}{{e}}_{ap}^ * \left( i \right) $, $ \varepsilon $正平滑因子, $ {{{e}}_{ap}} = {\left( {{{X}}_{_{ap}}^{\rm{T}}\left( i \right){{{X}}_{ap}}\left( i \right){{{\lambda}} _{ap}}\left( i \right)} \right)^ * } $, $ \mu $的選擇需考慮穩定性、收斂速度和失調.

                        NC-KAPA算法在理論上推導并擴展了復雜RKHS的Wirtinger演算, 最終還得到APA的梯度MSE代價函數. 該算法更適用于對收斂速率要求較高的高維復雜的混沌時間序列的在線預測[33].

                      • 由上節Ogunfunmi等提出的NC-KAPA可知, KAF的發展已經由單核研究逐漸過渡到多核研究[63]. 2012年Gil-Cacho等提出并行和級聯滑動窗口核仿射投影算法[34]. 該類算法由線性核和高斯核的加權和組成. 機理是分離線性和非線性子問題.

                        PSW-KAPA的并行配置在KAPA-3中可直接應用得到核矩陣$ {{{k}}_{wsk}} $.

                        $$ \begin{array}{l} {{{k}}_{wsk}}\left( {i,j} \right) = \alpha {{{k}}_L}\left( {i,j} \right) + \beta {{{k}}_G}\left( {i,j} \right) \end{array} $$ (43)

                        其中, $ {{k}}\left( {i,j} \right) = \exp \left( { - \kappa {{\left\| {{{X}}\left( i \right) - {{X}}\left( j \right)} \right\|}^2}} \right) $, $ \kappa $是高斯核參數, $ \alpha < 1 $, $ \beta {\rm{ = 1 - }}\alpha $.

                        CSW-KAPA中的級聯結構由以下2個步驟組成: 1) 獨立執行標準線性歸一化最小均方算法(normalized least mean square, NLMS), 存儲濾波器輸出. 2) 將存儲的NLMS輸出用作SW-KAPA 的輸入. 得到基于PSW-KAPA和CSW-KAPA 的預測輸出$ {\hat{ y}}\left( i \right) $.

                        $$ \begin{array}{l} {\hat{ y}}\left( i \right) = {{\hat{ h}}^{\rm{T}}}\left( i \right){{X}}\left( i \right) \end{array} $$ (44)

                        其中, $ {\hat{ h}}\left( i \right) $是NLMS的權重向量.

                        與KAPA相比, PSW-KAPA和CSW-KAPA降低了計算復雜度. 與線性NLMS相比, 它提高了預測性能. PSW-KAPA和CSW-KAPA 中核函數的分離、加權和過程都在滑動窗口方法中執行. 當對其施加不同的“遺忘”機制時, 它又轉化為更靈活的正則化形式, 進一步提高時間序列的預測性能[34].

                      • 2014年Yang等提出了核混合仿射投影算法[35]. KHAPA將混合準則(hybrid criteria, HC)應用于APA 中, 并將得到的HAPA映射到RKHS. HC是均方誤差和最大相關熵準則(maximum correlation entropy, MCC)的混合.

                        HC是從最小裁剪平方(least trimmed squares, LTS)估計的角度避免異常值的過度影響. 在LTS中, 數據通過排序的方式被分為兩類: 正常數據集和異常值數據集, 且異常值數據被完全丟棄. HC不是單純地丟棄這些數據, 而是對大數據采用魯棒MCC 準則. KHAPA就是利用上述準則來進一步提高預測性能[35].

                        HC準則不僅避免了異常值的過度影響, 還充分利用了異常值, 從而獲得更好的性能. 定義HC如(45), 并將HC 應用于KAPA模型, 用$ {f_i} $表示它的學習映射.

                        $$ \begin{split} {{{W}}_{HC}} = &\arg \min {{{J}}_{HC}} = \arg \min \\ &\left( {\sum\limits_{i = 1}^M {{{e}}_{_{j\left( i \right)}}^2} - \sum\limits_{i = M + 1}^N {{{e}}\exp \left( { - \frac{{{{e}}_{_{j\left( i \right)}}^2}}{{2{\sigma ^2}}}} \right)} } \right) \end{split} $$ (45)
                        $$ \begin{array}{l} {f_i} = {f_{i - 1}} + \eta {K_i}{\xi _i} \end{array} $$ (46)

                        其中, $ {{{K}}_i} = \left[ {\kappa \left( {{x_{i{\rm{ - }}L{\rm{ + }}j\left( 1 \right)}}, \cdot } \right), \cdot \cdot \cdot ,\kappa \left( {{x_{i{\rm{ - }}L{\rm{ + }}j\left( L \right)}}, \cdot } \right)} \right], $$ {\xi _i} = \left[ {{{{e}}_{i - L + j\left( i \right)}},{{{e}}_{i - L + j\left( {i + 1} \right)}}\exp \left( { - \dfrac{{{{e}}_{_{{e_{i - L + j\left( {i + 1} \right)}}}}^2}}{{2{\sigma ^2}}}} \right)} \right] $ $ \left( {i = 1, \cdot \cdot \cdot ,M} \right) $, $ \eta $是學習率.

                        HC充分利用了數據, 避免了異常值數據集的不恰當影響. 所以KHAPA在時間序列預測過程中提高了數據的利用效率, 同時也得到了更準確的預測結果[35].

                      • 2015年Ren等提出量化核仿射投影算法[36]. QKAPA和QKLMS、QKRLS算法相似, QKAPA是在KAPA 模型上加入VQ 用以約束網絡, 并進一步減小計算負擔和內存占用.

                        在QKAPA中, 計算$ dis\left( {{{{x}}_i},{{C}}\left( {n,i - 1} \right)} \right) $如公式(47), 如果它小于$ {\varepsilon _X} $, 此時$ {x_i} $是“冗余”的, 然后字典保持不變, 權重系數根據(48)更新. 否則, $ {x_i} $不是“冗余”的, 加入字典, 此時權重系數跟據(49)更新.

                        $$ \begin{array}{l} dis\left( {{{{x}}_i},{{C}}\left( {n,i - 1} \right)} \right) = \min \left( {\left\| {{{{x}}_i} - {{{C}}_j}\left( {n,i - 1} \right)} \right\|} \right) \end{array} $$ (47)

                        其中, $ 1 \text{≤} j \text{≤} size\left( {{{C}}\left( {n,i - 1} \right)} \right) $.

                        $$ \begin{array}{l} {{{\alpha}} _{{j^ * }}}\left( {n,i} \right) = {{{\alpha}} _{{j^ * }}}\left( {n,i - 1} \right) + \eta {{e}}\left( {n,i} \right) \end{array} $$ (48)

                        其中, $ {j^ * } = \mathop {\arg \min }\limits_{1 \text{≤} j \text{≤} size\left( {C\left( {n,i - 1} \right)} \right)} \left\| {{{{x}}_i} - {{{C}}_j}\left( {n,i - 1} \right)} \right\| $, $ {{e}}\left( {n,i} \right) = {{{d}}_n} - f\left( {n,i} \right) $.

                        $$ \begin{array}{l} {{\alpha}} \left( {n,i} \right) = \left\{ {{{\alpha}} \left( {n,i - 1} \right),\eta {{e}}\left( {n,i} \right)} \right\} \end{array} $$ (49)

                        根據上述更新過程, 得到QKAPA模型的預測輸出$ f\left( {n,i} \right) $.

                        $$ \begin{array}{l} f\left( {n,i} \right) \!=\! \displaystyle\sum\limits_{j = 1}^{size\left( {C\left( {n,i - 1} \right)} \right)} \!\!\!\!{{\alpha _j}\left( {n,i - 1} \right)\kappa \left( {{x_i},{C_j}\left( {n,i - 1} \right)} \right)} \end{array} $$ (50)

                        其中, $ \kappa \left( { \cdot , \cdot } \right) $表示核函數.

                        由于時間序列都是復雜的, 且包含未知噪聲. QKAPA模型在預測中不僅減小了梯度噪聲, 而且約束了網絡規模, 提高了“冗余”數據的利用效率, 進一步減小了計算負擔和存儲占用, 明顯加快了運算速度, 提高了預測性能[36].

                      • 通過以上對KAPA及其改進模型的說明, 就基于KAPA的改進模型來說, PSW-KAPA、CSW-KAPA[34]和NC-KAPA[33]以投影次梯度的方式簡化了預測模型. QKAPA[36]和KAPHA[35]分別通過VQ 和HC 稀疏方式降低了計算復雜度, 并提升了預測精度. KAPA及其改進模型都在RKHS中應用隨機梯度法解決最小二乘問題. 同KLMS或KRLS相比, KAPA能提供靈活的在線非線性濾波器計算方法. 根據實際預測需求, 還可在應用性能與計算復雜度之間選擇平衡點, 以達到最優結果.

                        KAPA的通用形式是基于自適應投影次梯度法被推導. 通過投影映射測度完成分類, 再通過正交投影實現稀疏化, 還可以通過斜投影解決在線存儲需求和自適應跟蹤能力[32]. 此外, KAPA也為徑向基函數(如NN)、正則化提供了理論認識基礎.

                        在性能方面, KAPA介于KLMS和KRLS之間, KAPA的性能可以通過窗口長度$ K $調整, 同時窗口長度 也控制計算復雜度. 而且大部分時間序列都呈現非線性、非平穩、復雜的特點, 通常的離線算法不能滿足在線實時性要求. 所以基于KAF的時間序列在線預測方法在降低計算復雜度、提高預測精度和效率方面都展現出獨特的優勢[32-36].

                        總的來說, 基于KAF的3類在線預測方法已經在多元混沌時間序列中得到較好的預測性能[12,13]. 其中, 模型中部分參數的設置也起著關鍵的作用, 比如步進參數$ \mu \in \left( {0,1} \right) $, 學習率$ \eta \in \left( {0,1} \right) $等, 它們的選取對模型的預測效果有較大的影響. 一般情況下, 步進參數和學習率都會選取$ \left( {0.5,1} \right) $之間的值, 這樣可以得到較好的性能結果[19-36]. 同樣的, 正則化參數$ \lambda $, 調整參數$ \beta $等參數的選取也會影響實驗結果[29], 比如正則化參數$ \lambda $可以根據高斯過程回歸的標準超參數估計來進行選取[17,29], 此時得到的$ \lambda $更適合模型的后續預測. 所以, 參數的恰當選擇可以有效地反映模型的某些性能[41,42,61,81], 這里不再贅述.

                      • 目前, 動態神經網絡(dynamic neural network, DNN)、支持向量回歸(support vector regression, SVR)、KAF等方法已經應用于復雜時間序列預測[8-10]. DNN與SVR都是離線操作, 前者在更新過程中涉及大量計算, 后者適用于小樣本預測與跟蹤[13]. 而KAF不僅具有較低的計算復雜度和簡單的遞歸更新形式, 而且滿足在線預測的要求, 因此受到許多學者的青睞[11-13]. Frieb 和Harrison 根據“核化”思想提出ADALINE[64], 該方法基于所有的訓練數據并采用確定性梯度法得到. Kivinen等提出NORMA, 該方法直接對正則化代價函數進行微分獲取隨機梯度[21]. Engal等使用矩陣求逆引理研究了KRLS[20]. Liu等研究了具有正則化特性的KLMS[19]. Liu 和Principe, Ogunfunmi 和Paul, Ren 和Yu 等從不同的角度研究了KAPA[21,65].

                        根據KLMS、KRLS和KAPA三類模型在時間序列中的預測效率、預測精度、收斂速度以及相應的特點, 三類典型KAF方法在時間序列在線預測中的性能對比結果如表1所示. 由表可知, 與KLMS和KAPA相比, KRLS 的預測效率較低, 但在收斂速度和預測精度方面更具優勢. 所以, 我們可以得到以下結論: (1) 在實際應用中, 如果將預測效率放在首位而不追求收斂速度, 那么KLMS模型可以得到較好的結果; (2) 如果以提高目標預測精度為目的, 同時要求較快的收斂速度, KRLS模型無疑成為最佳選擇; (3) 如果預測目標中包含多種噪聲, KAPA 模型更具優勢.

                        表 1  不同KAF方法的時間序列在線預測特性對比結果

                        Table 1.  Comparison of online prediction characteristics of time series of different KAF methods

                        算法類型 預測效率 預測精度 收斂速度 特點
                        KLMS[19] 較高 較低 較慢 泛化能力和正則化特性
                        KRLS[20] 較低 較高 較快 白化處理, 收斂速度較快
                        KAPA[21] 考慮多個樣本, 降低梯度噪聲

                        目前, 大多數時間序列都表現出非線性、非平穩、復雜難預測的特點, 所以對其進行合理的預測具有十分重要的意義. 例如, 從氣象數據的歷史信息預測未來天氣變化[1,2]. 從水文數據的歷史信息預測水資源的變化趨勢, 并作出合理的控制及調配[3,4]. 根據醫學上的不同癥狀序列進行提前預測并做好預防, 降低發病幾率等[5,6]. 復雜系統中包含著許多相關的有用信息, 而且隨著時間的推移, 其中包含的信息量也在不斷增加. 隨著信息技術的發展, 時間序列的數據量和應用也隨之快速增長.

                        如何實現復雜時間序列的實時預測, 并跟蹤其將要發生的變化, 是諸多研究領域非常關注的問題. 文獻[54-56]在LSSVM的基礎上添加過濾窗、迭代誤差補償和組合核函數的形式對復雜時間序列進行預測. 文獻[58]采用卡爾曼濾波在高頻金融時間序列進行預測. 文獻[59,60]采用自適應遺傳算法和基于大腦情感學習模型預測時間序列. 對于含噪聲和數據缺失的時間序列來說, 文獻[58-60]給出了很好地解決方案. 但是, 傳統的數據預測方法集中于建模檢驗預測、自適應預測等, 難以實時預測數據將要發生的變化. 現有的真實數據本身較復雜, 在實際應用中會出現計算時間長、效率低、存儲空間占用量大、預測精度低、跟蹤能力差等問題.

                        因此, 通常需要對復雜時間序列進行稀疏選擇來降低核矩陣維度, 然后再進行更為有效地預測與跟蹤. 綜上所述, 用KAF模型對復雜難預測系統進行在線預測、跟蹤具有十分重要的意義[52-54].

                        KAF通過分析現有時間序列的有效信息, 能較好的反映當前時間序列的潛在特征. 然后再根據所得特征跟蹤時變信息, 并進行相關分析總結, 以提醒相應部門對于將要到來的各種變化做出科學的決策[66-70].

                        KAF是人工智能領域中常用于時滯時變預測的技術, 它采用濾波的形式解決預測中出現的問題[37,38], 并能夠有效地增強預測模型的泛化性能與自適應跟蹤能力. 總的來說, KAF在處理非線性系統時, 隨著新樣本的不斷到來, 模型不斷地迭代更新. 就已提出的KAF模型來說, 不同的在線預測模型對應不同的計算復雜度. 原始核矩陣的計算的復雜度為$ O\left( {{L^3}} \right) $, 當采用ALD準則時, 其計算復雜度為$ O\left( {{L^2}} \right) $. 對于不同的稀疏方法得到的KAF模型, 其復雜度也不同. 表2給出了三類KAF模型在每次迭代過程涉及的計算復雜度(其中, $ L $ 表示樣本長度, $ K $表示字典大小). 從表2可以看出: 首先, 表述的8種在線稀疏方法都在不同程度上降低了核矩陣的維度, 即降低了模型的計算復雜度. 其次, 由于SW, FB和CC準則在預測過程中都需要固定字典的大小(K遠小于L), 所以它們在降低核矩陣維度、模型內存占用和計算復雜度上都表現出較大優勢. 最后, SF, MF和HC不僅在降低模型計算復雜度上出較大貢獻, 而且在對有效利用歷史信息上也具優勢(主要是反饋信息的有效利用).

                        表 2  每次迭代過程涉及的計算復雜度比較

                        Table 2.  Comparison of computational complexity involved in each iteration

                        核自適應濾
                        波器類型
                        在線稀
                        疏類型
                        計算復雜度
                        KLMS[19] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L^2}} \right) $
                        在線VQ ${\rm O}\left( {{L}} \right)$
                        SF 更新$ {\omega} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
                        更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                        KRLS[20] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
                        在線VQ ${\rm O}\left( {{L}} \right)$
                        更新$ {P}\left( i \right) $ ${\rm O}\left( {{L^2}} \right)$
                        ALD 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L^2}} \right)$(${\rm O}\left( {{L^2}} \right)$
                        假如字典改變)
                        更新ALD ${\rm O}\left( {{L^2}} \right)$
                        更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                        SW 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                        假如字典改變)
                        更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                        更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                        FB 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                        假如字典改變)
                        更新${P}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                        更新$ {{\hat K}_n}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
                        MF 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{L}} \right)$
                        更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                        更新${D}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                        CC 更新$ {\alpha} \left( i \right) $ ${\rm O}\left( {{K^2}} \right)$(${\rm O}\left( {{K}} \right)$
                        假如字典改變)
                        更新$ {e}\left( i \right) $ ${\rm O}\left( {{K^2}} \right)$
                        更新${D}\left( i \right)$ ${\rm O}\left( {{K^2}} \right)$
                        KAPA[21] VQ 更新$ {\alpha} \left( i \right) $ $ {\rm O}\left( {{L}} \right) $
                        在線VQ ${\rm O}\left( {{L}} \right)$
                        更新${P}\left( i \right)$ ${\rm O}\left( {{L^2}} \right)$
                        HC 更新$ {e}\left( i \right) $ ${\rm O}\left( {{L}} \right)$
                        更新$ {\bf{\zeta }}\left( i \right) $ ${\rm O}\left( {{L}} \right)$

                        由于KAF具有自適應更新能力, 因此常用于復雜時間序列預測. 基于KLMS的隨機行為分析, 如文獻[77] 在LMS的基礎上采用核在線技術提出順序優化方法, 并采用隨機梯度法順序更新權重, 分析網絡流量序列的行為特征, 從而實現網絡流量序列的在線預測. 基于KRLS的在線異常檢測, 如文獻[55]通過迭代誤差補償彌補SVM的誤差特性, 從而減少冗余信息的殘差干擾, 最終達到異常檢測的效果. 基于KAPA的在線時間序列分類等[56], 如文獻[36]在KAPA的基礎上添加可重構的FPGA加速器, 該過程減小了梯度噪聲, 在處理數據路徑和處理單元數量方面具有突出的優勢. 總之, KAF通用的非線性建模能力對復雜時間序列預測更具優勢.

                        所以, 根據KAF的特殊思想, 許多學者已經將KAF應用于時間在線序列預測[66,67]. 由于環境變化不斷加劇, 時間序列包含的噪聲也不斷復雜化, 傳統的線性模型并不適應非線性、復雜系統的劇烈變化, 所以KAF在線模型在數據挖掘處理噪聲方面也展現出較好的結果[67]. 文獻[72,73] 是以在線形式將KAF 應用于含噪聲的時間序列, 過濾冗余噪聲信息, 從而實現平滑太陽黑子數量時間序列的預測. KAF還通過最小平均絕對第三損失函數來濾除噪聲, 從而得到更好的預測性能. 文獻[74] 在時間序列上執行在線學習, 使用遺憾最小化技術解決在噪聲條件下的最小假設問題, 為執行有效地在線學習過程剔除干擾項. 文獻[75]結合奇異魯棒策略和KRLS來解決非線性系統識別問題. 文獻[76] 采用序貫在線學習方法預測水文時間序列(包括氣溫、水位、風速、總發電量等), 由于水文數據包含噪聲, 所以該方法在濾除噪聲方面具有更好的特性. 文獻[78]通過“核技巧”以循環在線訓練的方式來執行學習過程, 該過程在循環損失函數中涉及自動更新權重的正則化項, 在提升泛化能力的同時執行在線學習. 文獻[79] 將KAF以遞歸的形式應用于腦電和自適應天線陣列過程, 該過程排除了腦電和天線陣列的噪聲信號. 文獻[80] 將VQ和MC準則應用于KAF模型, 它在處理異常值和脈沖噪聲方面更具特色. 文獻[81,82] 基于貝葉斯框架建立“遺忘”機制, 它能很好地處理帶噪的腦電信號, 衰落和突變信道的跟蹤.

                        此外, 文獻[83]推導和分析了用于二元和多元分類、回歸和預測的算法, 它們的更新步驟都是基于簡單約束優化問題的分析解決方案. 文獻[84,85]提出采用矩陣分解或負矩陣分解的降維方式來實現在線稀疏學習, 它已經廣泛應用于圖像處理和模式識別. 文獻[86]提出子梯度方法動態地結合早期迭代中觀察到的數據幾何知識, 以執行更具信息性的基于梯度的在線學習過程. 文獻[87]介紹了在線凸優化, 在線分類, 在線批量轉換以及在線預測過程的約束限制問題. 文獻[88,89]提出預算方法實現對核的約束, 從而推導出以預算隨機梯度下降和近似逼近的方式來適應大規模SVM預測. 文獻[90]提出一個用于大規模在線分類任務的高效且可擴展的在線學習算法庫. 文獻[91]討論了在線預測和批處理在使用有限計算資源的過程中漸進地提供最佳的泛化性能的有效方法. 文獻[92]介紹了基于LS回歸的收斂率問題, 該方法通過對初始條件和Hessian矩陣的假設進行分析, 并最終實現平均加速正則梯度下降. 文獻[93]研究了與凸損失函數相關的RKHS中的在線學習算法.

                        就預期的超額泛化誤差而言, 它們可以作為基于內核的批量學習算法快速收斂. 從而實現對學習序列規范的預期值和在線學習算法的精確誤差分解的敏銳估計.

                        文獻[94]提出KNLMS方法, 它使用自適應步長加速學習, 并在收斂速度和穩態之間提供合適的折中. 文獻[95]提出具有非線性主路徑的有源噪聲控制系統的KxLMS方法, 主要用于改進在參考噪聲與多個窄帶信號和附加高斯白噪聲混合時的預測性能. 文獻[96]研究了在RKHS中沒有正則化條件時在線梯度下降法的收斂性, 以收斂期望中的超泛化誤差. 文獻[97]提出了改進的在線隨機梯度下降法, 由于特征稀疏性的異質性, 該方法用于解決收斂速度慢和方差大的問題. 文獻[98]建立了高斯核參數的自適應更新方法并應用于KAF, 該方法的更新規則與L1正則化一同作用來避免預測中的過擬合和維數高問題. 文獻[99]提出尺度自適應在線學習方法, 通過評估核函數和系數向量之間的內積實現KAF. 文獻[100]提出了基于L2 空間迭代投影的新型在線非線性函數學習、估計方法. 文獻[101]提出了一種由節點網絡進行非線性函數分布式學習的自適應方案, 基于多個RKHS的笛卡爾積度量, 證明了方法的全面收斂性.

                        綜上所述, KAF在時間序列預測領域已經得到了廣泛的應用[96-101]. 由KAF的改進模型可以看出, 其計算復雜度被明顯降低, 內存空間的占用也明顯減小, 相應的預測效率和預測精度也顯著提高. 同時, 對于含噪聲和缺失值的時間序列還具有特殊的濾除噪聲和補差性能[58,59].

                      • KAF的研究在近年來受到了越來越廣泛的關注, 諸多學者對KAF學習機理和應用進行了全面的研究. KLMS、KRLS和KAPA奠定了LMS、RLS和APA在核空間應用的基礎. 近年來對KAF的研究已經取得了一定的進展, 并廣泛應用于時間序列在線預測, 如氣象領域的溫度、濕度、風速、風向、日照時數、氣壓等實時性預測, 水文領域的水位、水溫、流量、凝結度等預測, 金融領域的股票聯動性和股指期貨套期保值預測, 醫療領域的心電、腦電數據異常檢測, 交通領域的車流量、密度預測等. 本文首先對KAF的學習方法和發展現狀進行了詳細綜述, 探討了KLMS, KRLS和KAPA的基本原理, 以及其改進模型在提高時間序列在線預測精度和預測效率, 跟蹤時變特性和如何利用有效數據信息等方面的機理, 同時將KLMS、KRLS和KAPA 作為KAF在線預測的研究基礎, 分析在線稀疏策略在具有時變特性的非線性系統上的預測精度和預測效率的提高, 接著結合其在線稀疏過程對計算復雜度進行分析, 最后總結KAF模型在時間序列預測、數據挖掘噪聲處理、性能補差、性能估計等方面的實際應用. 然而隨著研究的不斷深入, 仍存在著一些值得研究和關注的問題:

                        1) KAF在線預測方法中包含KLMS, KRLS, KAPA等多種模型, 對于不同的模型所對應的預測領域存在較大差異. 例如, KLMS模型多用于非線性系統建模, 即在非線性時間序列預測、信道均衡領域獲得較好的性能. KRLS模型多用于慢衰落和狀態變化很小的非線性時間序列跟蹤領域. KAPA模型多用于時間序列預測、非線性信道均衡和非線性濾除噪聲等領域. 所以, 不同的模型可能對應不同領域及不同的問題, 這是當前研究的一個重點. 同時如何對預測模型進行正則化, 提高模型的泛化能力也是一個研究重點.

                        2) KAF在線預測方法對復雜時間序列預測具有更好的跟蹤性能, 通過建模過程中的動態更新機制, 使在線預測過程能夠實時反映核矩陣權重更新和系數矩陣更新, 最終得到的預測模型具有自適應實時更新能力. 然而KAF在預測樣本時, 隨著新樣本的不斷加入, 核矩陣維數不斷增加, 其計算復雜度也隨之增大(線性關系), 同時內存消耗(占用量)也增大, 相應的降低了計算效率. 對于上述問題, 有學者已經提出了ALD、NC、SC、HC等多種在線稀疏方法來解決此類問題. 因此, 在預測模型中如何對輸入樣本進行在線稀疏已經成為繼續深入研究KAF的方向之一.

                        3) 在時間序列在線預測過程中, 隨著ALD、NC、SC、HC等多種在線稀疏方法加入預測模型, 一些“冗余”的數據被剔除, 在這個過程中也會伴隨數據利用效率的降低, 即剔除的數據可能包含有效的歷史信息, 如何判斷稀疏后的樣本序列是否包含有效信息也是需要研究的重點. 所以, 在加入在線稀疏方法時如何保持稀疏后數據的“有效性”也是KAF在線預測未來研究的重要方向之一.

                        4) 目前, 隨著單核自適應濾波器研究的深入, 多核自適應濾波器也不斷地發展. 大多數多核算法是將兩個相同類型的核函數應用于預測模型, 或者將兩種不同的核函數的加權和應用于預測模型, 此類方法已經取得了較好的預測結果. 由于核函數表示的是一種將輸入(數據)空間非線性映射到高維(隱藏)特征空間的過程, 該過程是隱式的、未知的. 所以在選用單核函數或多核函數的過程中, 不同的選擇得到的預測結果大相徑庭, 其預測性能也存在較大差異. 所以, 如何在復雜的非線性預測系統中選擇合適的核函數及其參數, 也是KAF在線預測的研究熱點之一.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回