2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    基于強化學習的濃密機底流濃度在線控制算法

                    袁兆麟 何潤姿 姚超 李佳 班曉娟 李瀟睿

                    袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法. 自動化學報, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    引用本文: 袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法. 自動化學報, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    Yuan Zhao-Lin, He Run-Zi, Yao Chao, Li Jia, Ban Xiao-Juan, Li Xiao-Rui. Online reinforcement learning control algorithm for concentration of thickener underflow. Acta Automatica Sinica, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    Citation: Yuan Zhao-Lin, He Run-Zi, Yao Chao, Li Jia, Ban Xiao-Juan, Li Xiao-Rui. Online reinforcement learning control algorithm for concentration of thickener underflow. Acta Automatica Sinica, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348

                    基于強化學習的濃密機底流濃度在線控制算法


                    DOI: 10.16383/j.aas.c190348
                    詳細信息
                      作者簡介:

                      北京科技大學計算機與通信工程學院博士研究生, 2017年獲得北京科技大學計算機科學與技術系學士學位, 主要研究方向為自適應動態規劃和強化學習. E-mail: b20170324@xs.ustb.edu.cn

                      北京科技大學計算機與通信工程學院碩士研究生. 2017年獲得北京信息科技大學計算機科學與技術系學士學位. 主要研究方向為流體仿真和強化學習. E-mail: hrz.claire@gmail.com

                      2009年獲北京交通大學計算機科學學士學位, 2016年獲北京交通大學信息科學研究所博士學位. 2014年至2015年, 他在瑞士洛桑聯邦理工學院擔任訪問博士. 2016年至2018年, 他在北京郵電大學傳感技術與商業研究所擔任博士后. 自2018年以來, 他一直是北京科技大學的助理教授. 他目前的研究方向包括圖像和視頻處理以及計算機視覺. E-mail: yaochao@ustb.edu.cn

                      北京科技大學計算機與通信工程學院碩士研究生, 主要研究方向為自適應動態規劃, 自適應控制, 強化學習. E-mail: lijia1117@foxmail.com

                      北京科技大學教授, 中國人工智能學會常務理事. 研究領域: 人工智能、自然人機交互、三維可視化技術. 本文的通信作者. E-mail: banxj@ustb.edu.cn

                      本科就讀于北京科技大學, 主要研究方向為蒙特卡羅樹搜索、強化學習. E-mail: i@lixiaorui.xyz

                    •  1(Mean Square Error, MSE)=\begin{document}$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|^{2}$\end{document} 2(Max Absolute Error, MAE)=\begin{document}$\max _{1 \leq k \leq T}\{|y(k)-y^*(k)|\}$\end{document} 3(Integral Absolute Error, IAE)=\begin{document}$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|$\end{document}
                    • 基金項目:  國家重點基礎研究發展計劃(No. 2016YFB0700500), 國家自然科學基金(No. 61572075, No. 61702036, No. 61873299)資助

                    Online Reinforcement Learning Control Algorithm for Concentration of Thickener Underflow

                    More Information
                    • Fund Project:  Supported by National Basic Research Program of China (No. 2016YFB0700500), National Natural Science Foundation of China (No. 61572075, No. 61702036, No. 61873299)
                    • 摘要: 復雜過程工業控制一直是控制應用領域研究的前沿問題. 濃密機作為一種復雜大型工業設備廣泛用于冶金、采礦等領域. 由于其在運行過程中具有多變量、非線性、高時滯等特點, 濃密機的底流濃度控制技術一直是學界、工業界的研究難點與熱點. 本文提出了一種基于強化學習技術的濃密機在線控制算法. 該算法在傳統啟發式動態規劃 (Heuristic dynamic programming, HDP)算法的基礎上, 設計融合了評價網絡與模型網絡的雙網結構, 并提出了基于短期經驗回放的方法用于增強評價網絡的訓練準確性, 實現了對濃密機底流濃度的穩定控制, 并保持控制輸入穩定在設定范圍之內. 最后, 通過濃密機仿真實驗的方式驗證了算法的有效性, 實驗結果表明本文提出的方法在時間消耗、控制精度上優于其他算法.
                       1(Mean Square Error, MSE)=$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|^{2}$ 2(Max Absolute Error, MAE)=$\max _{1 \leq k \leq T}\{|y(k)-y^*(k)|\}$ 3(Integral Absolute Error, IAE)=$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|$
                    • 圖  1  濃密過程示意圖

                      Fig.  1  Illustration of thickening process.

                      圖  2  HCNVI算法結構示意圖

                      Fig.  2  Structure diagram of algorithm HCNVI

                      圖  3  人工神經網絡結構示意圖

                      Fig.  3  Structure diagram of artificial neural network

                      圖  4  迭代梯度下降過程可視化

                      Fig.  4  Visualize the process of iterative gradient decline

                      圖  5  短期經驗回放對評價網絡的輸出值的影響

                      Fig.  5  The effect of short-term experience replay on critic network

                      圖  6  噪音量變化曲線

                      Fig.  6  Noise input in the simulation experiment

                      圖  7  HCNVI與其他ADP算法在恒定噪音輸入下的對比

                      Fig.  7  HCNVI versu other ADP algorithms under stable noisy input

                      圖  8  短期經驗回放對HDP與HCNVI的影響

                      Fig.  8  The influence of short-term experience replay on HDP and HCNVI

                      圖  9  實驗一中HDP與HCNVI在時間消耗上的對比

                      Fig.  9  Comparison of time consuming in HDP and HCNVI in experiment 1

                      圖  10  噪音量變化曲線

                      Fig.  10  The fluctuation of noisy input

                      圖  11  HCNVI與其他ADP算法在波動噪聲輸入下的對比

                      Fig.  11  HCNVI versu other ADP algorithms under fluctuate noisy input

                      圖  12  噪音持續變化下短期經驗回放對HCNVI的影響

                      Fig.  12  The influence of short-term experience replay on HCNVI

                      圖  13  實驗二中HCNVI算法與HDP算法在時間消耗上的對比

                      Fig.  13  Comparison of time consuming in HDP and HCNVI in experiment 2

                      表  1  參量定義

                      Table  1  Variables definition

                      變量含義量綱初始值補充說明
                      $f_{i}(t)$進料泵頻$Hz$40擾動量
                      $f_{u}(t)$底流泵頻$Hz$85控制量
                      $f_{f}(t)$絮凝劑泵頻$Hz$40控制量
                      $c _ { i } ( t )$進料濃度$kg/m^3$73擾動量
                      $h(t)$泥層高度$m$1.48狀態量
                      $c_u(t)$底流濃度$kg/m^3$680目標量
                      下載: 導出CSV

                      表  2  仿真模型常量

                      Table  2  Definitions for constant variables

                      變量含義量綱參考值
                      $\rho _s$干砂密度$kg/m^3$4 150
                      $\rho _e$介質表觀密度$kg/m^3$1 803
                      $\mu _ { e }$懸浮體系的表觀粘度$Pa \cdot s$1
                      $d_0$進料顆粒直徑$m$0.00008
                      $p$平均濃度系數0.5
                      $A$濃密機橫截面積$m^2$300.5
                      $k_s$絮凝劑作用系數$s/m^2$0.157
                      $k_i$壓縮層濃度系數$m^3/s$0.0005*3600
                      $K_i$進料流量與進料泵頻的系數$m^3/r$50/3 600
                      $K_u$底流流量與底流泵頻的系數$m^3/r$2/3 600
                      $K_f$絮凝劑流量與絮凝劑泵頻的系數$m^3/r$0.75/3 600
                      $\theta$壓縮時間$s$2 300
                      下載: 導出CSV

                      表  3  部分變量計算方法

                      Table  3  Definitions for part intermediate variables

                      變量含義公式
                      $q_i(t)$進料流量$q _ { i } ( t ) = K _ { i } f _ { i } ( t )$
                      $q_u(t)$底流流量$q _ { u } ( t ) = K _ { u } f _ { u } ( t )$
                      $q_f(t)$絮凝劑添加量$q _ { f } ( t ) = K _ { f } f _ { f } ( t )$
                      $d(t)$絮凝作用后的顆粒直徑$d ( t ) = k _ { s } q _ { f } ( t ) + d _ { 0 }$
                      $u_t(t)$顆粒的干涉沉降速度$u _ { t} ( t ) = \dfrac { d ^ { 2 } ( t ) \left( \rho _ { s } - \rho _ { e } \right) g } { 18 \mu _ { e } }$
                      $u_r(t)$底流導致的顆粒下沉速度$u _ { r } ( t ) = \dfrac { q _ { u } ( t ) } { A }$
                      $c_l(t)$泥層高度處單位體積含固量$c _ { l } ( t ) = k _ { i } q _ { i } ( t ) c _ { i } ( t )$
                      $c_a(t)$泥層界面內單位體積含固量$c _ { a } ( t ) = p \left[ c _ { l } ( t ) + c _ { u } ( t ) \right]$
                      $r(t)$泥層內液固質量比$r(t)=\rho_{l}\left(\dfrac{1}{c_ a(t)}-\frac{1}{\rho_s}\right)$
                      $W ( t )$單位時間進入濃密機內的固體質量$W ( t ) = c _ { i } (t ) q _ { i } ( t )$
                      下載: 導出CSV

                      表  4  不同控制算法之間性能分析

                      Table  4  Performances analysis of different algorithms

                      實驗組實驗一實驗二
                      對比指標MSEMAEIAEMSEMAEIAE
                      HDP414.182141.8547.2466 105.619275.07554.952
                      DHP290.886109.3125.392732.81496.14516.560
                      ILPL364.397135.4748.2892 473.661211.61535.222
                      HCNVI44.44566.6043.867307.61876.17612.998
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Shen Y, Hao L, Ding S X. Real-time implementation of fault tolerant control systems with performance optimization. IEEE Trans. Ind. Electron, 2014, 61(5): 2402?2411 doi:  10.1109/TIE.2013.2273477
                      [2] 2 Kouro S, Cortes P, Vargas R, Ammann U, Rodriguez J. Model predictive control-A simple and powerful method to control power converters. IEEE Trans. Ind. Electron, 2009, 56(6): 1826?1838 doi:  10.1109/TIE.2008.2008349
                      [3] 3 Dai W, Chai T, Yang S X. Data-driven optimization control for safety operation of hematite grinding process. IEEE Trans. Ind. Electron, 2015, 62(5): 2930?2941 doi:  10.1109/TIE.2014.2362093
                      [4] 4 Wang D, Liu D, Zhang Q, Zhao D. Data-based adaptive critic designs for nonlinear robust optimal control with uncertain dynamics. IEEE Trans. Syst., Man, Cybern., Syst., 2016, 46(11): 1544?1555 doi:  10.1109/TSMC.2015.2492941
                      [5] Sutton S R, Barto G A. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 2nd edition, 2018.
                      [6] Lewis F L, Vrabie D, Syrmos V L. Optimal Control. New York, USA: John Wiley & Sons, Hoboken, 3rd Edition, 2012.
                      [7] 7 Prokhorov V D, Wunsch C D. Adaptive critic design. IEEE Transactions on Neural Networks, 1997, 8(5): 997?1007 doi:  10.1109/72.623201
                      [8] 8 Werbos P J. Foreword - ADP: the key direction for future research in intelligent control and understanding brain intelligence. *IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics)., 2008, 38(4): 898?900 doi:  10.1109/TSMCB.2008.924139
                      [9] 段艷杰, 呂宜生, 張杰, 趙學亮, 王飛躍. 深度學習在控制領域的研究現狀與展望. 自動化學報, 2016, 42(5): 643?654

                      9 Duan Yan-Jie, Lv Yi-Sheng, Zhang Jie, Zhao Xue-Liang, Wang Fei-Yue. Deep learning for control: the state of the art and prospects. Acta Automatica Sinica, 2016, 42(5): 643?654
                      [10] 10 Liu Y-J, Tang L, Tong S-C, Chen C L P, Li D-J. Reinforcement learning design-based adaptive tracking control with less learning parameters for nonlinear discrete-time MIMO systems. *IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(1): 165?176 doi:  10.1109/TNNLS.2014.2360724
                      [11] 11 Liu L, Wang Z, Zhang H. Adaptive fault-tolerant tracking control for MIMO discrete-time systems via reinforcement learning algorithm with less learning parameters. *IEEE Transactions on Automation Science and Engineering, 2017, 14(1): 299?313 doi:  10.1109/TASE.2016.2517155
                      [12] 12 Xu X, Yang H, Lian C, Liu J. Self-learning control using dual heuristic programming with global laplacian eigenmaps. *IEEE Transactions on Industrial Electronics, 2017, 64(12): 9517?9526 doi:  10.1109/TIE.2017.2708002
                      [13] 13 Wei Q-L, Liu D-R. Adaptive dynamic programming for optimal tracking control of unknown nonlinear systems with application to coal gasification. IEEE Transactions on Automation Science and Engineering, 2014, 11(4): 1020?1036 doi:  10.1109/TASE.2013.2284545
                      [14] 14 Jiang Y, Fan J-L, Chai T-Y, Li J-N, Lewis L F. Data-driven flotation industrial process operational optimal control based on reinforcement learning. IEEE Transactions on Industrial Informatics, 2017, 14(5): 1974?1989
                      [15] 15 Jiang Y, Fan J-L, Chai T-Y, Lewis L F. Dual-rate operational optimal control for flotation industrial process with unknown operational model. IEEE Transactions on Industrial Electronics, 2019, 66(6): 4587?4599 doi:  10.1109/TIE.2018.2856198
                      [16] 16 Modares H, Lewis F L. Automatica integral reinforcement learning and experience replay for adaptive optimal control of partiallyunknownconstrained-input. Automatica, 2014, 50(1): 193?202 doi:  10.1016/j.automatica.2013.09.043
                      [17] Mnih V, Silver D, Riedmiller M. Playing atari with deep reinforcement learning. In: NIPS Deep Learning Workshop 2013, Lake Tahoe, USA: NIPS 2013, 1−9
                      [18] 18 Wang D, Liu D-R, Wei Q-L, Zhao D-B, Jin N. Automatica optimal control of unknown nonaffine nonlinear discrete-time systems basedon adaptive dynamic programming. Automatica, 2012, 48(8): 1825?1832 doi:  10.1016/j.automatica.2012.05.049
                      [19] 19 Chai T-Y, Jia Y, Li H-B, Wang H. An intelligent switching control for a mixed separation thickener process. Control Engineering Practice, 2016, 57: 61?71 doi:  10.1016/j.conengprac.2016.07.007
                      [20] 20 Kim B H, Klima M S. Development and application of a dynamic model for hindered-settling column separations. Minerals Engineering, 2004, 17(3): 403?410 doi:  10.1016/j.mineng.2003.11.013
                      [21] 21 Wang L-Y, Jia Y, Chai T-Y, Xie W-F. Dual rate adaptive control for mixed separationthickening process using compensation signal basedapproach. IEEE Transactions on Industrial Electronics, 2017, PP: 1?1
                      [22] 王猛. 礦漿中和沉降分離過程模型軟件的研發. 東北大學, 2011

                      Wang Meng. Design and development of model software of processes of slurry neutralization, sedimentation and separation. Northeastern University, 2011
                      [23] 唐謨堂. 濕法冶金設備. 中南大學出版社, 2009

                      Tang Mo-Tang. Hydrometallurgical equipment. Central South University, 2009
                      [24] 王琳巖, 李健, 賈瑤, 柴天佑. 混合選別濃密過程雙速率智能切換控制. 自動化學報, 2018, 44(2): 330?343

                      24 Wang Lin-Yan, Li Jian, Jia Yao, Chai Tian-You. Dual-rate intelligent switching control for mixed separation thickening process. Acta Automatica Sinica, 2018, 44(2): 330?343
                      [25] 25 Luo B, Liu D-R, Huang T-W, Wang D. Model-free optimal tracking control via critic-only Q-learning. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(10): 2134?2144 doi:  10.1109/TNNLS.2016.2585520
                      [26] 26 Padhi R, Unnikrishnan N, Wang X-H, Balakrishnan S N. A single network adaptive critic (SNAC) architecture for optimal controlsynthesis for a class of nonlinear systems. Neural Networks, 2006, 19(10): 1648?1660 doi:  10.1016/j.neunet.2006.08.010
                    • [1] 張耀中, 胡小方, 周躍, 段書凱. 基于多層憶阻脈沖神經網絡的強化學習及應用[J]. 自動化學報, doi: 10.16383/j.aas.c180685
                      [2] 李曉理, 王康, 于秀明, 蘇偉. 基于CPS框架的微粉生產過程多模型自適應控制[J]. 自動化學報, doi: 10.16383/j.aas.2018.c180387
                      [3] 張紹杰, 吳雪, 劉春生. 執行器故障不確定非線性系統最優自適應輸出跟蹤控制[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170300
                      [4] 孫景亮, 劉春生. 基于自適應動態規劃的導彈制導律研究綜述[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160735
                      [5] 王鼎, 穆朝絮, 劉德榮. 基于迭代神經動態規劃的數據驅動非線性近似最優調節[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160272
                      [6] 陳興國, 俞揚. 強化學習及其在電腦圍棋中的應用[J]. 自動化學報, doi: 10.16383/j.aas.2016.y000003
                      [7] 王康, 李曉理, 賈超, 宋桂芝. 基于自適應動態規劃的礦渣微粉生產過程跟蹤控制[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150808
                      [8] 王澄, 劉德榮, 魏慶來, 趙冬斌, 夏振超. 帶有儲能設備的智能電網電能迭代自適應動態規劃最優控制[J]. 自動化學報, doi: 10.3724/SP.J.1004.2014.01984
                      [9] 張化光, 張欣, 羅艷紅, 楊珺. 自適應動態規劃綜述[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.00303
                      [10] 張吉烈, 張化光, 羅艷紅, 梁洪晶. 基于廣義模糊雙曲模型的自適應動態規劃最優控制設計[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.00142
                      [11] 劉德榮, 李宏亮, 王鼎. 基于數據的自學習優化控制:研究進展與展望[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.01858
                      [12] 陳杰, 李志平, 張國柱. 變結構神經網絡自適應魯棒控制[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00174
                      [13] 魏慶來, 張化光, 劉德榮, 趙琰. 基于自適應動態規劃的一類帶有時滯的離散時間非線性系統的最優控制策略[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00121
                      [14] 羅艷紅, 張化光, 曹寧, 陳兵. 一類控制受約束非線性系統的基于單網絡貪婪迭代DHP算法的近似最優鎮定[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.01436
                      [15] 趙冬斌, 劉德榮, 易建強. 基于自適應動態規劃的城市交通信號優化控制方法綜述[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00676
                      [16] 魏慶來, 張化光, 崔黎黎. 基于數據自適應評判的離散2-D系統零和博弈最優控制[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00682
                      [17] 石宇靜, 柴天佑. 基于神經網絡與多模型的非線性自適應廣義預測控制[J]. 自動化學報, doi: 10.1360/aas-007-0540
                      [18] 張天平. 基本積分型李亞普諾夫函數的直接自適應神經網絡控制[J]. 自動化學報
                      [19] 胡壽松, 周川, 胡維禮. 基于神經網絡的模型跟隨魯棒自適應控制[J]. 自動化學報
                      [20] 倪先鋒, 陳宗基, 周綏平. 基于神經網絡的非線性學習控制研究[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  3201
                    • HTML全文瀏覽量:  777
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-05-10
                    • 錄用日期:  2019-08-15
                    • 修回日期:  2019-07-02
                    • 網絡出版日期:  2019-12-25

                    基于強化學習的濃密機底流濃度在線控制算法

                    doi: 10.16383/j.aas.c190348
                      基金項目:  國家重點基礎研究發展計劃(No. 2016YFB0700500), 國家自然科學基金(No. 61572075, No. 61702036, No. 61873299)資助
                      作者簡介:

                      北京科技大學計算機與通信工程學院博士研究生, 2017年獲得北京科技大學計算機科學與技術系學士學位, 主要研究方向為自適應動態規劃和強化學習. E-mail: b20170324@xs.ustb.edu.cn

                      北京科技大學計算機與通信工程學院碩士研究生. 2017年獲得北京信息科技大學計算機科學與技術系學士學位. 主要研究方向為流體仿真和強化學習. E-mail: hrz.claire@gmail.com

                      2009年獲北京交通大學計算機科學學士學位, 2016年獲北京交通大學信息科學研究所博士學位. 2014年至2015年, 他在瑞士洛桑聯邦理工學院擔任訪問博士. 2016年至2018年, 他在北京郵電大學傳感技術與商業研究所擔任博士后. 自2018年以來, 他一直是北京科技大學的助理教授. 他目前的研究方向包括圖像和視頻處理以及計算機視覺. E-mail: yaochao@ustb.edu.cn

                      北京科技大學計算機與通信工程學院碩士研究生, 主要研究方向為自適應動態規劃, 自適應控制, 強化學習. E-mail: lijia1117@foxmail.com

                      北京科技大學教授, 中國人工智能學會常務理事. 研究領域: 人工智能、自然人機交互、三維可視化技術. 本文的通信作者. E-mail: banxj@ustb.edu.cn

                      本科就讀于北京科技大學, 主要研究方向為蒙特卡羅樹搜索、強化學習. E-mail: i@lixiaorui.xyz

                    •  1(Mean Square Error, MSE)=\begin{document}$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|^{2}$\end{document} 2(Max Absolute Error, MAE)=\begin{document}$\max _{1 \leq k \leq T}\{|y(k)-y^*(k)|\}$\end{document} 3(Integral Absolute Error, IAE)=\begin{document}$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|$\end{document}

                    摘要: 復雜過程工業控制一直是控制應用領域研究的前沿問題. 濃密機作為一種復雜大型工業設備廣泛用于冶金、采礦等領域. 由于其在運行過程中具有多變量、非線性、高時滯等特點, 濃密機的底流濃度控制技術一直是學界、工業界的研究難點與熱點. 本文提出了一種基于強化學習技術的濃密機在線控制算法. 該算法在傳統啟發式動態規劃 (Heuristic dynamic programming, HDP)算法的基礎上, 設計融合了評價網絡與模型網絡的雙網結構, 并提出了基于短期經驗回放的方法用于增強評價網絡的訓練準確性, 實現了對濃密機底流濃度的穩定控制, 并保持控制輸入穩定在設定范圍之內. 最后, 通過濃密機仿真實驗的方式驗證了算法的有效性, 實驗結果表明本文提出的方法在時間消耗、控制精度上優于其他算法.

                     1(Mean Square Error, MSE)=$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|^{2}$ 2(Max Absolute Error, MAE)=$\max _{1 \leq k \leq T}\{|y(k)-y^*(k)|\}$ 3(Integral Absolute Error, IAE)=$\frac{1}{T} \sum_{k=1}^{T}\left|(y(k)-y^*(k))\right|$

                    English Abstract

                    袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法. 自動化學報, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    引用本文: 袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法. 自動化學報, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    Yuan Zhao-Lin, He Run-Zi, Yao Chao, Li Jia, Ban Xiao-Juan, Li Xiao-Rui. Online reinforcement learning control algorithm for concentration of thickener underflow. Acta Automatica Sinica, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    Citation: Yuan Zhao-Lin, He Run-Zi, Yao Chao, Li Jia, Ban Xiao-Juan, Li Xiao-Rui. Online reinforcement learning control algorithm for concentration of thickener underflow. Acta Automatica Sinica, 2019, 45(x): 1?15. doi: 10.16383/j.aas.c190348
                    • 在現代復雜過程工業生產中, 對控制性能指標進行優化是不同控制算法、控制系統的首要任務. 在冶金、采礦領域等復雜過程工業場景下, 濃密機是一種被廣泛應用的大型沉降工具, 它通過重力沉降作用可以將低濃度的固液混合物進行濃縮形成高濃度的混合物, 起到減水、濃縮的作用. 在對濃密機進行控制時, 底流濃度是核心控制指標. 該參量與其他過程監控變量如進料流量、進料濃度、出料流量、泥層高度有著復雜的耦合關系. 在大部分的實際生產過程中, 濃密機底流濃度的控制一般是操作員根據個人經驗, 通過對底流流量設定值、絮凝劑流量設定值進行調節, 間接地使底流濃度追蹤其工藝設定值. 但是由于濃密機運行過程具有非線性、多變量、高時滯等特點, 操作員難以維持底流濃度持續穩定, 濃度存在偏差的底流會導致產品質量退化以及增加工業生產成本.

                      濃密機是一種典型的復雜過程工業設備, 關于過程工業設備優化控制的研究一直是工業界、學術界研究的熱點問題. 對于機械結構明確、且能夠精確建立動態模型的工業設備, 可以采用基于模型的優化控制方法, 如: 實時優化控制(realtime optimization, RTO)[1]、模型預測控制(model predictive control, MPC)[2]等. 但由于濃密機系統機械結構復雜、部分變量難以觀測, 因此難以建立準確的數學模型近似其運轉機理, 導致基于模型的方法無法適用于此類復雜工業設備的控制. 研究人員提出了基于數據驅動的控制方法來實現對此類無模型工業設備的控制. Dai等[3]提出了用于解決赤鐵礦研磨系統控制問題的數據驅動優化(Date driven opimization, DDO)控制算法. Wang等[4]采用基于數據驅動的自適應評價方法解決連續時間未知非線性系統的無窮范圍魯棒最優控制問題.

                      近年來, 基于強化學習[5][6]理論的最優控制技術, 也稱為自適應動態規劃(Adaptive dynamic programming, ADP)[7][8][9]技術, 是控制領域的研究熱點話題. 典型的自適應動態規劃算法, 如HDP、雙啟發式動態規劃(Dual heuristic programming, DHP)、動作依賴啟發式動態規劃(Action dependent heuristic dynamic programming, ADHDP)[8]等均采用多個神經網絡分別對被控系統動態模型、控制策略、策略評價模型進行建模. 此類方法可以在模型未知的情況下以數據驅動的方式在線學習控制策略. Liu等[10]提出了一種在線自適應動態規劃算法用來解決離散時間多輸入多輸出仿射系統控制問題, 且該方法僅需要訓練少量網絡參數. Liu等[11]采用一種基于強化學習的自適應跟蹤控制技術解決多輸入多輸出系統容錯控制問題. Xu等[12]采用拉普拉斯特征映射算法提取被控系統全局特征, 并將該全局特征用于DHP算法中以增強值函數網絡的近似能力.

                      近年來, 利用自適應動態規劃方法解決過程工業控制問題也取得很大研究進展. Wei等[13]將煤炭氣化過程的最優追蹤控制轉化為雙人零和最優控制問題, 并采用迭代自適應動態規劃方法求解最優控制率, 同時給出了收斂穩定性的分析. Jiang等[14]利用穿插學習策略迭代(Interleaved Learning Policy Iteration, ILPL)實現了對浮選過程操作指標優化的控制, 獲得了比傳統值函數迭代(Value iteration, VI)、策略迭代(Policy iteration, PI)算法更佳的控制效果. Jiang等[15]將強化學習與舉升方法結合(lifting technology), 實現了對浮選過程設備層與操作層雙速率系統的最優控制.

                      上述算法均使用被控系統實時生成的數據對神經網絡進行訓練, 該訓練方法忽略了系統在短期內產生的歷史軌跡數據對模型學習的影響. 同時, 在工業場景下進行設備在線控制對算法實時性要求較高. 上述方法對于控制量的計算均依托于表征控制策略的神經網絡, 而對于控制網絡或動作網絡的訓練將產生較大的時間開銷. 為了解決上述問題, 本文引入了短期經驗回放技術[16][17]以對短期內的系統運行軌跡數據進行回放訓練. 實驗證明該技術有效增強了算法收斂穩定性, 且在其他ADP類在線控制算法中具有通用性. 同時本文根據濃密機系統特性提出了一種迭代梯度優化算法, 該算法可以在沒有動作網絡的情況下求解控制輸入量. 實驗表明該方法能夠在提升控制精度的同時, 減少模型學習過程中產生的時間消耗.

                      本文主要貢獻總結如下:

                      ● 提出了一種基于ADP算法架構的啟發式評價網絡值迭代算法 (Heuristic critic network value iteration, HCNVI). 該算法僅通過評價網絡、模型網絡和梯度優化算法即可求解系統最優控制輸入.

                      ● 提出了一種適用于評價網絡訓練的短期經驗回放技術. 訓練評價網絡時, 將短期內系統運行軌跡數據共同用于模型訓練, 該方法可以有效增強評價網絡收斂速度.

                      ● 通過濃密機仿真實驗驗證了HCNVI算法的有效性. 實驗結果表明本文提出方法在時間消耗、控制精度上均優于其他對比方法.

                      本文正文部分組織如下: 第一章, 對濃密機沉降過程進行形式化描述. 第二章, HCNVI算法介紹以及利用該算法實現濃密機在線控制. 第三章, 通過兩組仿真實驗驗證本文提出控制模型的有效性. 第四章對本文研究工作進行總結.

                      • 濃密機在采礦、冶金領域是重要的沉降分離設備, 其運行過程如圖1所示. 低濃度的料漿源源不斷地流入濃密機頂部進料口. 利用沙粒的密度大于水的特性以及絮凝劑的絮凝作用, 料漿中沙粒不斷沉降, 并在濃密機底部形成高濃度的底流料漿. 高濃度的底流料漿多以管道輸送的形式流至其他工業設備進行后續加工處理.

                        圖  1  濃密過程示意圖

                        Figure 1.  Illustration of thickening process.

                        對于濃密沉降控制過程的性能進行評價, 其核心控制指標為底流濃度$ y $. 該因素受控制輸入、系統狀態參量、及其他外部噪音擾動影響. 控制輸入包括底流泵轉速$ u_1(k) $以及絮凝劑泵轉速$ u_2(k) $, 系統狀態參量為泥層高度$ h(k) $, 外部噪音輸入為進料流量$ c_1(k) $、進料濃度$ c_2(k) $. 由于在部分工業場景中, 上游工序產生的物料濃度、物料流量是不可控的. 為了使提出的濃密機控制模型具有通用性, 因此本文將進料狀態作為噪音輸入量. 濃密機進料顆粒大小, 進料成分都會對濃密機底流濃度產生影響. 不過由于此類變量無法觀測且波動較小, 為了簡化問題, 本文假定其保持恒定. 根據上述定義, 其中$ {{u}}(k) = [u_1(k),u_2(k)] \in \mathbb{R}^2 $為可控制輸入量, $ {{c}}(k) = $$ [c_1(k),c_2(k)] \in \mathbb{R}^2 $為不可控但是可觀測的噪音量, $ h(k) \in \bf R $為系統狀態量, 該參量是表征當前濃密機狀態的重要參量, 它可被間接控制但不作為控制目標. 因此, 濃密機系統可表述為式(1)形式的非線性系統, 其中$ f ( \cdot ) $為未知非線性函數.

                        $$ [y ( k + 1 ), h(k+1)]^{\rm T} = f ( y(k), {{u}} ( k ) ,{{c}} ( k ) ,h(k)) $$ (1)

                        本文提出的濃密機底流濃度控制算法, 可以根據當前底流濃度$ y(k) $、泥層高度$ h(k) $、進料流量$ c_1(k) $、進料濃度$ c_2(k) $幾個狀態量, 自動地調節底流泵速$ u_1(k) $和絮凝劑泵速$ u_2(k) $, 使底流濃度$ y(\cdot) $追蹤其設定值$ y^* $.

                      • 當前, 工業場景下控制濃密機的方法主要依靠操作員手工控制. 操作員根據生產經驗給出絮凝劑添加量的設定值($ m^3/h $)以及底流流量設定值($ m^3/h $), 濃密機內相配套的回路控制系統會根據設定值的大小自動調節絮凝劑泵速($ HZ $)與底流泵速($ HZ $), 使絮凝劑的實時流量、底流實時流量追蹤操作員給出的設定值. 然而, 由于濃密機系統的復雜性, 操作員難以實時、完整地掌握系統運行參數, 因此無法及時、準確地設定目標點位. 這導致在實際生產過程中, 濃密機常常處于非最優工作狀態, 底流濃度大范圍頻繁波動, 偏離理想的底流濃度.

                        對于濃密過程式(1), 控制系統的首要目標是使底流濃度$ y(k) $, 追蹤其設定值$ y^*(k) $. 另外, 為了保證系統運行安全與儀器壽命, 控制輸入必須滿足一定的限制條件. 綜合上述指標因素, 可以將濃密機控制問題轉化為有約束的最優化問題式(2).

                        $$ \begin{split} &{\mathop {\min }\limits_{{{u}}(k)} \;\;\;\;\;J(k) = \sum\limits_{l = k}^\infty {{\gamma ^{l - k}}} U(l)}\\ &{\rm{s}}.{\rm{t}}. {{{[y(k + 1),h(k + 1)]}^{\rm{T}}} = f(y(k),{{u}}(k),{{c}}(k),h(k))}\\ &\qquad{{u_{i\min }} \le {u_i}(k) \le {u_{i\max }},i = 1,2} \end{split}$$ (2)
                        $$ \begin{split} U ( k ) =\;& Q \left( y ( k ) - y ^ { * } \right) ^ { 2 } + \\ &\left( {{u}} ( k ) - \frac { {{u}} _ { mid } } { 2 } \right) ^ { \rm{T} } R \left( {{u}} ( k ) - \frac { {{u}}_{mid} } { 2 } \right) \end{split} \hspace{15pt} $$ (3)

                        $ J(k) $為折扣累計評價值函數, 用來評估控制策略的好壞. 式(3)是效用函數, 代表在當前狀態$ y(k) $下, 執行控制輸入$ {{{u}}}(k) $需要承受的代價. $ \gamma \in (0,1] $是折扣因子, 代表系統短期控制過程中產生的懲罰值在累計懲罰項所占比重. $ Q>0 $, $ R $是對稱正定矩陣, $ u _{i\min} $, $ u _{i\max} $分別代表對$ u _ { i } ( k ) $的限制, ${{u}}_{mid} = $$ \dfrac{{{u}} _ { \max } + {{u}} _ { \min }}{2} $.

                      • 本節根據對式(2)的定義, 求解理想情況下最優控制輸入$ {{u}}^*(k) $.

                        式(2)可以表示為式(4)貝爾曼方程的形式:

                        $$ \begin{split} J \left( k \right) =\;& U(k) + \gamma \sum\limits_ { l = k + 1 } ^ { \infty } \gamma ^ { l- k - 1 } U \left( l \right) =\\ & U(k) + \gamma J \left( k+1\right) \end{split} $$ (4)

                        根據貝爾曼最優原則, 第$ k $時刻的最優評價值函數$ J^*(k) $滿足離散哈密頓 ? 雅可比 ? 貝爾曼方程

                        $$ J ^ { * } \left( k \right) = \mathop {\min }\limits_{{{u}}_k} \left\{ U(k) + \gamma J ^ { * } \left( k+1 \right) \right\} $$ (5)

                        $ k $時刻, 最優的控制輸入$ {{u}}^*(k) $可以表示為

                        $$ {{u}} ^ { * } \left( k \right) = \arg \mathop {\min }\limits_{{{u}}_k} \left\{ U(k) + \gamma J ^ { * } \left(k+1 \right) \right\} $$ (6)

                        由于式(1)中$ f(\cdot) $是復雜非線性函數, 無法直接對式(5)進行求解, 但可以利用算法1以值函數迭代的方式求解最優值函數和最優控制律, 其中$ x(k) $用于表征系統狀態, $ {{x}}(k) = [y(k), h(k),{{c}} ( k )^{\rm T} ]^{\rm T} $. 根據文獻[18], 可以證明當$ i\rightarrow \infty $時, 值函數$ V _ { i } \rightarrow J ^ { * } $, 控制律$ {{u}} _ { i } \rightarrow {{u}} ^ { * } $.

                        Algorithm 1 值迭代算法

                        初始化: 隨機定義$V_0$(·)

                        1: 定義控制約束集合$ \Omega _ {{{u}}} \!=\! \{{{u}}:{{u}} _ {\rm { min } } \!\leq \! {{u}} \!\leq \! {{u}} _ { \rm { max } }\} $

                        2: for $ i=0,1,2,\cdots,\infty $ do

                        3:  策略改進

                        $$ {{u}} _ { i } \left( k \right) = \arg\mathop {\min}\limits_{{{u}}_{k}\in \Omega_{{{u}}}} U(y(k),{{u}}(k)) + \gamma V _ { i } ({{x}}(k+1))$$ (7)

                        4:  策略評估

                        $$ V _ { i + 1 } \left( {{x}}(k) \right) = U(y(k),{{u}}_i(k)) + \gamma V _ { i } ({{x}}(k+1)) $$ (8)
                      • 本小節將基于算法1, 提出一種啟發式評價網絡值迭代算法. 該算法能根據濃密機系統產生的實時監測數據$ {{x}}(k) $進行在線學習, 并產生滿足$ \Omega_{{{u}}} $約束的控制輸入量$ {{{u}}}(k) $, 且最小化$ J(k) $. 算法整體結構如圖2所示. HCNVI算法中包含兩個神經網絡, 分別是模型網絡和評價網絡. 神經網絡均采用單隱層人工神經網絡, 其基本結構如圖3所示. 模型網絡的訓練全部離線進行, 在控制任務開始后, 將不再對模型網絡參數進行調整. 控制動作決策算法根據濃密機實時反饋狀態$ {{x}}(k) $計算控制變量$ {{{u}}}(k) $并用于濃密機系統控制, $ {{u}}(k),{{x}}(k) $被放入短期經驗數據暫存區存儲. 模型訓練時, 由短期經驗暫存區提供訓練數據供模型訓練. 算法學習過程中, 僅評價網絡參數發生改變.

                        圖  2  HCNVI算法結構示意圖

                        Figure 2.  Structure diagram of algorithm HCNVI

                        圖  3  人工神經網絡結構示意圖

                        Figure 3.  Structure diagram of artificial neural network

                        評價網絡. HCNVI采用一個稱為評價網絡的神經網絡來近似算法1中的$ V(\cdot) $函數. 神經網絡選擇單隱層人工神經網絡, 其基本結構如圖3所示. 評價網絡的具體定義如下:

                        $$ \hat { J } ( k ) = W _ { c 2 } \tanh \left( W _ { c 1 } ( {{x}} ( k ) ) \right) $$ (9)

                        $ \tanh(x) = \dfrac{{\rm e}^{x}-{\rm e}^{-x}}{{\rm e}^{x}+{\rm e}^{-x}} $是網絡的激活函數, 網絡輸入層包含4個節點, 隱層包含14個節點, 輸出層1個節點$ , W _ { c 1 } $$ W _ { c 2 } $內參數均初始化為$ -1\sim 1 $之間的隨機數. 該模型采用由濃密機控制過程中產生的在線數據進行網絡訓練. 為了保證算法更新的實時性, 本文采用單步時序差分誤差(Temporal difference error, TD error)[5]計算評價網絡估計誤差值, 見式(10).

                        $$ e_{c }(k) = \hat{J}(k)-(\gamma \hat{J}(k+1)+U(k)) $$ (10)

                        網絡損失函數為$ E_c(k) = e_c^2(k) $. 通過極小化該目標函數, 可以使評價網絡根據被控系統反饋的狀態信號及效用值信號, 增量式地逼近對于當前控制策略的評價函數. 使用鏈式法則可以計算損失值$ E_c{k} $對網絡參數的梯度:

                        $$ \begin{split}& \dfrac{\partial e_c^2(k)}{\partial W_{c2}} = 2e_c(k) \tanh(W_{c1}{{x}}(k))^{\rm T} \\& \dfrac{\partial e_c^2(k)}{\partial W_{c1}} = 2e_c(k) [W_{c2}^{\rm T}\odot(1-\tanh^2(W_{c1}{{x}}(k)))]{{x}}(k)^{\rm T} \end{split} $$ (11)

                        采用梯度下降算法對評價網絡進行訓練更新:

                        $$ W_{ci}(k) = W_{ci}(k)-l_{c} \frac{\partial e_{c }^{2}(k)}{\partial W_{ci}(k)} $$ (12)

                        $ l_c $是學習率, 由于濃密機所處環境的外界噪音是不斷波動的, 當外界噪音$ {{c}}(k) $改變時, 網絡需要根據訓練數據快速收斂, $ l_c $需設定為固定值以保持學習能力.

                        由于不同物理量的取值差異很大, 這會導致網絡無法有效學習并且造成超參數設定困難. 因此本文采用濃密機系統產生的離線數據中各參量的極值對所有訓練數據利用式(13)進行歸一化放縮.

                        $$ \overline{z} = \frac{2\left(z-z_{\min }\right)}{z_{\max }-z_{\min }}-1 $$ (13)

                        模型網絡. 建立模型網絡用來對系統動態進行建模, 根據當前系統狀態、外部噪音量、控制輸入、預測下一時刻底流濃度和泥層高度變化. 網絡結構仍采用單隱層神經網絡, 如圖3所示. 模型網絡具體定義如下:

                        $$ [\hat{y}(k+1), \hat{h}(k+1)]^{\rm T} = W_{m 2} \tanh \left(W_{m 1}( {{\phi}}(k))\right) $$ (14)

                        其中$ {{\phi}} (k) = [{{x}}(k)^{\rm T}, {{u}}(k)^{\rm T}]^{\rm T} $, 網絡輸入層包含6個節點, 隱層包含20個節點, 輸出層2個節點, $ W _ { m1 } $$ W _ { m 2 } $內各個參數均初始化為$ -1\sim 1 $之間的隨機數. 通過梯度下降方法訓練模型網絡:

                        $$ W_{mi}(k) = W_{m i}(k)-l_{m } \frac{\partial E_{m}(k)}{\partial W_{m i}(k)} $$ (15)

                        損失函數$ E_{m}(k) $定義為:

                        $$ E_{m}(k) = \frac{1}{2} {{e}}_{m}^{\rm T}(k){{L}}_{m}{{e}}_{m}(k) \hspace{13pt}$$ (16)
                        $$ \begin{split} e_{m}(k) =\;& [\hat{y}(k+1), \hat{h}(k+1)]^{\mathrm{T}}-\\ &[y(k+1),h(k+1)]^{\mathrm{T}} \end{split} $$ (17)

                        對于模型網絡, 同樣采用式(13)對訓練數據進行放縮. 模型網絡的訓練全部離線進行, 在控制任務開始后, 將不再對模型網絡進行調整.

                      • 大部分的ADP類算法都是通過建立一個動作網絡來計算控制輸入, 并利用評價網絡輸出值更新動作網絡的參數. HCNVI方法以HDP算法架構為基礎, 去掉了動作網絡, 直接利用評價網絡和模型網絡計算控制動作. 該方法可以在環境噪音改變時, 使被控系統更快速地收斂, 并且減少內存占用以及削減訓練時間的消耗.

                        利用評價網絡和模型網絡計算控制動作$ {{{u}}}(k) $的過程如算法2所示. 式(19)中在估計$ k+1 $時刻的折扣累計懲罰時, 下一時刻濃密機系統所處外界噪音是未知的. 不過由于真實工業環境下進料噪音都是連續變化的, 很少出現突變, 因此本模型用當前時刻噪音$ {{c}}(k) $來充當下一時刻噪音$ {{c}}(k+1) $.

                        Algorithm 2 利用迭代梯度下降算法計算控制動作

                        輸入: 第k時刻系統狀態 $y(k),h(k),{{c}}(k)$

                        輸出: 第k時刻的控制動作輸出${{u}}(k)$

                        1: 隨機選取$ \begin{array}{c}{{{u}}_{0}=\left[v_{1}, v_{2}\right]^{\rm T}} \end{array} $

                        2: $ {v_{1} \sim U(-1,1)} , {v_{2} \sim U(-1,1)} $

                        3: $ i=0 $

                        4: do

                        5:  預測以$ {{u}}_i $為控制輸入情況下, 下一時刻 系統狀態

                        $$ [\hat{y}(k+1), \hat{h}(k+1)] = W_{m 2} \tanh \left(W_{m 1}\left({{x}}(k),{{u}}_{i}\right)\right) $$ (18)

                        6:  令$ \hat{{{x}}}(k+1)=[\hat{y}(k+1), \hat{h}(k+1),{{c}}(k)^{\rm T}]^{\rm T} $, 估計$ k+1 $時刻評價值

                        $$ \hat{J}(k+1) = W_{c 2} \tanh \left(W_{c 1}(\hat{{{x}}}(k+1))\right) $$ (19)

                        7:  計算第$ k $時刻評價值

                        $$ \hat{J}(k) = U\left(y_{k}, {{u}}_{i}\right)+\gamma \hat{J}(k+1) $$ (20)

                        8:  利用梯度下降算法對$ {{u}}_i $進行更新

                        $$ {{u}}_{i+1} = {{u}}_i-l_u * \frac{\partial \hat{J}(k)}{\partial {{u}}_{i}} $$ (21)

                        9:  將$ {{u}}_{i+1} $限定在$ \Omega_{{{u}}} $的約束內

                        $$ {{u}}_{i+1} = max([-1,-1]^{\rm T}, min([1,1]^{\rm T},{{u}}_{i+1})) $$ (22)

                        10:  $ i=i+1 $

                        11: while $ \left\|{{u}}_{i+1}-{{u}}_{i}\right\|>\epsilon_{a} $ and $ i<Na $

                        12: 反歸一化$ {{{u}}}(k) $

                        $$ {{u}}(k) = \frac{{{u}}(i+1) \odot\left({{u}}_{\max }-{{u}}_{\min }\right)}{2}+{{u}}_{mid } $$ (23)

                        13: return $ {{u}}(k) $

                        為了驗證算法2的有效性, 本文對式(20)中$ \hat{J}(k) $$ {{{u}}}(k) $的關系及迭代求解$ {{u}}_i(k) $的過程進行了可視化探究. 在實驗一3.1介紹的仿真實驗中挑選了三個時刻分析了$ \hat{J}(k) $$ {{{u}}}(k) $之間的函數關系. 圖4中的三個子圖分別代表訓練開始階段、第一次系統達到穩態時、第二次系統達到穩態時的可視化結果. 橫縱坐標代表被歸一化后的底流泵速和絮凝劑泵速, 顏色深淺代表$ \hat{J}(k) $的大小. 黃色箭頭線代表利用算法2尋找最優控制輸入$ {{{u}}}(k) $的梯度下降軌跡. 根據實驗結果發現: 在網絡訓練的三個階段中, 圖中顏色最深的點, 即$ \hat{J}(k) $的最小位置是唯一的, 且不存在其他局部最優解. 黃色箭頭線能夠準確地收斂至全局最優解. 該結果說明由于濃密機運行過程緩慢, 某一時刻的控制輸入$ {{{u}}}(k) $對下一時刻濃密機狀態$ {{x}}(k+1) $影響相對較小, 且評價網絡式(9)和效用函數式(3)具有連續、可微的性質, 因此$ \hat{J}(k) $$ {{{u}}}(k) $變化的分布函數一般情況下為單峰函數. 采用梯度下降算法可以有效地尋找到全局最優的$ {{u}}^*(k) $, 而不會收斂到局部最優解, 進而滿足式(7)的最小化條件,實現最優控制.

                        圖  4  迭代梯度下降過程可視化

                        Figure 4.  Visualize the process of iterative gradient decline

                      • 為了增加評價網絡訓練的準確性和收斂速度, 本文進一步提出短期經驗回放方法優化網絡訓練損失函數, 并計算優化梯度. 短期經驗回放方法將式(10)的誤差值計算方法修改為

                        $$ e_{c}(k) = \frac{1}{L} \sum_{i = 0}^{L-1} \hat{J}({{x}}(k-i)) - (U(k-i)+\gamma \hat{J}({{x}}(k-i+1))) $$ (24)

                        通過存儲短期內被控系統的運行軌跡數據, 在訓練過程中, 短期軌跡數據可以用來共同計算評價網絡的損失值以及優化梯度方向.

                        HDP、DHP以及本文提出的HCNVI算法都是面向狀態值函數進行建模的在線控制算法, 其策略模塊的更新都是以模型網絡作為媒介, 計算評價網絡輸出值$ \hat{J}(k) $對于控制輸入$ {{{u}}}(k) $的梯度, 并在此梯度基礎上更新動作網絡或者利用算法2優化$ {{{u}}}(k) $. 因此對于$ {{{u}}}(k) $梯度估計的準確性極大地影響了策略模塊的更新效果, 進而影響整個控制系統的控制效果與收斂速度. $ {{{u}}}(k) $的梯度表達式為式(25)

                        $$ \nabla {{u}}(k) = \gamma\frac{\partial {{x}}(k+1)}{\partial {{u}}(k)}\frac{\partial\hat{J}(k+1)}{\partial {{x}}(k+1)}+\frac{\partial U(k)}{\partial {{u}}(k)} $$ (25)

                        式中的$ \dfrac{\partial\hat{J}(k+1)}{\partial {{x}}(k+1)} $也稱為$ (k+1) $時刻的協狀態${{\lambda}}(k+ $$ 1) $, 代表了評價網絡輸出值對于系統狀態量的梯度. 模型網絡可以利用系統離線數據進行訓練, 在訓練數據量充足時可以達到極高的精度, 可以近似認為$ \dfrac{\partial {{x}}(k+1)}{\partial {{u}}(k)} $的估計是足夠精確的. $ {{{U}}}(k) $作為確定的效用函數, $ \dfrac{\partial U(k)}{\partial {{u}}(k)} $也是確定的. 因此對于$ \nabla {{u}}(k) $的估計誤差主要來源于對協狀態$ {{\lambda}}(k+1) $的估計誤差.

                        對于濃密機等大型過程工業設備來說, 系統的運行過程緩慢, 短時間內系統狀態不會發生劇烈改變, 即$ {{x}}(k)\approx {{x}}(k+1) $, 且評價網絡具有連續可微的性質. 因此可以近似認為$ {{\lambda}}(k)\approx {{\lambda}}(k+1) $. 同樣, 由于系統的運行過程緩慢會導致提供給控制模型學習的訓練數據中系統狀態參量分布非常集中, 可以近似認為式(26)成立.

                        $$ \forall 1 \leq t<L, \| {{x}}(k-t)-{{x}}(t)||<\delta $$ (26)

                        該式表明短期內系統狀態點$ {{x}}(k-t) $都在以$ {{x}}(k) $為中心, $ \delta $為半徑的領域內. 通過式(24)將短期$ L $條數據共同用于評價網絡訓練, 可以使評價網絡在$ {{x}}(k) $的鄰域內學習地更佳充分, 進而更準確地估計$ {{\lambda}}(k) $.

                        為了更直觀地展示增加短期經驗回放對評價網絡學習過程的影響, 本文對實驗一3.1節中的評價網絡進行了可視化, 實驗結果如圖5所示. 該實驗中采用等高線圖對評價網絡的輸出值進行展示, 其中圖5(a)代表不使用經驗回放, 利用式(10)訓練網絡, 圖5(b)代表使用短期經驗回放, 回放數據點數$ L $為2, 利用式(24)訓練網絡. 對于兩種算法, 分別繪制了連續四次迭代中, 評價網絡在更新后對不同泥層高度$ h(\cdot) $和底流濃度$ y(\cdot) $的評價值. 圖中橫縱坐標分別代表被歸一化后的泥層高度和底流濃度. 根據實驗結果發現. 在圖5(a)中評價網絡的輸出值在不同輸入下基本趨同. 且在當前時刻系統狀態點附近, 網絡輸出值的梯度很小. 說明單數據點更新會造成評價網絡很快地遺忘歷史數據, 導致網絡輸出值整體漂移, 難以穩定地學習到正確的局部梯度. 在圖5(b)中, 當前系統狀態($ h(k) $, $ y(k) $)所處臨域內, 網絡輸出值具有較大差異, 局部梯度值可以被較好地保持. 準確的梯度$ {{\lambda}}(k) $可以提高$ \nabla {{u}}(k) $估計的精確度, 因此對短期數據進行回放訓練可以更好地指導控制策略輸出更優控制動作, 促使評價網絡和被控系統快速收斂. 同時, 當經驗回放數據量式(24)中$ L $的過大, 會導致性能的退化. 其原因在于本文提出的方法是同策略(On-Policy)強化學習方法, 而時間相差較遠的歷史數據點不能表征由當前控制策略產生的控制軌跡, 因此評價網絡會學習到錯誤的評價值. 另外, $ L $過大將不再滿足性質式(26), 過多的歷史數據回放將不再有助于評價網絡學習$ {{x}}(k) $處的梯度值$ {{\lambda}}(k) $, 進而不會提高對$ \nabla {{u}}(k) $估計的精確度. 通過實驗觀察, 一般將$ L $限定在$ 5 $以內, 本文也將這種經驗回放方法稱為短期經驗回放.

                        圖  5  短期經驗回放對評價網絡的輸出值的影響

                        Figure 5.  The effect of short-term experience replay on critic network

                        將HCNVI算法用于濃密機控制的具體流程如算法3所示.

                        Algorithm 3 利用HCNVI算法實現濃密機在線控制

                        1: 使用濃密機運行離線數據, 用式(15)訓練模 型網絡

                        2: $ k=0 $

                        3: while k<T do

                        4:  根據濃密機系統獲得$ y(k), h(k),{{c}}(k) $

                        5:  if $ k\geq 1 $ then

                        6:   $ i=0 $

                        7:   do

                        8:    令$ L=\min(L_c, k) $, 用式(24)求解 $ e_c(k) $

                        9:    利用式(12)訓練評價網絡

                        10:    $ i=i+1 $

                        11:    while $ i<N_c $ and $ e_c(k)^2>\epsilon _c $

                        12:  利用算法2求解$ {{{u}}}(k) $

                        13:  將$ {{{u}}}(k) $作用于濃密機系統, 并等待$ T_d $ 分鐘.

                        14:  $ k=k+1 $

                      • 濃密機仿真模型. 由于在真實工業場景下進行濃密機控制實驗成本較高, 本節采用濃密機仿真模型驗證本文提出控制算法的有效性, 模型構建方法參考了[19][20][21][22][23][24]. 該仿真模型建立在如下假設基礎上:

                        ● 進料都是球形顆粒.

                        ● 絮凝劑在濃密機的靜態混合器中作用完全.

                        ● 流體的擴散以固液混合物形式進行.

                        ● 忽略顆粒間相互作用、濃密機中把機中軸的影響.

                        模型推導過程中出現的變量如表1, 表2, 表3所示

                        表 1  參量定義

                        Table 1.  Variables definition

                        變量含義量綱初始值補充說明
                        $f_{i}(t)$進料泵頻$Hz$40擾動量
                        $f_{u}(t)$底流泵頻$Hz$85控制量
                        $f_{f}(t)$絮凝劑泵頻$Hz$40控制量
                        $c _ { i } ( t )$進料濃度$kg/m^3$73擾動量
                        $h(t)$泥層高度$m$1.48狀態量
                        $c_u(t)$底流濃度$kg/m^3$680目標量

                        表 2  仿真模型常量

                        Table 2.  Definitions for constant variables

                        變量含義量綱參考值
                        $\rho _s$干砂密度$kg/m^3$4 150
                        $\rho _e$介質表觀密度$kg/m^3$1 803
                        $\mu _ { e }$懸浮體系的表觀粘度$Pa \cdot s$1
                        $d_0$進料顆粒直徑$m$0.00008
                        $p$平均濃度系數0.5
                        $A$濃密機橫截面積$m^2$300.5
                        $k_s$絮凝劑作用系數$s/m^2$0.157
                        $k_i$壓縮層濃度系數$m^3/s$0.0005*3600
                        $K_i$進料流量與進料泵頻的系數$m^3/r$50/3 600
                        $K_u$底流流量與底流泵頻的系數$m^3/r$2/3 600
                        $K_f$絮凝劑流量與絮凝劑泵頻的系數$m^3/r$0.75/3 600
                        $\theta$壓縮時間$s$2 300

                        表 3  部分變量計算方法

                        Table 3.  Definitions for part intermediate variables

                        變量含義公式
                        $q_i(t)$進料流量$q _ { i } ( t ) = K _ { i } f _ { i } ( t )$
                        $q_u(t)$底流流量$q _ { u } ( t ) = K _ { u } f _ { u } ( t )$
                        $q_f(t)$絮凝劑添加量$q _ { f } ( t ) = K _ { f } f _ { f } ( t )$
                        $d(t)$絮凝作用后的顆粒直徑$d ( t ) = k _ { s } q _ { f } ( t ) + d _ { 0 }$
                        $u_t(t)$顆粒的干涉沉降速度$u _ { t} ( t ) = \dfrac { d ^ { 2 } ( t ) \left( \rho _ { s } - \rho _ { e } \right) g } { 18 \mu _ { e } }$
                        $u_r(t)$底流導致的顆粒下沉速度$u _ { r } ( t ) = \dfrac { q _ { u } ( t ) } { A }$
                        $c_l(t)$泥層高度處單位體積含固量$c _ { l } ( t ) = k _ { i } q _ { i } ( t ) c _ { i } ( t )$
                        $c_a(t)$泥層界面內單位體積含固量$c _ { a } ( t ) = p \left[ c _ { l } ( t ) + c _ { u } ( t ) \right]$
                        $r(t)$泥層內液固質量比$r(t)=\rho_{l}\left(\dfrac{1}{c_ a(t)}-\frac{1}{\rho_s}\right)$
                        $W ( t )$單位時間進入濃密機內的固體質量$W ( t ) = c _ { i } (t ) q _ { i } ( t )$

                        由文獻[23],可得泥層高度與泥層液固質量比之間的關系.

                        $$ h(t) = \frac{W(t) \theta}{A \rho_{s}}+\frac{W(t) \theta}{A}r(t) $$ (27)

                        根據固體守恒定律, 泥層內固體質量變化量等于由進料導致泥層內固體量增加量與底流導致泥層內固體減少量的差. 因此可以建立泥層內平均單位體積含固量與粒子沉降速度的關系.

                        $$ \frac{\mathrm{d}\left[c_{a}(t) A h(t)\right]}{\mathrm{d} t} = c_{l}(t)\left[u_{t}(t)+u_{r}(t)\right] A-c_{u}(t) u_{r}(t) A $$ (28)

                        對式(28)做變形可得式(29)

                        $$ \begin{split} c_{a}(t) \frac{\mathrm{d} h(t)}{\mathrm{d} t}+h(t) p \frac{\mathrm{d} c_{u}(t)}{\mathrm{d} t} =\;& c_{l}(t)\left[u_{t}(t)+u_{r}(t)\right] A- \\ &c_{u}(t) u_{r}(t) A \end{split} $$ (29)

                        聯立式(29), 式(27), 可得泥層高度$ h(t) $與底流濃度$ c_u(t) $的一階變化率

                        $$ \frac{d h(t)}{d t} = -\frac{W(t) \theta}{A c_{a}^{2}(t)}*\dfrac{ c_{l}(t)\left[u_{t}(t)+u_{r}(t)\right]-c_{u}(t) u_{r}(t)}{h(t)-c_{a}(t) \dfrac{W(t) \theta}{A c_{a}^{2}(t)}} $$ (30)
                        $$ \frac{d c_{u}(t)}{d t} = \frac{c_{l}(t)\left[u_{t}(t)+u_{r}(t)\right]-c_{u}(t) u_{r}(t)}{p(h(t)-c_{a}(t) \dfrac{W(t) \theta}{A c_{a}^{2}(t)})} $$ (31)

                        在該仿真模型中, 絮凝劑泵速$ f_f $和底流泵速$ f_u $是控制輸入$ {{u}} = [f_u,f_f]^{\rm T} $, 進料泵速$ f_i $和進料濃度$ c_i $是外部干擾量$ {{c}} = [f_i,c_i]^{\rm T} $, 底流濃度$ c_u $為控制系統追蹤變量$ y = c_u $. 理想的控制系統能夠在外界干擾量$ c $不斷波動下, 通過在合理范圍內調節$ u $, 驅使$ y $追蹤其設定值$ y^* $. 根據真實生產情況對部分變量做如下定義: $ {{u}}_{\rm{min}} = [40,30] $, $ {{u}}_{\rm{max}} = [120,50] $, $y_{\rm{min}} = $$ 280 $, $ y_{\rm{max}} = 1200 $, $ {{c}}_{\rm{min}} = [40,30] $, $ {{c}}_{\rm{max}} = [120,50] $, $ y^* = 680 $. 接下來本章節將基于濃密機仿真模型式(30)、式(31), 分別進行兩組實驗驗證在兩種類型噪音量$ {{c}}(k) $輸入下HCNVI模型的控制效果, 并與其他算法進行比較.

                      • 第一組實驗中設置干擾量輸入$ {{c}} $為恒定值, 并在某一時刻為其增加階躍突變, 噪音輸入量如圖6所示. 該實驗用來驗證控制模型能否在濃密機外在環境發生大幅度變化下, 快速尋找到$ {{u}}^* $, 使被控模型達到理想收斂穩態.

                        圖  6  噪音量變化曲線

                        Figure 6.  Noise input in the simulation experiment

                        使用本文提出的HCNVI算法與HDP、DHP、ILPL算法進行對比實驗. 仿真實驗參數如下: 迭代輪次$ T = 270 $, 仿真步長$ T_d = 120\;s $, $ Q = 0.004 $, $ \gamma = $$ 0.6 $, $ N_a = 4000 $, $ N_c = 500 $, $ \epsilon _c = 0.001 $, $ \epsilon _a = 0.0001 $, $ l_m = 0.01 $, $ l_c = 0.01 $, $ l_a = 0.009 $, $ l_u = 0.4 $, $ L_c = 2 $, $ {{{L}}_{{m}}} = [0.01,3] $. 其中HDP、DHP算法也使用短期經驗回放, 回放點數$ L $為2. 實驗中HDP、ILPL、HCNVI的評價網絡結構相同, 且網絡參數初始化為相同數值. 實驗結果如圖7所示.

                        圖  7  HCNVI與其他ADP算法在恒定噪音輸入下的對比

                        Figure 7.  HCNVI versu other ADP algorithms under stable noisy input

                        根據實驗結果可以發現, 對于不同控制算法, 由于網絡參數初始值均為隨機設定值, 訓練初期底流濃度有較大幅度的波動, 且在設定值兩側持續震蕩. 隨著各個控制模型的學習, 系統狀態與網絡參數不斷趨于平穩, 直到某一時刻底流濃度開始穩定并與設定值重合且不再產生波動, 此時控制模型參數也不再發生變化, 被控系統和控制模型同時收斂到最優態. 從效用值變化曲線也可以看出, 早期由于底流濃度與其設定值偏差較大, 效用值較高. 但是隨著模型與系統趨于穩態, 效用值$ {{{u}}}(k) $不斷縮減直到接近于0的位置. 到達270分鐘時, 系統進料濃度、進料流量發生突變, 底流濃度無法維持穩態, 開始遠離設定值. 控制模型根據噪音量改變后的系統所產生的軌跡數據重新訓練, 將底流濃度拉回設定值位置. 由于在第一階段控制模型已經到達過一次穩態, 在第二階段僅需要少量迭代就可以使系統重歸理想收斂穩態. 通過觀察不同控制算法產生的系統軌跡, 可以發現不同控制算法到達最優態所需的時間有較大差別, 且在收斂到最優態的過程中, 底流濃度的波動也有較大差異. 在實驗第一階段, 為使系統達到穩態, HCNVI算法所需要的迭代次數更少, 訓練過程中產生的底流濃度振幅也更小. 并且在噪音量改變后, HCNVI算法可以迅速地使模型重歸最優態, 且底流濃度幾乎未發生大幅度波動.

                        HCNVI的快速收斂能力主要來源于其采用迭代算法2得出的$ {{{u}}}(k) $嚴格滿足式(7)的最小化條件, 可以使評價網絡更快地收斂到最優評價值函數. 而其他ADP算法中引入了動作網絡, 這會使策略的更新存在一定的滯后性, 進而拖慢評價網絡的訓練速度.

                        為了驗證短期經驗回放技術對控制算法性能的影響, 本文分別對比了無經驗回放、使用短期經驗回放($ L = 2 $)情況下HDP、HCNVI的控制性能. 對比結果如圖8所示. 在本實驗中, 僅比較了兩種算法的效用值變化, 效用值越快地收斂到0說明算法控制效果越佳. 通過觀察圖8(a)圖8(b)中無經驗回放情況下的效用值變化曲線, 可以發現曲線波動較大. 相比于使用短期經驗回放, 無經驗回放情況下控制模型需要更多的迭代輪次才能夠使系統達到收斂. 特別是在圖7(a)的HCNVI的實驗中, 270分鐘時系統噪音輸入量改變, 效用值開始劇增, 底流濃度開始偏離設定值, 評價網絡的學習結果如圖5(a)中的第四部分所示. 評價網絡對當前狀態點$ {{x}}(k) $的局部梯度估計有較大偏差, 使得利用算法2求解的$ {{{u}}}(k) $并沒有驅使底流濃度向其設定值移動, 被控系統無法收斂. 但在增加了短期經驗數據回放后, 無論是本文提出的HCNVI算法還是HDP算法, 效用函數值可以快速收斂至最低點, 有效實現對被控系統的控制. 該實驗結果表明短期經驗回放技術對于控制模型的收斂速度改善效果明顯, 且對不同ADP算法具有通用型.

                        圖  8  短期經驗回放對HDP與HCNVI的影響

                        Figure 8.  The influence of short-term experience replay on HDP and HCNVI

                        另外本文進行了十組實驗來對比HCNVI算法在時間上的優勢. 選取HDP算法作為參考對象, $ T = 270 $, 結果如圖9所示. 由于每次實驗中網絡初始值不同, 系統運行軌跡以及模型訓練過程也不同, 因此每組實驗中模型學習以及控制所需的累積時間略有差異. 但是從多次實驗結果可以看出, 由于 HCNVI算法中去掉了動作網絡, 僅需要訓練評價網絡, 所以模型整體訓練時間大大縮減, 盡管算法2中計算控制輸入所需時間相比于HDP算法直接利用動作網絡前向傳播求解控制動作所需時間長, 但是HCNVI算法總消耗時間明顯少于HDP算法.

                        圖  9  實驗一中HDP與HCNVI在時間消耗上的對比

                        Figure 9.  Comparison of time consuming in HDP and HCNVI in experiment 1

                        前人研究表明[25][26], 在啟發式動態規劃類算法中, 去掉動作網絡可以有效減少模型訓練時間. 但是在某些復雜系統控制問題中, 去除動作網絡會使模型難以擬合復雜策略函數, 最終導致控制效果變差. 在本文的實驗中, 由于濃密機系統運行緩慢且具有較高時滯性, 當前時刻控制輸入量$ {{{u}}}(k) $$ \hat{{{x}}}(k+1) $的影響較小, 即對$ \hat{J}(k) $的影響較小. 因此利用算法2求解的$ {{{u}}}(k) $滿足式(7)的最小化條件. 而在HDP、DHP、ILPL等方法中采用神經網絡擬合出的控制策略, 難以輸出嚴格滿足式(7)的$ {{{u}}}(k) $, 算法2的最優性代表HCNVI可以最大程度地利用評價網絡給出的協狀態信息優化當前控制策略, 進而獲得更高的控制效果. 但HCNVI方法也具有一定的局限性, 當被控系統狀態變化速率較快, $ \hat{J}(k) $$ {{{u}}}(k) $變化的分布函數不再是單峰函數, 算法2求解出的$ {{{u}}}(k) $極容易陷入到局部最優解, 算法控制效果及收斂速度必然變差. 而此時在HDP、DHP、ILPL等方法中采用神經網絡擬合的控制策略往往能夠給出相對更優、魯棒性更強的控制動作$ {{{u}}}(k) $, 其控制效果與收斂速率必然優于HCNVI算法.

                      • 實驗一中仿真模型的進料狀態是恒定的, 只在某一時刻產生突變, 其目的是為了更好地觀察不同控制算法的收斂速度. 而真實工業場景下, 濃密機的進料濃度和進料流量是實時波動的. 在本節實驗中, 進料流量和進料濃度兩個噪音量持續波動, 用來模仿真實工業場景下的濃密機系統環境. 噪音輸入的單步變化增量服從高斯分布, 進料波動變化如圖10所示.

                        圖  10  噪音量變化曲線

                        Figure 10.  The fluctuation of noisy input

                        $$ \begin{split}& c(k+1) = c(k)+\Delta c \\ & \Delta c \sim N(\mu = 0 , \Sigma = \operatorname{diag}(0.6,0.6)) \end{split} $$ (32)

                        本實驗中HCNVI控制器參數與實驗一3.1節中的算法參數相同, 迭代輪次$ T = 270 $, 仿真步長$ T_d = 120\;s $. 利用該仿真模型再次對比HCNVI與其他算法控制性能的差異, 結果如圖11所示.

                        圖  11  HCNVI與其他ADP算法在波動噪聲輸入下的對比

                        Figure 11.  HCNVI versu other ADP algorithms under fluctuate noisy input

                        通過觀察實驗結果發現在環境噪音連續變化條件下, 濃密機底流濃度會發生持續震蕩. 隨著對模型參數的不斷訓練, 各個算法的控制性能趨于平穩, 由于進料噪音導致的底流濃度波動稍有減弱. 對比不同控制算法的控制性能, 可以發現HCNVI相比于其他ADP算法能夠更快地將底流濃度鎖定在設定值臨域范圍內, 且濃度振幅小于其他算法. 從效用值變化曲線也可以看出, 相比于其他算法, HCNVI算法的效用值整體較小, 且在訓練后期幾乎0.

                        該實驗結果與實驗一3.1中進料噪音突變條件下的實驗結果相吻合. HCNVI算法在外界噪音頻繁改變時, 可以更快地響應外部變化, 快速調節評價網絡參數, 將底流濃度穩定在目標值附近. 其他算法由于增加了動作網絡產生了訓練滯后性, 進而導致無法快速適應外部環境的變化, 使其控制性能差于HCNVI.

                        表4給出了不同算法在實驗一3.1和實驗二3.2節中底流濃度控制性能指標對比結果. 相比其他算法, HCNVI算法可以更好地控制底流濃度穩定在其設定值附近, 其控制總體穩定性(由MSE、IAE體現)、控制魯棒性(由MAE體現)更佳. 在過程工業控制場景中, 控制系統的MAE指標尤為重要, 某一工序的物料性質發生劇烈波動會使下游物料加工工序出現連帶波動, 嚴重影響生產的穩定性和最終產品的質量. HCNVI算法在MAE指標上的優勢證實了其在過程工業控制問題中的適用性.

                        表 4  不同控制算法之間性能分析

                        Table 4.  Performances analysis of different algorithms

                        實驗組實驗一實驗二
                        對比指標MSEMAEIAEMSEMAEIAE
                        HDP414.182141.8547.2466 105.619275.07554.952
                        DHP290.886109.3125.392732.81496.14516.560
                        ILPL364.397135.4748.2892 473.661211.61535.222
                        HCNVI44.44566.6043.867307.61876.17612.998

                        圖12展示在環境噪音持續變化條件下, 不使用經驗回放和使用短期經驗回放($ L = 2 $)兩種情況下HCNVI算法控制性能. 在無經驗回放情況下, 底流濃度穩定性明顯較差, 且效用值明顯較高, 使用短期經驗回放($ L = 2 $)后模型控制效果較好. 實驗結果表明, 短期經驗回放技術在環境噪音持續變化下仍對模型控制效果與收斂速度有重要促進作用.

                        圖  12  噪音持續變化下短期經驗回放對HCNVI的影響

                        Figure 12.  The influence of short-term experience replay on HCNVI

                        為了展現在噪音持續變化條件下, HCNVI算法在時間上的優勢, 再次重復了十次實驗對比了HCNVI算法與HDP算法的時間消耗, $ T = 270 $. 實驗結果如圖13所示. 在噪音持續變化環境下, HCNVI 算法和HDP算法的總時間消耗相比于圖9中的結果均有增加. 這是由于當外部環境存在持續擾動時, 被控系統和控制模型參數不再如實驗一3.1節中達到穩定態, 而是始終處于震蕩狀態, 被控系統軌跡數據不斷變化. 每輪學習過程中, 為了滿足評價網絡的精度$ e_{c}(k)^{2}<\epsilon_{c} $所需要的訓練迭代次數增加, 進而導致評價網絡訓練所需時間及模型總體訓練時間增加. 但通過橫向對比HCNVI算法與HDP算法的總時間消耗, HCNVI算法在訓練和執行控制過程中所需的總時間消耗仍明顯少于HDP, 說明利用算法2替代動作網絡所產生的時間消耗削減在噪音連續波動條件仍十分明顯.

                        圖  13  實驗二中HCNVI算法與HDP算法在時間消耗上的對比

                        Figure 13.  Comparison of time consuming in HDP and HCNVI in experiment 2

                      • 本文提出了基于強化學習的自適應控制算法HCNVI, 該算法通過構建用于識別系統動態方程的模型網絡以及用于估計折扣累計代價的評價網絡來解決濃密機控制問題. 該方法可以在對濃密機系統未知的情況下, 僅利用濃密機系統輸出數據以及歷史運行數據即可實現在線學習并獲得較好的控制效果. 另外本文提出的短期經驗回放技術可以很好地增強評價網絡訓練的穩定性, 在其他自適應動態規劃算法中也具有較好通用性. 根據仿真實驗驗證結果可以發現, 相比其他在線ADP算法, 由于HCNVI算法模型結構簡單, 且具有較高的學習敏捷性, 因此在濃密機仿真系統控制問題中, HCNVI算法消耗了更少的訓練時間但獲得了更優的控制效果. 但是HCNVI算法也存在自身的局限性, 其去掉動作網絡的可行性是建立濃密機具有運行緩慢、穩定的特性基礎之上的. 但是當被控系統相對復雜且不再具有此特性時, 如系統狀態量變化過程并不連續或系統運行速度較快, HCNVI依靠迭代算法求解的控制量難以保持最優性, 控制性能極有可能產生退化. 如何使HCNVI算法以及其他無動作網絡類自適應動態規劃類算法適用于此類復雜被控系統, 在優化訓練時間消耗的同時保證其控制性能與收斂速度, 將是未來非常有意義的研究方向.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回