2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    分布式多區域多能微網群協同AGC算法

                    席磊 周禮鵬

                    席磊, 周禮鵬. 分布式多區域多能微網群協同 AGC算法. 自動化學報, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    引用本文: 席磊, 周禮鵬. 分布式多區域多能微網群協同 AGC算法. 自動化學報, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    Xi Lei, Zhou Li-Peng. Coordinated AGC algorithm for distributed multi-region multi-energy micro-network group. Acta Automatica Sinica, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    Citation: Xi Lei, Zhou Li-Peng. Coordinated AGC algorithm for distributed multi-region multi-energy micro-network group. Acta Automatica Sinica, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105

                    分布式多區域多能微網群協同AGC算法


                    DOI: 10.16383/j.aas.c200105
                    詳細信息
                      作者簡介:

                      三峽大學副教授. 2016年于華南理工大學獲得博士學位. 主要研究方向為電力系統運行與控制, 自動發電控制, 智能控制方法. 本文通信作者. E-mail: xilei2014@163.com

                      三峽大學碩士研究生. 主要研究方向為自動發電控制. E-mail: zlp197@126.com

                    • 基金項目:  國家自然科學基金(51707102)資助

                    Coordinated AGC Algorithm for Distributed Multi-region Multi-energy Micro-network Group

                    More Information
                    • Fund Project:  Supported by National Natural Science Foundation of China (51707102)
                    • 摘要: 綜合能源多區域協同是電網發展趨勢, 而核心問題是采用何種方法對多區域進行協同. 本文基于Q ( $\sigma $ )融入了資格跡及雙重Q學習, 提出一種面向多區域多能微網群的多智能體協同控制算法, 即DQ ( $\sigma ,\lambda $ ), 避免傳統強化學習動作探索值高估的同時, 來獲取分布式多區域的協同. 通過對改進的IEEE兩區域負荷頻率控制模型及三區域多能微網群自動發電控制(Automatic generation control, AGC)模型仿真, 結果表明, 與傳統方法相比, 所提算法具有快速收斂性和更優動態性能, 能獲得分布式多區域多能微網群的協同.
                    • 圖  1  多能微網群多區域協同控制架構

                      Fig.  1  Multi-energy microgrid group multi-region cooperative control architecture

                      圖  2  DQ ( $\sigma,\lambda $ )的算法流程

                      Fig.  2  Algorithm flow of DQ ( $\sigma,\lambda$ )

                      圖  3  BESS仿真模型

                      Fig.  3  BESS simulation model

                      圖  4  改進的IEEE標準兩區域負荷頻率控制模型

                      Fig.  4  Improved IEEE standard two-area load frequency control model

                      圖  5  兩區域預學習效果及收斂效果

                      Fig.  5  Pre-learning and convergence effect in two area

                      圖  6  階躍負荷擾動下不同算法的性能指標

                      Fig.  6  Performance index of different algorithms under step load disturbance

                      圖  7  隨機白噪聲擾動下不同算法的控制性能

                      Fig.  7  Control performance of different algorithms under stochastic white noise disturbance

                      圖  8  分布式3區域多能微網群協同AGC模型

                      Fig.  8  Coordinated AGC model of a distributed three-area multi-energy microgrid group

                      圖  9  多算法輸出效果

                      Fig.  9  Multi algorithm output effect

                      圖  10  多算法頻率曲線

                      Fig.  10  Multi algorithm frequency curve

                      圖  11  聯絡線交換功率偏差

                      Fig.  11  Exchange power deviation of tie line

                      表  1  模型傳遞函數的參數

                      Table  1  Parameters of the model transfer function

                      機組 參數 數值
                      小水電機組 二次時延TSH 3
                      伺機電動機時間常數TP 0.04
                      伺機增益KS 5
                      永態轉差系數RP 1
                      復位時間TR 0.3
                      暫態轉差系數RT 1
                      閘門最大開啟率Rmaxopen/(pu/s) 0.16
                      閘門最大關閉率Rmaxclose/(pu/s) 0.16
                      機組啟動時間TWH 1
                      生物發電機組 二次時延TSB 10
                      調速器的時間常數TGB 0.08
                      蒸汽啟動時間TWB 5
                      機械啟動時間TMB 0.3
                      微型燃氣輪機機組 二次時延TSM 5
                      燃油系統滯后時間常數T1 0.8
                      燃油系統滯后時間常數T2 0.3
                      負荷限制時間常數T3 3
                      溫度控制環路增益KT 1
                      負荷限制Lmax 1.2
                      燃料電池機組 二次時延TSF 2
                      調速器的時間常數TF 10.056
                      逆變器增益KF 9.205
                      柴油發電儲能機組 二次時延TSD 7
                      調速器的時間常數TGD 2
                      蒸汽啟動時間TWF 1
                      機械啟動時間TMD 3
                      下載: 導出CSV

                      表  2  AGC機組參數

                      Table  2  AGC unit parameters

                      區域 類型 機組序號 $\Delta P_{\rm{in}}^{\max }$
                      (kW/s)
                      $\Delta P_{\rm{in}}^{\min }$
                      (kW/s)
                      $\Delta P_{\rm{in}}^{\rm{rate }+ }$
                      (kW/s)
                      $\Delta P_{\rm{in}}^{\rm{rate} - }$
                      (kW/s)
                      區域1和區域3 小水電 G1 250 ? 250 15 ? 15
                      G2 250 ? 250 15 ? 15
                      G3 150 ? 150 8 ? 8
                      G4 150 ? 150 8 ? 8
                      G5 150 ? 150 8 ? 8
                      G6 100 ? 100 7 ? 7
                      G7 100 ? 100 7 ? 7
                      微型燃氣輪機 G8 100 ? 100 1.2 ? 1.2
                      G9 100 ? 100 1.2 ? 1.2
                      G10 150 ? 150 1.8 ? 1.8
                      G11 150 ? 150 1.8 ? 1.8
                      燃料電池 G12 200 ? 200 7 ? 7
                      G13 200 ? 200 7 ? 7
                      G14 150 ? 150 6 ? 6
                      G15 150 ? 150 6 ? 6
                      區域2 小水電 G1 250 ? 250 15 ? 15
                      G2 250 ? 250 15 ? 15
                      G3 150 ? 150 8 ? 8
                      G4 150 ? 150 8 ? 8
                      G5 150 ? 150 8 ? 8
                      G6 100 ? 100 7 ? 7
                      柴油發電機儲 G7 250 ? 250 2 ? 2
                      G8 250 ? 250 2 ? 2
                      G9 120 ? 120 1 ? 1
                      G10 120 ? 120 1 ? 1
                      生物質能 G11 200 ? 200 3 ? 3
                      G12 200 ? 200 3 ? 3
                      G13 200 ? 200 3 ? 3
                      G14 200 ? 200 3 ? 3
                      下載: 導出CSV
                      360彩票
                    • [1] Meng L X, Savaghebi M, Andrad F, Vasquez J C, Guerrero J M, Graells M. Microgrid central controller development and hierarchical control implementation in the intelligent microgrid lab of Aalborg University. In: Proceedings of the 2015 IEEE Applied Power Electronics Conference and Exposition (APEC), Charlotte, NC, USA: IEEE, 2015. 2585?2592
                      [2] Brijesh P, Jiju K, Dhanesh P R, Joseph A. Microgrid for sustainable development of remote villages. In: Proceedings of the 2019 IEEE Region 10 Conference, Kochi, India: IEEE, 2019. 2433?2438
                      [3] Wang J, Cisse B M, Brown D, Crabb A. Development of a microgrid control system for a solar-plus-battery microgrid to support a critical facility. In: Proceedings of the 2017 IEEE Power and Energy Society Innovative Smart Grid Technologies Conference (ISGT), Washington, DC, USA: IEEE, 2017. 1−5
                      [4] Suyanto H, Irawati R. Study trends and challenges of the development of microgrids. In: Proceedings of the 6th IEEE International Conference on Advanced Logistics and Transport (ICALT), Bali, Indonesia: IEEE, 2017. 160?164
                      [5] Behera A, Panigrahi T K, Ray P K, Sahoo A K. A novel cascaded PID controller for automatic generation control analysis with renewable sources. IEEE/CAA Journal of Automatica Sinica, 2019, 6(6): 1438?1451 doi:  10.1109/JAS.2019.1911666
                      [6] Jagatheesan K, Anand B, Samanta S, Dey N, Ashour A S, Balas V E. Design of a proportional-integral-derivative controller for an automatic generation control of multi-area power thermal systems using firefly algorithm. IEEE/CAA Journal of Automatica Sinica, 2019, 6(2): 503?515 doi:  10.1109/JAS.2017.7510436
                      [7] 趙熙臨, 林震宇, 付波, 何莉, 徐光輝. 預測優化PID方法在含風電電力系統AGC中的應用. 電力系統及其自動化學報, 2019, 31: 16?22

                      Zhao Xi- Lin, Lin Zhen-Yu, Fu Bo, He Li, Xu Guang-Hui. Application of predictive optimization PID method to AGC of power system with windy power. Journal of Power System and Automation, 2019, 31: 16?22
                      [8] 謝平平, 李銀紅, 劉曉娟, 石東源, 段獻忠. 基于社會學習自適應細菌覓食算法的互聯電網AGC最優PI/PID控制器設計. 中國電機工程學報, 2016, 36(20): 5440?5448

                      Xie Ping-Ping, Li Yin-Hong, Liu Xiao-Juan, Shi Dong-Yuan, Duan Xian-Zhong. Optimal PI/PID controller design of AGC based on social learning adaptive bacteria foraging algorithm for interconnected power grids. Proceedings of the Chinese Society of Electrical Engineering, 2016, 36(20): 5440?5448
                      [9] Arya Y. A novel CFFOPI-FOPID controller for AGC performance enhancement of single and multi-area electric power systems. ISA Transactions, 2020, 100: 126−135
                      [10] Xi L, Yu L, Xu Y C, Wang S X, Chen X. A novel multi-agent DDQN-AD method-based distributed strategy for automatic generation control of integrated energy systems. IEEE Transactions on Sustainable Energy, 2019, DOI:  10.1109/TSTE.2019.2958361
                      [11] 吳新, 史軍, 馬偉哲, 陳俊斌. 基于極限Q學習算法的微電網自動發電控制. 新型工業化, 2019, 9(4): 22?26

                      Wu Xin, Shi Jun, Ma Wei-Zhe, Chen Jun-Bin. Automatic generation control of micro grid based on extreme Q-learning algorithm. The Journal of New Industrialization, 2019, 9(4): 22?26
                      [12] 余濤, 梁海華, 周斌. 基于R(λ) 學習的孤島微電網智能發電控制. 電力系統保護與控制, 2012, 40(13): 7?13 doi:  10.7667/j.issn.1674?3415.2012.13.002

                      Yu Tao, Liang Hai-Hua, Zhou Bin. Smart power generation control for microgrids islanded operation based on R(λ) learning. Power System Protection and Control, 2012, 40(13): 7?13 doi:  10.7667/j.issn.1674?3415.2012.13.002
                      [13] 吳麗珍, 雷艾虎, 郝曉弘. 基于模型預測控制的孤島微電網頻率二次控制策略. 蘭州理工大學學報, 2019, 45(6): 99?107 doi:  10.3969/j.issn.1673?5196.2019.06.018

                      Wu Li-Zhen, Lei Ai-Hu, Hao Xiao-Hong. Secondary control strategy of microgrid frequency of isolated island based on model predictive control. Journal of Lanzhou University of Technology, 2019, 45(6): 99?107 doi:  10.3969/j.issn.1673?5196.2019.06.018
                      [14] 李文浩. 去中心化多智能體強化學習算法研究[碩士學位論文]. 華東師范大學, 中國, 2019.

                      Li Wen-hao. Decentralized Multi-Agent Reinforcement Learning Algorithm Research. [Master thesis]. East China Normal University, China, 2019.
                      [15] 綦曉. 基于多智能體系統及自抗擾控制理論的微網負荷頻率控制策略研究[博士學位論文]. 華北電力大學(北京), 中國, 2019.

                      Qi Xiao. Research on Microgrid Load Frequency Control Strategy Based on Multi-Agent System and Active Disturbance Rejection Control Algorithm [Ph.D. dissertation]. North China Electric Power University, China, 2019.
                      [16] 曹倩. 多智能體系統一致性算法及其在微網中的應用[博士學位論文]. 電子科技大學, 中國, 2016.

                      Cao Qian. Consensus Algorithms Of Multi-Agent Systems And Its Application On Micro-Grid [Ph.D. dissertation]. University of Electronic Science and Technology of China, China, 2016.
                      [17] 衣楠. 微網分布式協調控制系統設計及仿真實現[碩士學位論文]. 華北電力大學, 中國, 2014.

                      Yi Nan. Design and Simulation of Microgrid Distributed Coordination Control System [Master thesis]. North China Electric Power University, China, 2014.
                      [18] 李楠芳. 基于多智能體技術的微電網控制算法的研究[碩士學位論文]. 華北電力大學, 中國, 2011.

                      Li Nan-Fang. Research on Control Algorithms Based on Multi-agent Technology of Microgrid [Master thesis]. North China Electric Power University, China, 2011.
                      [19] Xi L, Li Y D, Huang Y H, Lu L, Chen J F. A novel automatic generation control method based on the ecological population cooperative control for the islanded smart grid. Complexity, 2018, 2018: 1?17
                      [20] Watkins C J C H. Learning from Delayed Rewards. [Ph.D. dissertation]. King's College, Cambridge, England, 1989.
                      [21] De Asis K, Hernandez-Garcia J F, Holland G Z, Sutton R S. Multi-step reinforcement learning: A unifying algorithm. AAAI, 2018, arXiv: 1703.01327
                      [22] Hasselt H V. Double Q-learning. Neural Information Processing Systems 23, Curran Associates, Inc. 2613–2621
                      [23] Sutton R S. Learning to predict by the methods of temporal differences. Machine Learning, 1988, 3(1): 9–44
                      [24] Van Seijen H, Van Hasselt H, Whiteson S, Wiering M A. A theoretical and empirical analysis of expected sarsa. In: Proceedings of the 2009 IEEE Symposium Conference on Adaptive Dynamic Programming and Reinforcement Learning. 2009. 177−184
                      [25] Jaleeli N, Vanslyck L S. NERC's new control performance standards. IEEE Transactions on Power Systems, 1999, 14(3): 1091?1099
                      [26] Zhang X S, Yu T, Pan Z N, Yang B, Bao T. Lifelong learning for complementary generation control of interconnected power grids with high-penetration renewables and EVs. IEEE Transactions on Power Systems, 2018, 33(4): 4097?4110 doi:  10.1109/TPWRS.2017.2767318
                      [27] 黃際元. 儲能電池參與電網調頻的優化配置及控制策略研究[博士學位論文]. 湖南大學, 中國, 2015.

                      Huang Ji-Yuan. Study on Optimal Allocation and Control Strategy Design of Battery Energy Storage System for Power Grid Frequency Regulation [Ph.D. dissertation]. Hunan University, China, 2015.
                      [28] Sun Q Y, Huang B N, Li D S, Ma D H, Zhang Y B. Optimal placement of energy storage devices in microgrids via structure preserving energy function, IEEE Transactions on Industrial Informatics, 2016, 12(3): 1166?1179
                      [29] Xu D, Wu Q, Zhou B, Li C, Bai L, Huang S. Distributed multi-energy operation of coupled electricity, heating and natural gas networks, IEEE Transactions on Sustainable Energy, 2019, DOI:  10.1109/TSTE.2019.2961432
                      [30] Yu T, Zhou B, Chan K W, Chen L, Yang B. Stochastic optimal relaxed automatic generation control in non-Markov environment based on multi-step Q (λ) learning. IEEE Transactions on Power Systems, 2011, 26 (3): 1272?1282
                      [31] Sun Q Y, Han R K, Zhang H G, Zhou J G, Guerrero J M. A multi-agent-based consensus algorithm for distributed coordinated control of distributed generators in the energy internet. IEEE Transactions on Smart Grid, 2015, 6(6): 3006?3019 doi:  10.1109/TSG.2015.2412779
                      [32] Saha A K, Chowdhury S, Chowdhury S P, Crossley A. Modelling and simulation of microturbine in islanded and grid-connected mode as distributed energy resource. In: Proceedings of the 2008 IEEE Power and Energy Society General Meeting-Conversion and Delivery of Electrical Energy in the 21st Century. Pittsburgh, PA, USA: IEEE, 2008. 1?7
                      [33] Zhang X S, Li Q, Yu T, Yang B. Consensus transfer Q-learning for decentralized generation command dispatch based on virtual generation tribe. IEEE Transactions on Smart Grid, 2018, 9(3): 2152?2165
                    • [1] 金哲豪, 劉安東, 俞立. 基于GPR和深度強化學習的分層人機協作控制[J]. 自動化學報, 2020, 46(): 1-11. doi: 10.16383/j.aas.c190451
                      [2] 周宏宇, 王小剛, 單永志, 趙亞麗, 崔乃剛. 基于改進粒子群算法的飛行器協同軌跡規劃[J]. 自動化學報, 2020, 46(): 1-7. doi: 10.16383/j.aas.c190865
                      [3] 孫長銀, 穆朝絮. 多智能體深度強化學習的若干關鍵科學問題[J]. 自動化學報, 2020, 46(7): 1301-1312. doi: 10.16383/j.aas.c200159
                      [4] 殷林飛, 陳呂鵬, 余濤, 張孝順. 基于CPSS平行系統懶惰強化學習算法的實時發電調控[J]. 自動化學報, 2019, 45(4): 706-719. doi: 10.16383/j.aas.c180215
                      [5] 唐昊, 劉暢, 楊明, 湯必強, 許丹, 呂凱. 考慮電網調峰需求的工業園區主動配電系統調度學習優化[J]. 自動化學報, 2019, 45(): 1-15. doi: 10.16383/j.aas.c190079
                      [6] 劉乃軍, 魯濤, 蔡瑩皓, 王碩. 機器人操作技能學習方法綜述[J]. 自動化學報, 2019, 45(3): 458-470. doi: 10.16383/j.aas.c180076
                      [7] 張耀中, 胡小方, 周躍, 段書凱. 基于多層憶阻脈沖神經網絡的強化學習及應用[J]. 自動化學報, 2019, 45(8): 1536-1547. doi: 10.16383/j.aas.c180685
                      [8] 袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法[J]. 自動化學報, 2019, 45(): 1-15. doi: 10.16383/j.aas.c190348
                      [9] 張一珂, 張鵬遠, 顏永紅. 基于對抗訓練策略的語言模型數據增強技術[J]. 自動化學報, 2018, 44(5): 891-900. doi: 10.16383/j.aas.2018.c170464
                      [10] 徐茂鑫, 張孝順, 余濤. 遷移蜂群優化算法及其在無功優化中的應用[J]. 自動化學報, 2017, 43(1): 83-93. doi: 10.16383/j.aas.2017.c150791
                      [11] 田淵棟. 阿法狗圍棋系統的簡要分析[J]. 自動化學報, 2016, 42(5): 671-675. doi: 10.16383/j.aas.2016.y000001
                      [12] 陳興國, 俞揚. 強化學習及其在電腦圍棋中的應用[J]. 自動化學報, 2016, 42(5): 685-695. doi: 10.16383/j.aas.2016.y000003
                      [13] 劉德榮, 李宏亮, 王鼎. 基于數據的自學習優化控制:研究進展與展望[J]. 自動化學報, 2013, 39(11): 1858-1870. doi: 10.3724/SP.J.1004.2013.01858
                      [14] 程玉虎, 馮渙婷, 王雪松. 基于參數探索的期望最大化策略搜索[J]. 自動化學報, 2012, 38(1): 38-45. doi: 10.3724/SP.J.1004.2012.00038
                      [15] 朱美強, 程玉虎, 李明, 王雪松, 馮渙婷. 一類基于譜方法的強化學習混合遷移算法[J]. 自動化學報, 2012, 38(11): 1765-1776. doi: 10.3724/SP.J.1004.2012.01765
                      [16] 程玉虎, 馮渙婷, 王雪松. 基于狀態-動作圖測地高斯基的策略迭代強化學習[J]. 自動化學報, 2011, 37(1): 44-51. doi: 10.3724/SP.J.1004.2011.00044
                      [17] 王雪松, 田西蘭, 程玉虎, 易建強. 基于協同最小二乘支持向量機的Q學習[J]. 自動化學報, 2009, 35(2): 214-219. doi: 10.3724/SP.J.1004.2009.00214
                      [18] 江琦, 奚宏生, 殷保群. 動態電源管理的隨機切換模型與在線優化[J]. 自動化學報, 2007, 33(1): 66-71. doi: 10.1360/aas-007-0066
                      [19] 高陽, 陳世福, 陸鑫. 強化學習研究綜述[J]. 自動化學報, 2004, 30(1): 86-100.
                      [20] 胡光華, 吳滄浦. 平均準則問題的即時差分學習算法[J]. 自動化學報, 2000, 26(4): 533-536.
                    • 加載中
                    圖(11) / 表(2)
                    計量
                    • 文章訪問數:  213
                    • HTML全文瀏覽量:  85
                    • PDF下載量:  78
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2020-03-05
                    • 錄用日期:  2020-04-27
                    • 網絡出版日期:  2020-09-28
                    • 刊出日期:  2020-09-28

                    分布式多區域多能微網群協同AGC算法

                    doi: 10.16383/j.aas.c200105
                      基金項目:  國家自然科學基金(51707102)資助
                      作者簡介:

                      三峽大學副教授. 2016年于華南理工大學獲得博士學位. 主要研究方向為電力系統運行與控制, 自動發電控制, 智能控制方法. 本文通信作者. E-mail: xilei2014@163.com

                      三峽大學碩士研究生. 主要研究方向為自動發電控制. E-mail: zlp197@126.com

                    摘要: 綜合能源多區域協同是電網發展趨勢, 而核心問題是采用何種方法對多區域進行協同. 本文基于Q ( $\sigma $ )融入了資格跡及雙重Q學習, 提出一種面向多區域多能微網群的多智能體協同控制算法, 即DQ ( $\sigma ,\lambda $ ), 避免傳統強化學習動作探索值高估的同時, 來獲取分布式多區域的協同. 通過對改進的IEEE兩區域負荷頻率控制模型及三區域多能微網群自動發電控制(Automatic generation control, AGC)模型仿真, 結果表明, 與傳統方法相比, 所提算法具有快速收斂性和更優動態性能, 能獲得分布式多區域多能微網群的協同.

                    English Abstract

                    席磊, 周禮鵬. 分布式多區域多能微網群協同 AGC算法. 自動化學報, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    引用本文: 席磊, 周禮鵬. 分布式多區域多能微網群協同 AGC算法. 自動化學報, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    Xi Lei, Zhou Li-Peng. Coordinated AGC algorithm for distributed multi-region multi-energy micro-network group. Acta Automatica Sinica, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    Citation: Xi Lei, Zhou Li-Peng. Coordinated AGC algorithm for distributed multi-region multi-energy micro-network group. Acta Automatica Sinica, 2020, 46(9): 1818?1830. doi: 10.16383/j.aas.c200105
                    • 發展新能源能夠解決化石燃料燃燒引起的環境惡化問題, 集成了源、荷、氣、熱、儲等多種分布式能源[1]的綜合能源系統[2-3]勢在必行, 但規?;姆植际叫履茉床⒕W將帶來強隨機擾動, 以及由于傳統機組慣性降低、缺乏輔助頻率支持、調頻容量不足等引起的頻率失穩問題[4], 給現代電力系統的運行和控制提出了新的挑戰. 因此, 本文從自動發電控制(Automatic generation control, AGC)角度面向多區域多能微網群提出一種新的頻率控制方法以實現多區域協同控制.

                      當前AGC控制方法主要分為傳統解析式和機器學習兩大類. 基于傳統解析式的控制方法, 以PID控制方法為代表[5-6]. 文獻[7]提出了基于灰狼優化算法的分數階PID控制器參數優化整定方案, 解決了網絡化時滯互聯電網的負荷頻率控制(Load frequency control, LFC)問題. 文獻[8]提出了一種基于社會學習自適應細菌覓食算法的最優PI/PID控制器設計方法, 以解決互聯電網AGC控制器參數優化整定問題. 文獻[9]提出了基于隨機帝國競爭算法的級聯模糊分數階CFFOPI–FOPID控制器, 以解決AGC問題. 傳統控制方法主要根據區域控制偏差誤差(Area control error, ACE)單一化地確定總調節功率, 控制機組出力. 然而電力系統新形態下區域間互動變化靈活, 需要根據長期歷史數據進行學習、分析、存儲, 以對多區域進行協同控制[10].

                      隨著人工智能的崛起, 一些學者將人工智能方法應用于AGC, 試圖解決上述問題. 基于人工智能的強化學習能夠通過與環境探索試錯積累經驗分析獲取最優策略, 機器學習體系應用在AGC, 尤以基于強化學習的Q學習應用最為廣泛. 文獻[11]基于Q學習提出了一種改進的極限Q學習算法, 對微電網的下垂控制進行參數整定, 從而實現頻率調節與經濟調度的一體化. 文獻[12]提出了一種孤島運行模式下基于平均報酬模型的多步R( $\lambda $ )算法的AGC控制器, 以實現對微電網的智能發電控制與頻率調整. 文獻[13]提出了一種基于模型預測控制的孤島微電網頻率二次控制策略, 以解決不確定延時對系統頻率的影響, 并采用小信號模型和參與因子分析系統的穩定性. 然而上述文獻為單區域模型, 同樣算法也為單智能體算法, 這種無多區域協同的模式, 可等效看作“集中式”控制, 無法滿足日益發展的綜合能源模式下分布式多區域協同發展趨勢.

                      多智能體強化學習是解決多智能體系統問題的一種有效方法, 而協作多智能體強化學習專注于解決協作問題. 協作多智能體強化學習與分布式優化有非常密切的聯系, 因此求解分布式優化的高效最優化方法可以引入求解協作多智能體強化學習問題[14]. 文獻[15]針對多區域互聯微網系統, 結合線性自抗擾控制算法和基于原對偶梯度算法的多智能體系統, 提出了一種新的分布式優化控制算法, 有效地結合系統動態特性與優化過程解決負荷頻率控制問題. 文獻[16]在微網分層控制結構的框架下, 提出多智能體自適應控制算法, 使頻率恢復額定值, 且有功功率按各分布式電源的額定功率比例分配. 文獻[17]在Q學習基礎上提出了一種面向混合交互環境的基于多智能體系統(Multi-agent system, MAS)和元胞自動機的微網分布式協調自趨優控制策略, 調節微源的有功和無功出力及系統頻率. 文獻[18]提出一種基于多智能體微電網控制框架的多智能體協作學習算法, 有效管理微網中的微電源促使微網協調控制. 文獻[19]面向分布式能源提出一種基于虛擬狼群控制策略的分層分布式控制—PDWoLF-PHC ( $\lambda $ ), 算法中融入資格跡[20], 能夠解決算法的時間信度分配問題, 以提高算法收斂速度, 進而來獲得區域的最優控制. 然而上述的控制算法均為基于傳統強化學習算法, 此類算法在隨機環境中容易出現動作值在探索過程中的“高估”現象, 會導致決策質量低. 且上述算法均屬于離策略, 其面臨的主要問題是離策略算法難以收斂、收斂速度慢以及收斂精度低.

                      因此, 為解決上述問題, 通過引入參數 $\sigma $ 統一離策略與在策略的優缺點, 提出了基于“將各種看似不同的算法思想聯合統一以產生更好的算法”思想的Q $(\sigma) $ 算法[21]. 為解決隨機環境中傳統強化學習算法的高估動作值, 提高算法收斂速度, 以實現多區域電力系統協同控制, 本文根據協作多智能體強化學習在Q $(\sigma) $ 算法基礎上融入資格跡與雙重學習[22], 提出了一種基于多步統一強化學習的多智能體協同DQ $(\sigma ,\lambda)$ 控制算法. 算法中固有的偏差與方差權衡主要取決于參數 $\sigma, $ $\sigma=0 $ 時, DQ $(\sigma,\lambda )$ 處于全采樣Double Q $(\lambda) $ 算法; 當 $\sigma=1 $ 時, DQ $(\sigma ,\lambda)$ 處于純期望Double Expected-Sarsa $(\lambda )$ 算法; 當 $\sigma=0.5 $ 時, DQ $(\sigma ,\lambda)$ 處于采樣和期望的混合算法. 通過對改進的IEEE標準兩區域負荷頻率控制模型以及分布式三區域多能微網AGC模型進行仿真, 驗證所提算法的有效性.

                      • 由于傳統強化學習過度追求長期折扣回報獎勵最大, 在策略往往選擇對應最大Q值的動作, 使策略探索過程出現動作值的高估, 進而產生累積高偏差, 影響智能體學習到最優策略. 為此, 本文根據協作多智能體強化學習在Q( $\sigma$ )算法基礎上, 融入了資格跡及雙重學習, 進而提出一種新型DQ( $\sigma,\lambda $ ), 通過解決傳統強化學探索過程中動作值高估問題, 進而獲得分布式多區域多能微網群的協同控制.

                      • 時間差分學習(Temporal-difference learning, TD)[23]是無模型強化學習中最重要的策略之一, TD方法結合了蒙特卡羅方法和動態規劃的優點, 適用于無模型、持續進行的任務. 常見TD有Q、Sarsa、Expected-Sarsa[24]等, 其中Q學習應用最廣泛. 同樣, 文獻[21]通過引入采樣參數 $\sigma $ , 統一了Sarsa算法(全采樣)和Expected-Sarsa算法(純期望), 提出了一種統一在策略與離策略的TD算法, 即Q ( $\sigma $ ).其中, 離策略和在策略主要區別是在策略一般只有一個策略(常用 $\varepsilon $ 貪婪策略). 而離策略一般有兩個策略, 行為策略(常用 $\varepsilon $ 貪婪策略)用于選擇新的動作, 目標策略(常用Max貪婪法)用于更新價值函數. 本文所有提及算法所涉及策略均為上述常用策略.

                        Sarsa是一種經典的在策略TD算法, 它將動作值函數作為其估計值, 而非狀態值函數. 特別地, 對于在策略算法, 其必須根據當前行為策略與所有狀態動作估算最優Q值. Sarsa算法至始至終只使用 $\varepsilon $ 貪婪策略更新價值函數和選擇新的動作, 其更新方式如下:

                        $$\qquad\qquad {Q_{k + 1}}(s,a) = {Q_k}(s,a) + \alpha \delta _k^s$$ (1)
                        $$ \delta _k^s = {R_{k + 1}} + \gamma {Q_k}({s_{k + 1}},{a_{{\rm{k}} + 1}}) - {Q_k}({s_k},{a_k}) $$ (2)

                        其中, ${R_{k + 1}} + \gamma {Q_k}({s_{k + 1}},{a_{{\rm{k}} + 1}})$ 稱為TD目標, 獎勵加上下一個狀態和下一個動作的折扣值組成.

                        Expected-Sarsa作為一種離策略學習算法, 可將Q學習算法推廣到任意目標政策, 根據目標策略利用下一個狀態?動作值對的期望值進行Q值估算:

                        $${Q_{k + 1}}(s,a) = {Q_k}(s,a) + \alpha \delta _k^{es}\qquad\qquad\qquad\qquad$$ (3)
                        $$\begin{split} \delta _k^{es} = &\;{R_{k + 1}} +\gamma \displaystyle\sum\limits_{a \in A} \pi ({s_{k + 1}},a){Q_k}({s_{k + 1}},a) -\\ &\; {Q_k}({s_k},{a_k})\\[-14pt] \end{split}\quad \qquad $$ (4)

                        其中, $\delta _k^{es}$ 是第k個預期TD誤差. 雖然Expected-Sarsa在計算上比Sarsa更復雜, 但作為回報, 它消除了由于下一個動作隨機選擇而產生的方差. 當經歷相同的探索經驗, Expected-Sarsa的表現優于Sarsa. 此外, 在步長參數 $\alpha $ 的取值范圍內, Expected-Sarsa表現比Sarsa有顯著改善.

                        $0<\sigma<1 $ 時, 性能優于 $\sigma =0$ 或1極端情況, 故Q ( $\sigma $ )算法是通過采樣參數 $\sigma $ 在Sarsa ( $\sigma=1 $ , 全采樣)更新和Expected-Sarsa ( $\sigma=0, $ 純期望)更新之間進行線性加權:

                        $${Q_{k + 1}}(s,a) = {Q_k}(s,a) + \alpha \delta _k^\sigma \qquad\qquad\qquad\qquad\;\;$$ (5)
                        $$ \begin{split} \delta _k^\sigma = &{R_{k + 1}} + \gamma [\sigma {Q_k}({s_{k + 1}},{a_{k + 1}}) + \\ &(1 - \sigma )\displaystyle\sum\limits_{a \in A} {\pi ({s_{k + 1}},a){Q_k}({s_{k + 1}},a)] - {Q_k}({s_k},{a_k})} \\ \end{split} $$ (6)

                        式中, $\delta _k^\sigma $ 是經參數 $\sigma $ 加權后的TD誤差.

                      • 以離散時間馬爾科夫決策過程為數學基礎, 基于Q ( $\sigma $ )算法并融入資格跡, 提出了一種新穎的快速多步算法Q ( $\sigma ,\lambda$ ), 以解決Q ( $\sigma $ )的時間信度分配問題, 進而可提高AGC機組功率調節快速性. 其TD目標是Sarsa和Expected-Sarsa的加權, 其中參數 $\sigma $ 為控制權重. 當 $\sigma =0$ 時, Q ( $\sigma ,\lambda$ )的目標等于Q ( $\lambda $ )目標, 因此資格跡更新減少到標準累積資格跡更新. 當 $\sigma=1 $ 時, Q ( $\sigma,\lambda $ )的目標等于Expected-Sarsa ( $\lambda $ )目標, 資格跡是目標策略當前動作概率的線性加權. 資格跡更新方式為

                        $$ \begin{split} {e_k}&(s,a) =\; \gamma \lambda {e_{k - 1}} (s,a)\times\\ &[\sigma + (1 - \sigma )\pi ({a_{k + 1}}|{s_{k + 1}})] + 1, \\ & \quad \quad\quad\quad\quad\quad{Q_{k - 1}}({s_k},{a_k}) = {\max _a}{Q_{k - 1}}({s_k},a) \end{split} $$ (7)
                        $$ \begin{split} {e_k}& (s,a) =\;\gamma \lambda {e_{k - 1}}(s,a)\times\\ &\;[\sigma + (1 - \sigma )\pi ({a_{k + 1}}|{s_{k + 1}})],\quad\quad\quad\quad\quad\quad\! {\text{其他}} \end{split} $$ (8)

                        Q( $\sigma,\lambda $ )的迭代更新式為

                        $$ {Q_k}({s_k},{a_k}) = {Q_k}({s_k},{a_k}) + \alpha \delta _k^\sigma {e_k}(s,a) $$ (9)

                        同時, 為了解決本文的核心問題, 即策略探索過程中動作值高估問題, 在Q ( $\sigma ,\lambda$ )的基礎上采用去耦“動作選擇”和“動作評估”相結合的雙重學習, 進而形成Double Q ( $\sigma,\lambda $ ), 下面簡稱DQ ( $\sigma,\lambda $ ). 本文中使用兩個不同的值函數 ${Q_A}$ ${Q_B}$ 替代單一值函數 $Q$ , 對 ${Q_A} + {Q_B}$ 使用行為策略并對動作進行采樣, 在每次迭代中隨機更新值函數 ${Q_A}$ ${Q_B}$ :

                        $$ {Q_A}({s_k},{a_k}) = {Q_A}({s_k},{a_k}) + \alpha \delta _k^A{e_k}(s,a) $$ (10)
                        $$ {Q_B}({s_k},{a_k}) = {Q_B}({s_k},{a_k}) + \alpha \delta _k^B{e_k}(s,a) $$ (11)

                        當更新 ${Q_A}$ ${Q_B}$ 時, DQ ( $\sigma ,\lambda$ )的TD誤差則按以下方式進行更新:

                        $$ \begin{split} \delta _k^A = &\;{R_{k + 1}} + \gamma [\sigma {Q_B}({s_{k + 1}},{a_{k + 1}}) +\\ & \; \displaystyle\sum\limits_a {\pi (a|{s_{k + 1}}){Q_B}({s_{k + 1}},a)] - {Q_A}({s_k},{a_k})} \\ \end{split} $$ (12)
                        $$ \begin{split} \delta _k^B = &\;{R_{k + 1}} + \gamma [\sigma {Q_A}({s_{k + 1}},{a_{k + 1}}) +\\ &\; \displaystyle\sum\limits_a {\pi (a|{s_{k + 1}}){Q_A}({s_{k + 1}},a)] - {Q_B}({s_k},{a_k})} \\ \end{split} $$ (13)

                        其中, $\delta _k^A$ 為更新時 ${Q_A}$ 產生的TD誤差, $\delta _k^B$ 為更新 ${Q_B}$ 時產生的TD誤差, $\gamma $ 為折扣因子 $\pi (a|{s_{k + 1}})$ 是將狀態映射到動作概率的動作函數.

                      • 基于DQ ( $\sigma,\lambda $ )的多能微網群分布式多區域多智能體協同控制架構如圖1所示, 智能體全面感知源?網?荷?儲設備運行信息. 對于多區域互聯電網聯絡線和頻率偏差模式下的AGC, 國內外常用的評估方法是北美電力可靠性委員會提出的CPS標準[25].

                        圖  1  多能微網群多區域協同控制架構

                        Figure 1.  Multi-energy microgrid group multi-region cooperative control architecture

                      • 本文將以CPS、ACE、頻率偏差作為綜合目標函數以獲取最優AGC機組出力, 進而在最優AGC控制策略下達到系統功率平衡. 基于DQ ( $\sigma,\lambda $ )的AGC控制器某i區域的綜合獎勵函數表示為

                        $$ {R_i}(k) = {\tau _i},\;\;\;\;{\tau _i} \ge 0,\;\;\;{C_{\rm{CPS}1}}_i(k) \ge 200\quad\quad\quad $$ (14)
                        $$ \begin{split} {R_i}(k) = &\; - \{ {\omega _{1i}}{[{E_{{{\rm{ACE}}i}}}(k) - E_{{{\rm{ACE}}i}}^*]^2} +\\ &\; {\mu _{1i}}{[{a_{{{\rm{ord}}} - i}}(k) - a_{{\rm{{ord}}} - i}^*]^2}\} ,\\ &\quad\quad\quad\quad\quad\quad\quad{C_{{{\rm{CPS}}}1i}}(k) \in [100,200) \end{split} $$ (15)
                        $$ \begin{split} {R_i}(k) = & - \{ {\omega _{2i}}{[{C_{{{\rm{CPS}}}1i}}(k) - C_{{{\rm{CPS}}}1i}^*]^2} + \\ & {\mu _{2i}}{[{a_{{{\rm{ord}}} - i}}(k) - a_{{{\rm{ord}}} - i}^*]^2}\} ,\\ &\quad\quad\quad\quad\quad\quad\quad\quad\quad\;{C_{{{\rm{CPS}}}1i}}(k) < 100 \end{split} $$ (16)

                        其中, ${\tau _i}$ 為任意非負數, 本文取0; ${C_{{\rm{{CPS}}}1i}} \;(k)$ ${E_{{\rm{{ACE}}}i}}\; (k)$ 分別為CPS1和ACE在第k步迭代時刻的瞬時值; ${a_{{\rm{{ord}}} - i}}\;(k)$ k時刻的控制動作集A的指針; $a_{{{\rm{ord}}} - i}^*$ 即功率控制動作為0時的指針, 引入動作變化項, 是為了限制控制器輸出功率指令頻繁大幅度升降引起的系統振蕩和經濟代價; ${\omega _{1i}},{\omega _{2i}}$ ${\mu _{1i}},{\mu _{2i}}$ 分別為狀態輸入和控制動作的優化權值, 相當于線性二次型調節器控制性能指標中的Q和R權值參數[26]; $C_{{{\rm{CPS}}}1i}^*$ 為CPS1指標控制期望值; ${\rm{E}}_{{{\rm{ACE}}}i}^*$ 為ACE控制期望值.

                      • AGC控制系統的設計需要對系統參數進行合理的設置, 其中:

                        1)學習率 $\alpha \;(0 < \alpha<1),\alpha$ 表示要給改善的算法更新部分多少信任度, 較大的 $\alpha $ 值會加快DQ $(\sigma,\lambda) $ 算法的收斂速度, 而較小的 $\alpha $ 值能保證控制器的搜索空間, 從而提高DQ ( $\sigma,\lambda $ )算法收斂的穩定性, 本文 $\alpha $ 取為0.1.

                        2)折扣因子 $\gamma $ (0< $\gamma $ <1), 函數的未來獎勵的衰減值, 當 $\gamma $ 趨向于1時, 考慮長期獎勵, 當 $\gamma $ 趨近于零時, 只能看到當前獎勵. 本文 $\gamma $ 取為0.9.

                        3)資格跡衰退系數 $\lambda $ (0< $\lambda$ <1), 其主要作用是在狀態?動作對中分配信譽, 影響收斂速度, 本文 $\lambda $ 取為0.95.

                        4)控制采樣權重 $\sigma $ (0< $\sigma $ <1), 具有中等 $\sigma $ 的Q ( $\sigma $ )可以勝過Double Q ( $\lambda $ )、Double Expected Sarsa ( $\lambda $ )和Double Sarsa ( $\lambda $ )算法. 本文參數 $\sigma $ 取為0.5.

                        5)探索率 $\varepsilon $ (0< $\varepsilon$ <1), 策略以1? $\varepsilon $ 的概率選擇當前最大值的動作, 以 $\varepsilon $ 的概率隨機選擇新動作. 本文仿真預學習時 $\varepsilon $ 取0.5, 在線運行時 $\varepsilon $ 取0.9. DQ ( $\sigma,\lambda$ )的算法流程如圖2所示.

                        圖  2  DQ ( $\sigma,\lambda $ )的算法流程

                        Figure 2.  Algorithm flow of DQ ( $\sigma,\lambda$ )

                      • 將電池儲能系統(Battery energy storage system, BESS)[27-28] (如圖3)融入IEEE標準兩區域負荷頻率控制模型[29], 改進后的模型如圖4所示. 其中, Pref 為儲能系統目標指令; Preq為經過并網能量轉換系統和響應延時后的功率需求; TPCS、TDB分別為并網能量轉換環節和響應延時?時間轉換環節的時間常數; Ts為仿真時間與實際時間關系的轉換系數; $P′_{\rm{BESS}} $ , PBESS, SSOC分別為經過電池儲能電源后的有功功率、實際的有功功率、荷電狀態; KT為積分電量計算時間常數, 其值與仿真時間步長相關; EB為儲能系統額定容量; SSOCinit為儲能荷電狀態初始值; f (SSOC)描述了儲能輸出功率與荷電狀態的映射關系. Bi為各區域的頻率偏差因子, ${\Delta}{P_G}$ 為發電機輸出功率, Tg為調速器時間常數, Tt為汽輪機組時間常數, Tp為頻率響應等效函數系數, Ts為二次時間延時, Kp為頻率響應等效函數系數, T12為聯絡線時間常數, ${\Delta}{P_{tie}}$ 為聯絡線交換功率. 采樣周期為4 s, TPCS = 0.01 s, TDB = 0 s, Ts = 1 s; 荷電狀態限幅環節的控制區間為(10, 90); 荷電狀態理想運行區間設定為[30, 70], 仿真初始儲能荷電狀態為50%.

                        圖  3  BESS仿真模型

                        Figure 3.  BESS simulation model

                        圖  4  改進的IEEE標準兩區域負荷頻率控制模型

                        Figure 4.  Improved IEEE standard two-area load frequency control model

                        在線運行之前, DQ ( $\sigma,\lambda $ )需進行充分的預學習, 即通過隨機探索試錯訓練, 使控制器收斂于最優策略 ${{\pi}^*}$ , 再投入到真實仿真環境參與在線優化運行. 而對于多能微網群的控制性能, 可通過CPS、聯絡線交換功率偏差Ptie、頻率偏差 ${\Delta}{f}$ (合格范圍±( $0.05\sim 0.2 $ ) Hz)進行評估. 為兼顧互聯區域的頻率穩定性和本區域的經濟性, 取CPS1接近而不是大于200%為最優. CPS標準具體如下:

                        1) 若CPS1≥ 200%, 且CPS2為任意值, CPS指標合格;

                        2) 若100% ≤ CPS1< 200%, 且CPS2 ≥ 90%, CPS指標合格;

                        3) 若CPS1< 100%, CPS指標不合格.

                      • 在預學習階段, 引入正弦負荷擾動(周期1 200 s, 幅值1 000 kW, 時長10 000 s), 對DQ $(\sigma,\lambda) $ 進行訓練探索使其收斂于最優策略. 圖5給出了DQ $(\sigma,\lambda) $ 控制器負荷擾動下兩區域預學習性能指標, 由圖5(a)可見兩區域DQ $(\sigma,\lambda) $ 控制器在2 000 s以內基本可以跟蹤負荷擾動曲線. 圖5(b)為聯絡線交換功率偏差變化曲線, 兩區域Ptie (交換功率偏差絕對值的平均值)為1.2255 kW. 圖5(c)是擾動下的頻率變化曲線, 兩區域的 ${\Delta}f_{\rm{{max}}}$ (最大頻率偏差)分別為0.049 Hz和0.055 Hz, 遠小于實際工程要求0.2 Hz, 可見控制器具有較強的穩定性. 圖5(d)為兩區域EAVE-10-min (10 min ACE的平均值)的學習曲線, 其值分別為1.7214 kW、1.9864 kW, ACE的10 min考核指標值始終保持在2 kW (2‰)以內. 圖5(e)A、B兩區域CPS1AVE-10-min (10 min CPS1的平均值)在學習過程的變化曲線, A、B區域的CPS1AVE-10-min分別是199.4934%、199.2681%, CPS1的10 min考核指標值保持在185%以上.

                        圖  5  兩區域預學習效果及收斂效果

                        Figure 5.  Pre-learning and convergence effect in two area

                        另外, 在最優策略中, 選擇2范數 $| | {Q_k}\left( {s,{\rm{ }}a} \right) ?$ ${Q_{k - 1}}\left ( {s,{\rm{ }}a} \right) | |^2 \le \varsigma\; (\varsigma =0.0001$ 為指定標準)作為預學習達到最優策略的終止標準[30], 圖5(f)中為預學習期間A區域Q函數差分的收斂結果. DQ ( $\sigma,\lambda $ )收斂于第255步(仿真步長為4, 即預學習需1004 s). 基于全球微波互聯無線通信技術, 每次信息傳輸和迭代計算所需時間為1 ms, 即系統的調節時間為 1.004 s, 滿足實際電網AGC系統4 s的時間尺度要求. 圖5(g)為引入Q, Q $(\lambda), $ Q $(\sigma ),$ PDWoLF-PHC $(\lambda )$ 智能算法的對比收斂效果, 由圖可知DQ ( $\sigma,\lambda $ )算法可提高收斂速度93.92% $\sim $ 98.98%. 綜上表明, 在經過大量的訓練探索后, DQ ( $\sigma,\lambda $ )控制器已逼近確定性最優CPS控制策略, 可將DQ( $\sigma,\lambda $ )控制器投入真實環境運行.

                      • 在線運行時, 對兩區域模型引入階躍負荷擾動, 模擬大規模隨機擾動情況. 對Q, Q ( $\lambda $ ), Q ( $\sigma $ ), PDWoLF-PHC( $\lambda $ ), DQ ( $\sigma,\lambda $ )五種算法的控制器引入了時長9 000 s、幅值1 000 kW的階躍負荷擾動進行仿真對比分析. 圖6A區域分別基于5種智能算法的AGC控制器的控制性能指標, 圖6(a)是聯絡線交換功率偏差變化曲線, 各算法Ptie分別為9.7430 kW、1.5367 kW、0.6725 kW、0.6296 kW、0.4514 kW, DQ ( $\sigma,\lambda $ )控制器所產生的交換功率偏差最小. 圖6(b)是5種算法頻率變化曲線對比效果圖, 各算法| ${\Delta}{f}|$ 分別為0.0047 Hz、0.0016 Hz、0.0014 Hz、0.0014 Hz、0.0008 Hz, 相較于其他算法, DQ ( $\sigma,\lambda $ )的| ${\Delta}{f}|$ 降低了42.85% $\sim $ 82.97%. 圖6(c)為10 min ACE的平均值, 各算法值分別為19.8983 kW、4.4539 kW、3.3934 kW、3.4009 kW、2.5961 kW, DQ ( $\sigma,\lambda $ )的ACE降低了23.66% $\sim $ 86.95%. 圖6(d)為10 min CPS1的平均值變化曲線, 5種算法值分別是199.4404%、199.8431%、199.8849%、199.8998%、199.9122%, DQ ( $\sigma ,\lambda$ )的CPS1提高了0.0062% $\sim $ 0.2365%.

                        圖  6  階躍負荷擾動下不同算法的性能指標

                        Figure 6.  Performance index of different algorithms under step load disturbance

                        為考慮更加實際的運行情況, 進一步驗證所提算法的控制性能. 通過引入隨機白噪聲(噪聲功率: 10000 kW; 檢測周期: 60 s; seed: 23341)作為負荷擾動, 模擬接入未知的分布式新能源的隨機負荷擾動情況, 以5小時的負荷擾動為考核周期, 測試DQ ( $\sigma,\lambda $ )、PDWoLF-PHC ( $\lambda $ )、Q ( $\sigma $ )、Q ( $\lambda $ )、Q等5種控制器的性能. 圖7為上述5種智能算法在A區域的各項性能考核指標, DQ ( $\sigma,\lambda $ )能降低|Δf | 28.17% $\sim $ 57.73%, 減少|ACE| 6.63% $\sim $ 33.85%. 仿真結果表明, DQ ( $\sigma,\lambda $ )在能源出力不確定、負荷隨機波動的情況下仍然能保持穩定的控制效果.

                        圖  7  隨機白噪聲擾動下不同算法的控制性能

                        Figure 7.  Control performance of different algorithms under stochastic white noise disturbance

                      • 綜合能源系統作為能源互聯網的物理載體, 能夠利用其多能互補的優勢, 對不同類型的能源進行協調管理和分配, 在滿足用戶多種能源需求的同時, 進一步減少溫室氣體排放、提高能源綜合利用率和降低能源供應成本. 在傳統模式下, 多區域綜合能源系統由于地理位置分散, 往往都是獨立運行, 彼此間缺乏協調控制, 容易存在資源配置不合理等問題.

                        因此, 本文搭建了融入大量新能源的分布式多區域(以3區域為例)多能微網群協同AGC模型, 以驗證DQ ( $\sigma,\lambda $ )的實際工程應用效果. 模型中包括光伏、風電、小水電、微型燃氣輪機、柴油發電機儲、生物質能、燃料電池[31-33], 其拓撲結構如圖8, 模型參數如表1. 其中Area 1和Area 3模型參數和機組參數相同, 3區域的調節功率分別為2 350 kW、2 590 kW和1 840 kW, 表2為AGC機組的參數. 其中, 光伏發電、風電和電動汽車不參與系統調頻, 僅作負荷擾動處理.

                        表 1  模型傳遞函數的參數

                        Table 1.  Parameters of the model transfer function

                        機組 參數 數值
                        小水電機組 二次時延TSH 3
                        伺機電動機時間常數TP 0.04
                        伺機增益KS 5
                        永態轉差系數RP 1
                        復位時間TR 0.3
                        暫態轉差系數RT 1
                        閘門最大開啟率Rmaxopen/(pu/s) 0.16
                        閘門最大關閉率Rmaxclose/(pu/s) 0.16
                        機組啟動時間TWH 1
                        生物發電機組 二次時延TSB 10
                        調速器的時間常數TGB 0.08
                        蒸汽啟動時間TWB 5
                        機械啟動時間TMB 0.3
                        微型燃氣輪機機組 二次時延TSM 5
                        燃油系統滯后時間常數T1 0.8
                        燃油系統滯后時間常數T2 0.3
                        負荷限制時間常數T3 3
                        溫度控制環路增益KT 1
                        負荷限制Lmax 1.2
                        燃料電池機組 二次時延TSF 2
                        調速器的時間常數TF 10.056
                        逆變器增益KF 9.205
                        柴油發電儲能機組 二次時延TSD 7
                        調速器的時間常數TGD 2
                        蒸汽啟動時間TWF 1
                        機械啟動時間TMD 3

                        表 2  AGC機組參數

                        Table 2.  AGC unit parameters

                        區域 類型 機組序號 $\Delta P_{\rm{in}}^{\max }$
                        (kW/s)
                        $\Delta P_{\rm{in}}^{\min }$
                        (kW/s)
                        $\Delta P_{\rm{in}}^{\rm{rate }+ }$
                        (kW/s)
                        $\Delta P_{\rm{in}}^{\rm{rate} - }$
                        (kW/s)
                        區域1和區域3 小水電 G1 250 ? 250 15 ? 15
                        G2 250 ? 250 15 ? 15
                        G3 150 ? 150 8 ? 8
                        G4 150 ? 150 8 ? 8
                        G5 150 ? 150 8 ? 8
                        G6 100 ? 100 7 ? 7
                        G7 100 ? 100 7 ? 7
                        微型燃氣輪機 G8 100 ? 100 1.2 ? 1.2
                        G9 100 ? 100 1.2 ? 1.2
                        G10 150 ? 150 1.8 ? 1.8
                        G11 150 ? 150 1.8 ? 1.8
                        燃料電池 G12 200 ? 200 7 ? 7
                        G13 200 ? 200 7 ? 7
                        G14 150 ? 150 6 ? 6
                        G15 150 ? 150 6 ? 6
                        區域2 小水電 G1 250 ? 250 15 ? 15
                        G2 250 ? 250 15 ? 15
                        G3 150 ? 150 8 ? 8
                        G4 150 ? 150 8 ? 8
                        G5 150 ? 150 8 ? 8
                        G6 100 ? 100 7 ? 7
                        柴油發電機儲 G7 250 ? 250 2 ? 2
                        G8 250 ? 250 2 ? 2
                        G9 120 ? 120 1 ? 1
                        G10 120 ? 120 1 ? 1
                        生物質能 G11 200 ? 200 3 ? 3
                        G12 200 ? 200 3 ? 3
                        G13 200 ? 200 3 ? 3
                        G14 200 ? 200 3 ? 3

                        圖  8  分布式3區域多能微網群協同AGC模型

                        Figure 8.  Coordinated AGC model of a distributed three-area multi-energy microgrid group

                        考慮到眾多新能源的間歇性和強隨機性, 再通過引入隨機負荷(幅值1000 kW, 周期300 s)信號模擬真實電網環境中所面臨的不確定性, 進行24小時實時仿真, 驗證DQ ( $\sigma,\lambda $ )的實際工程應用效果. 分別針對嵌入了DQ ( $\sigma ,\lambda$ ), PDWoLF-PHC ( $\lambda $ ), Q ( $\sigma $ ), Q ( $\lambda $ ), Q等5種算法的控制器進行仿真. 圖9為各控制器輸出曲線(方便效果對比, 僅截取前2 000 s). 相較其他算法, DQ ( $\sigma,\lambda $ )控制器仿真曲線更加平滑、收斂速度更快; 圖10為頻率曲線, 上述5種算法最大頻率偏差分別為0.17 Hz、0.12 Hz、0.18 Hz、0.17 Hz、0.06 Hz均滿足實際工程要求, 可各控制器A區域24小時|Δf |分別為0.0005 Hz、0.0013 Hz、0.0017 Hz、0.0027 Hz、0.0045 Hz, 對比可知所提算法頻率調整效果最優調整時間更短; 圖11為區域聯絡線功率偏差曲線, Ptie-max (最大聯絡線交換功率偏差)分別為22 kW、108 kW、18 kW、27 kW、99 kW, 除Q ( $\sigma $ )算法, 均能在之后保持在3 kW的范圍內. 此外, A區域24小時的CPS1分別為199.9807%、199.9338%、199.9201%、199.7749%、199.4645%, ACE分別為0.8673 kW、1.6622 kW、2.5792 kW、4.6971 kW、5.6927 kW. 上述指標進一步證明, 相較于其他傳統算法, DQ $(\sigma,\lambda) $ 算法不僅均滿足控制性能標準(如第3.1.1節所述), 能實現各自區域內的電熱功率平衡, 具有最優控制性能, 進而能夠對分布式多區域多能微網群進行協同控制. 同時, 多區域協同控制能夠使區域間能量互補, 有效地緩和儲能設備的運行壓力, 提高了多區域綜合能源系統的靈活性和可靠性, 提高資源的利用率.

                        圖  9  多算法輸出效果

                        Figure 9.  Multi algorithm output effect

                        圖  10  多算法頻率曲線

                        Figure 10.  Multi algorithm frequency curve

                        圖  11  聯絡線交換功率偏差

                        Figure 11.  Exchange power deviation of tie line

                      • 為了對綜合能源模式下的分布式多區域進行協同控制, 本文搭建了融入大量分布式能源的分布式多區域多能微網群協同的AGC模型, 并針對該模型提出了一種多智能體協同的DQ ( $\sigma,\lambda $ )控制算法.

                        所提算法融入了資格跡, 不僅用于解決強化學習的時間信度分配問題, 而且“后向估計”機理提供了一個逼近最優值函數Q*的漸進機制, 可提高AGC機組功率調節快速性; 同時為解決策略探索過程中動作值的高估, 所提算法在Q( $\sigma,\lambda $ )的基礎上采用去耦“動作選擇”和“動作評估”相結合的雙重學習.

                        通過對改進的IEEE標準兩區域負荷頻率控制模型以及分布式3區域多能微網AGC模型進行仿真, 結果顯示, 與其他智能算法相比, 所提算法能提高收斂速度93.92% $\sim $ 98.98%; 在能源出力不確定、負荷隨機波動的情況下, DQ ( $\sigma,\lambda $ ) 仍能保持穩定的控制效果, 區域|Δf|降低61.54% $\sim $ 88.89%、區域聯絡線功率偏差降低18.51% $\sim $ 79.62%、CPS1提高0.023% $\sim $ 0.25%、ACE降低47.82% $\sim $ 84.76%, 能獲得綜合能源模式下分布式多區域協同.

                    參考文獻 (33)

                    目錄

                      /

                      返回文章
                      返回