2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    基于深度強化學習的雙足機器人斜坡步態控制方法

                    吳曉光 劉紹維 楊磊 鄧文強 賈哲恒

                    吳曉光, 劉紹維, 楊磊, 鄧文強, 賈哲恒. 基于深度強化學習的雙足機器人斜坡步態控制方法. 自動化學報, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    引用本文: 吳曉光, 劉紹維, 楊磊, 鄧文強, 賈哲恒. 基于深度強化學習的雙足機器人斜坡步態控制方法. 自動化學報, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    Wu Xiao-Guang, Liu Shao-Wei, Yang Lei, Deng Wen-Qiang, Jia Zhe-Heng. A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning. Acta Automatica Sinica, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    Citation: Wu Xiao-Guang, Liu Shao-Wei, Yang Lei, Deng Wen-Qiang, Jia Zhe-Heng. A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning. Acta Automatica Sinica, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547

                    基于深度強化學習的雙足機器人斜坡步態控制方法


                    DOI: 10.16383/j.aas.c190547
                    詳細信息
                      作者簡介:

                      燕山大學副教授, 2012年獲得哈爾濱工業大學博士學位. 主要研究方向為雙足機器人、三維虛擬視覺重構等E-mail: wuxiaoguang@ysu.edu.cn

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為深度強化學習、雙足機器人. 本文通信作者.E-mail: lwsalpha@outlook.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為雙足機器人穩定性分析.E-mail: 15733513567@163.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為生成對抗網絡、人體運動協調性分析等.E-mail: dengwq24@163.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為人體姿態估計、目標識別、深度學習.E-mail: jiazheheng@163.com

                    • 基金項目:  國家自然科學基金(61503325), 中國博士后科學基金(2015M581316)資助

                    A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning

                    More Information
                    • Fund Project:  Supported by National Natural Science Foundation of China (61503325), China Postdoctoral Science Foundation under Grants (2015M581316)
                    • 摘要: 為提高準被動雙足機器人斜坡步行穩定性, 本文提出了一種基于深度強化學習的準被動雙足機器人步態控制方法. 通過分析準被動雙足機器人的混合動力學模型與穩定行走過程, 建立了狀態空間、動作空間、episode過程與獎勵函數. 在利用基于DDPG改進的Ape-X DPG算法持續學習后, 準被動雙足機器人能在較大斜坡范圍內實現穩定行走. 仿真實驗表明, Ape-X DPG無論是學習能力還是收斂速度均優于基于PER的DDPG. 同時, 相較于能量成型控制, 使用Ape-X DPG的準被動雙足機器人步態收斂更迅速、步態收斂域更大, 證明Ape-X DPG可有效提高準被動雙足機器人的步行穩定性.
                    • 圖  1  機器人模型示意圖

                      Fig.  1  Sketch of the biped model

                      圖  2  被動步行過程

                      Fig.  2  Passive dynamic waking process

                      圖  3  DDPG中神經網絡訓練過程

                      Fig.  3  The neural network training process in DDPG

                      圖  4  APE-X DPG算法結構

                      Fig.  4  The structure of Ape-X DPG

                      圖  5  交互單元n中episode過程

                      Fig.  5  Episode process in interaction unit n

                      圖  6  falls = 0時的獎勵函數空間

                      Fig.  6  Landscape of the reward function when falls = 0

                      圖  7  平均獎勵值曲線

                      Fig.  7  The curve of the average reward

                      圖  8  測試集穩定行走次數

                      Fig.  8  Stable walking times in test

                      圖  9  機器人左腿相空間圖

                      Fig.  9  The phase plane of the right leg

                      圖  10  初始狀態b時機器人行走狀態

                      Fig.  10  Biped walking state in initial state b

                      圖  11  機器人行走過程棍狀圖

                      Fig.  11  The git diagrams of the biped

                      圖  12  機器人物理模型示意圖

                      Fig.  12  Sketch of the biped physical model

                      圖  13  機器人物理仿真

                      Fig.  13  Robot physics simulation

                      圖  14  穩定行走胞數

                      Fig.  14  The number of the state walking

                      圖  15  $ \phi = 0.1 $時機器人步態收斂域

                      Fig.  15  The biped BOA when $ \phi = 0.1 $

                      表  1  機器人符號及無量綱參數

                      Table  1  Symbols and dimensionless default values of biped parameters

                      參數 符號 數值
                      腿長 I 1
                      腿部質心 m1 1
                      髖關節質心 m2 2
                      足半徑 r 0.3
                      腿部質心與圓弧足中心距離 I1 0.55
                      髖關節與圓弧足中心距離 I2 0.7
                      髖關節到腿部質心距離 c 0.15
                      腿部轉動慣量 J1 0.01
                      重力加速度 g 9.8
                      下載: 導出CSV

                      表  2  擾動函數N分配與學習耗時

                      Table  2  Noise function N settings and learning time

                      算法 高斯擾動 O-U擾動 網絡參數擾動[39] 耗時
                      DDPG 0 1 0 6.4 h
                      2交互單元 1 1 0 4.2 h
                      4交互單元 2 1 1 4.2 h
                      6交互單元 2 2 2 4.3 h
                      下載: 導出CSV

                      表  3  機器人初始狀態

                      Table  3  The Initial states of the biped

                      狀態 $\theta_1$ $\dot\theta_1$ $\dot\theta_2$ $\phi$
                      a 0.37149 ?1.24226 2.97253 0.078
                      b 0.24678 ?1.20521 0.15476 0.121
                      下載: 導出CSV
                      360彩票
                    • [1] 田彥濤, 孫中波, 李宏揚, 王靜. 動態雙足機器人的控制與優化研究進展. 自動化學報, 2016, 42(08): 1142?1157

                      1 Tian Yan-Tao, Sun Zhong-Bo, Li Hong-Yang, Wang Jing. A review of optimal and control strategies for dynamic walking bipedal robots. Acta Automatica Sinica, 2016, 42(08): 1142?1157
                      [2] 2 Chin C S, Lin W P. Robust genetic algorithm and fuzzy inference mechanism embedded in a sliding-mode controller for an uncertain underwater robot. IEEE/ASME Transactions on Mechatronics, 2018, 23(2): 655?666 doi:  10.1109/TMECH.2018.2806389
                      [3] 3 Wang Y, Wang S, Wei Q, et al. Development of an Underwater Manipulator and Its Free-Floating Autonomous Operation. IEEE/ASME Transactions on Mechatronics, 2016, 21(2): 815?824 doi:  10.1109/TMECH.2015.2494068
                      [4] 4 Wang Y, Wang S, Tan M, et al. Real-Time Dynamic Dubins-Helix Method for 3-D Trajectory Smoothing. IEEE Transactions on Control Systems Technology, 2015, 23(2): 730?736 doi:  10.1109/TCST.2014.2325904
                      [5] 5 Wang Y, Wang S, Tan M. Path Generation of Autonomous Approach to a Moving Ship for Unmanned Vehicles. IEEE Transactions on Industrial Electronics, 2015, 62(9): 5619?5629 doi:  10.1109/TIE.2015.2405904
                      [6] Ma K Y, Chirarattananon P, Wood R J. Design and fabrication of an insect-scale flying robot for control autonomy. In: 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg: IEEE, 2015, 1558−1564.
                      [7] 7 McGeer T. Passive Dynamic Walking. The International Journal of Robotics Research, 1990, 9(2): 62?82 doi:  10.1177/027836499000900206
                      [8] Bhounsule P A, Cortell J, Ruina A. Design and control of Ranger: an energy-efficient, dynamic walking robot. In: proceedings of the 15th International Conference on Climbing and Walking Robots and the Support Technologies for Mobile Machines. Baltimore, USA, 2012: 441−448.
                      [9] 9 Kurz M J, Stergiou N. An artificial neural network that utilizes hip joint actuations to control bifurcations and chaos in a passive dynamic bipedal walking model. Biological Cybernetics, 2005, 93(3): 213?221 doi:  10.1007/s00422-005-0579-6
                      [10] 10 Sun Chang-Yin, He Wei, Ge Wei-Liang, Chang Cheng. Adaptive Neural Network Control of Biped Robots. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2016, 47(2): 315?326
                      [11] Sugimoto Y, Osuka K. Walking control of quasi passive dynamic walking robot “Quartet Ⅲ” based on continuous delayed feedback control. In: Proceedings of the 2004 IEEE International Conference on Robotics and Biomimetics. Shenyang, China: IEEE, 2004: 606−611.
                      [12] 劉德君, 田彥濤, 張雷. 雙足欠驅動機器人能量成型控制. 機械工程學報, 2012, 48(23): 16?22 doi:  10.3901/JME.2012.23.016

                      12 Liu De-Jun, Tian Yan-Tao, Zhang Lei. Energy shaping control of under-actuated biped robot. Chinese Journal of Mechanical Engineering, 2012, 48(23): 16?22 doi:  10.3901/JME.2012.23.016
                      [13] 13 Spong M W, Holm J K, Lee D. Passivity-based control of bipedal locomotion. IEEE Robotics & Automation Magazine, 2007, 14(2): 30?40
                      [14] 劉乃軍, 魯濤, 蔡瑩皓, 王碩. 機器人操作技能學習方法綜述. 自動化學報, 2019, 45(3): 458?470

                      14 LIU Nai-Jun, LU Tao, CAI Ying-Hao, WANG Shuo. A Review of Robot Manipulation Skills Learning Methods. Acta Automatica Sinica, 2019, 45(3): 458?470
                      [15] Tedrake R, Zhang T W, Seung H S. Stochastic policy gradient reinforcement learning on a simple 3D biped. In: Proceedings of 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems. Sendai, Japan: IEEE, 2004, 3: 2849-2854.
                      [16] 16 Hitomi K, Shibata T, Nakamura Y, Ishii S. Reinforcement learning for quasi-passive dynamic walking of an unstable biped robot. Robotics and Autonomous Systems, 2006, 54(12): 982?988 doi:  10.1016/j.robot.2006.05.014
                      [17] Ueno T, Nakamura Y, Takuma T, Shibata T, Hosoda K, Ishii S. Fast and Stable Learning of Quasi-Passive Dynamic Walking by an Unstable Biped Robot based on Off-Policy Natural Actor-Cnrtic. In: Proceedings of 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. Beijing, China: IEEE, 2006: 5226−5231.
                      [18] 劉全, 翟建偉, 章宗長, 鐘珊, 周倩, 章鵬, 等. 深度強化學習綜述. 計算機學報, 2018, 41(01): 1?27

                      18 Liu Quan, Zhai Jian-Wei, Zhang Zong-Zhang, Zhong Shan, Zhou Qian, et al. A Survey on Deep Reinforcement Learning. Chinese Journal of Computers, 2018, 41(01): 1?27
                      [19] Kendall A, Hawke J, Janz D, Mazur P, Reda D, Allen J K, etal. Learning to Drive in a Day[Online], available: https://arxiv.org/abs/1807.00412, Jul 1, 2018
                      [20] 王云鵬, 郭戈. 基于深度強化學習的有軌電車信號優先控制. 自動化學報, 2019, 45(12): 2366?2377

                      20 Wang Yun-Peng, Guo Ge. Signal priority control for trams using deep reinforcement learning. Acta Automatica Sinica, 2019, 45(12): 2366?2377
                      [21] 張一珂, 張鵬遠, 顏永紅. 基于對抗訓練策略的語言模型數據增強技術. 自動化學報, 2018, 44(5): 891?900

                      21 Zhang Yi-Ke, Zhang Peng-Yuan, Yan Yong-Hong. Data Augmentation for Language Models via Adversarial Training. Acta Automatica Sinica, 2018, 44(5): 891?900
                      [22] Andreas J, Rohrbach M, Darrell T, Klein D. Learning to Compose Neural Networks for Question Answering In: proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, California: Association for Computational Linguistics, 2016. 1545−1554.
                      [23] Zhang X, Lapata M. Sentence simplification with deep reinforcement learning. In: proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 584−594
                      [24] 趙玉婷, 韓寶玲, 羅慶生. 基于deep Q-network雙足機器人非平整地面行走穩定性控制方法. 計算機應用, 2018, 38(9): 2459?2463

                      24 Zhao Yu-Ting, Han Bao-Ling, Luo Qing-Sheng. Walking stability control method for biped robot on uneven ground based on Deep Q-Network. Journal of Computer Applications, 2018, 38(9): 2459?2463
                      [25] 25 Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529?533 doi:  10.1038/nature14236
                      [26] Kumar A, Paul N, Omkar S N. Bipedal Walking Robot using Deep Deterministic Policy Gradient. In: proceedings of 2018 IEEE Symposium Series on Computational Intelligence. Bengaluru, India: IEEE, 2018.
                      [27] Lillicrap T P, Hunt J J, Pritzel A, Heess N, Erez T, Tassa Y, et al. Continuous control with deep reinforcement learning[Online], available: https: //arxiv.org/abs/1509.02971, Sep 9, 2015
                      [28] Song D R, Yang Chuan-Yu, McGreavy C, Li Zhi-Bin. Recurrent Deterministic Policy Gradient Method for Bipedal Locomotion on Rough Terrain Challenge. In: proceedings of 2018 15th International Conference on Control, Automation, Robotics and Vision. Singapore, Singapore: IEEE, 2018. 311−318.
                      [29] Todorov E, Erez T, Tassa Y. Mujoco: A physics engine for model-based control. In: proceedings of 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems. Algarve, Portugal: IEEE. 2012: 5026−5033.
                      [30] Palanisamy P. Hands-On Intelligent Agents with OpenAI Gym: Your guide to developing AI agents using deep reinforcement learning. Packt Publishing Ltd, 2018.
                      [31] Schaul T, Quan J, Antonoglou I, Silver D. Prioritized Experience Replay. In: proceedings of International Conference on Learning Representations 2016. San Juan, Puerto Rico, 2016. 322−355.
                      [32] Horgan D, Quan J, Budden D, Maron G B, Hessel M, Hasselt H, et al. Distributed prioritized experience replay. In: proceedings of International Conference on Learning Representations 2018. Vancouver, Canada, 2018.
                      [33] 33 Zhao Jie, Wu Xiao-Guang, Zang X Z, Yang Ji-Hong. Analysis of period doubling bifurcation and chaos mirror of biped passive dynamic robot gait. Chinese science bulletin, 2012, 57(14): 1743?1750 doi:  10.1007/s11434-012-5113-3
                      [34] Silver D, Lever G, Heess N, Degris T, Wierstra D, Riedmiller M, et al. Deterministic policy gradient algorithms. In: proceedings of International Conference on International Conference on Machine Learning, Beijing, China, 2014.
                      [35] Sutton R S, Barto A G. Reinforcement learning: An introduction. Cambridge:MIT press, 1998.
                      [36] Zhao Jie, Wu Xiao-Guang, Zhu Yan-He, Li Ge. The improved passive dynamic model with high stability. In: proceedings of 2009 International Conference on Mechatronics and Automation. Changchun, China: IEEE, 2009. 4687−4692.
                      [37] Abadi M, Barham P, Chen Jian-Min, Chen Zhi-Feng, Andy D, Jeffrey D, et al. Tensorflow: A system for large-scale machine learning. In: proceedings of 12th USENIX Symposium on Operating Systems Design and Implementation. Savannah, USA, 2016: 265−283.
                      [38] Kingma D P, Ba J. Adam: A Method for Stochastic Optimization. In: proceedings of 3rd International Conference for Learning Representations. San Diego, USA. 2015.
                      [39] Plappert M, Houthooft R, Dhariwal P, Sidor S, Chen R Y, Chen Xi, et al. Parameter Space Noise for Exploration[Online], available: https://arxiv.org/abs/1706.01905, Jun 6, 2017
                      [40] Schwab A L, Wisse M. Basin of attraction of the simplest walking model. In: proceedings of the ASME design engineering technical conference. Pittsburgh, USA: ASME, 2001. 6: 531−539.
                    • [1] 孫長銀, 穆朝絮. 多智能體深度強化學習的若干關鍵科學問題[J]. 自動化學報, doi: 10.16383/j.aas.c200159
                      [2] 陳晉音, 章燕, 王雪柯, 蔡鴻斌, 王玨, 紀守領. 深度強化學習的攻防與安全性分析綜述[J]. 自動化學報, doi: 10.16383/j.aas.c200166
                      [3] 姚紅革, 張瑋, 楊浩琪, 喻鈞. 深度強化學習聯合回歸目標定位[J]. 自動化學報, doi: 10.16383/j.aas.c200045
                      [4] 金哲豪, 劉安東, 俞立. 基于GPR和深度強化學習的分層人機協作控制[J]. 自動化學報, doi: 10.16383/j.aas.c190451
                      [5] 袁兆麟, 何潤姿, 姚超, 李佳, 班曉娟, 李瀟睿. 基于強化學習的濃密機底流濃度在線控制算法[J]. 自動化學報, doi: 10.16383/j.aas.c190348
                      [6] 王云鵬, 郭戈. 基于深度強化學習的有軌電車信號優先控制[J]. 自動化學報, doi: 10.16383/j.aas.c190164
                      [7] 秦蕊, 曾帥, 李娟娟, 袁勇. 基于深度強化學習的平行企業資源計劃[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160664
                      [8] 田彥濤, 孫中波, 李宏揚, 王靜. 動態雙足機器人的控制與優化研究進展[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150821
                      [9] 郭瀟逍, 李程, 梅俏竹. 深度學習在游戲中的應用[J]. 自動化學報, doi: 10.16383/j.aas.2016.y000002
                      [10] 陳興國, 俞揚. 強化學習及其在電腦圍棋中的應用[J]. 自動化學報, doi: 10.16383/j.aas.2016.y000003
                      [11] 楊貴志, 馬書根, 李斌, 王明輝. 面向蛇形機器人的三維步態控制的層次化聯結中樞模式生成器模型[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.01611
                      [12] 孟德元, 賈英民, 杜軍平, 余發山. 含多狀態時滯的連續時間迭代學習控制系統穩定性分析[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00696
                      [13] 吳俊, 陸宇平. 基于網絡通信的多機器人系統的穩定性分析[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.01706
                      [14] 唐昊, 萬海峰, 韓江洪, 周雷. 基于多Agent強化學習的多站點CSPS系統的協作Look-ahead控制[J]. 自動化學報, doi: 10.3724/SP.J.1004.2010.00289
                      [15] 賴旭芝, 吳敏, 佘錦華, YANG Simon X.. 欠驅動兩桿機器人的統一控制策略和全局穩定性分析[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00055
                      [16] 李朝暉, 黃強, 李科杰. 仿人機器人跑步穩定性準則[J]. 自動化學報
                      [17] 高陽, 陳世福, 陸鑫. 強化學習研究綜述[J]. 自動化學報
                      [18] 邵誠, 高福榮, 楊毅. 最優迭代學習控制的魯棒穩定性及其在注塑機控制中的應有[J]. 自動化學報
                      [19] 孫明軒. 非線性離散時間系統迭代學習控制的穩定性分析[J]. 自動化學報
                      [20] 蔣平, 陳輝堂, 王月娟. 機器人自學習控制的穩定性分析方法及其應用[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  2157
                    • HTML全文瀏覽量:  1637
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-07-23
                    • 錄用日期:  2020-01-09

                    基于深度強化學習的雙足機器人斜坡步態控制方法

                    doi: 10.16383/j.aas.c190547
                      基金項目:  國家自然科學基金(61503325), 中國博士后科學基金(2015M581316)資助
                      作者簡介:

                      燕山大學副教授, 2012年獲得哈爾濱工業大學博士學位. 主要研究方向為雙足機器人、三維虛擬視覺重構等E-mail: wuxiaoguang@ysu.edu.cn

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為深度強化學習、雙足機器人. 本文通信作者.E-mail: lwsalpha@outlook.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為雙足機器人穩定性分析.E-mail: 15733513567@163.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為生成對抗網絡、人體運動協調性分析等.E-mail: dengwq24@163.com

                      燕山大學電氣工程學院碩士研究生. 主要研究方向為人體姿態估計、目標識別、深度學習.E-mail: jiazheheng@163.com

                    摘要: 為提高準被動雙足機器人斜坡步行穩定性, 本文提出了一種基于深度強化學習的準被動雙足機器人步態控制方法. 通過分析準被動雙足機器人的混合動力學模型與穩定行走過程, 建立了狀態空間、動作空間、episode過程與獎勵函數. 在利用基于DDPG改進的Ape-X DPG算法持續學習后, 準被動雙足機器人能在較大斜坡范圍內實現穩定行走. 仿真實驗表明, Ape-X DPG無論是學習能力還是收斂速度均優于基于PER的DDPG. 同時, 相較于能量成型控制, 使用Ape-X DPG的準被動雙足機器人步態收斂更迅速、步態收斂域更大, 證明Ape-X DPG可有效提高準被動雙足機器人的步行穩定性.

                    English Abstract

                    吳曉光, 劉紹維, 楊磊, 鄧文強, 賈哲恒. 基于深度強化學習的雙足機器人斜坡步態控制方法. 自動化學報, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    引用本文: 吳曉光, 劉紹維, 楊磊, 鄧文強, 賈哲恒. 基于深度強化學習的雙足機器人斜坡步態控制方法. 自動化學報, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    Wu Xiao-Guang, Liu Shao-Wei, Yang Lei, Deng Wen-Qiang, Jia Zhe-Heng. A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning. Acta Automatica Sinica, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    Citation: Wu Xiao-Guang, Liu Shao-Wei, Yang Lei, Deng Wen-Qiang, Jia Zhe-Heng. A Gait Control Method for Biped Robot on Slope Based on Deep Reinforcement Learning. Acta Automatica Sinica, 2020, 46(x): 1?12. doi: 10.16383/j.aas.c190547
                    • 服務機器人融合了機械、控制、計算機、人工智能等眾多學科, 在各個領域得到應用, 如足式機器人[1]、水下機器人[2-4]、無人船舶[5]、無人飛行器[6]等, 是目前全球范圍內前沿高科技技術研究最活躍的領域之一. 雙足機器人是服務機器人中的一種仿人足式移動機器人, 能夠適應街道、樓梯、廢墟等復雜的地形環境, 可替代人類從事救援、醫療、勘探、服務等行業. 在雙足機器人中, 基于被動步行(Passive Dynamic Waking)[7]理論設計的被動雙足機器人, 因結構簡單、步態柔順、能耗低等優點受到廣泛研究. 被動雙足機器人可充分利用自身動力學特性, 僅依靠重力與自身慣性便能沿斜坡向下行走. 然而, 被動雙足機器人在行走過程中因缺乏主動控制, 存在步行穩定性差、抗擾動能力弱等不足. 為彌補這些不足, 研究人員通過對被動雙足機器人部分關節施加控制, 研發出準被動雙足機器人[8], 提升了雙足機器人的步態控制能力.

                      為進一步提高準被動雙足機器人步行穩定性, 步態控制方法的研究逐步成為準被動雙足機器人研究領域的重點方向, 現有的控制方法包括神經網絡[9]、延時反饋控制[10, 11]、能量成型控制[12, 13]、強化學習[14]等. 其中, 強化學習(Reinforcement Learning, RL)因易于實現、適應性好、無需先驗知識等優點而得到廣泛應用. Tedrake等[15]利用隨機策略梯度(Stochastic Policy Gradient, SPG)算法實現無膝雙足機器人Toddler的步態控制, 使其能夠在不平整路面上行走. Hitomi等[16]則將SPG應用于一種圓足有膝雙足機器人的控制中, 實現機器人在[0.02,0.04]rad斜坡范圍上的穩定行走, 并提升了機器人對外界擾動的魯棒性. Ueno等[17]采用改進的行動者-評論家(Actor-Critic, AC)算法提高了具有上肢雙足機器人的步行穩定性, 使機器人在20組實驗中完成19次穩定行走. 然而, 上述算法均受RL的結構、學習能力的制約, 存在樣本利用率低、學習不穩定、算法不易收斂等缺陷, 嚴重限制了RL對機器人步態的控制能力.

                      近年來, 結合強化學習和深度學習的深度強化學習(Deep Reinforcement Learning, DRL)快速發展, 迅速成為人工智能領域的研究熱點[18]. DRL利用深度學習的優點克服傳統RL中的缺陷, 廣泛應用于自動駕駛[19, 20]、自然語言處理[21-23]等領域, 并被引入到雙足機器人的步態控制研究中. 在主動雙足機器人中, 趙玉婷等[24]利用深度Q網絡(Deep Q Network, DQN)[25]算法, 有效抑制了機器人在非平整地面行走時姿態角度的波動. 在準被動雙足機器人中, Kumar等[26]將有膝雙足機器人視為智能體, 利用深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)[27]算法, 實現機器人長距離的行走. 此外, DRL研究中也常將雙足機器人作為控制對象, 如MuJoCo[28, 29]中的2Dwarker模型、Roboschool[30]中的Atlas模型等.

                      由于準被動雙足機器人步態穩定的判別較為困難, DRL在控制準被動雙足機器人時, 通常以行走的更遠為目的, 忽略了機器人步行穩定性、柔順性等因素, 這導致DRL控制下機器人步態與穩定步態之間存在較大的差異. 針對此問題, 結合傳統RL在準被動雙足機器人步態控制方面的不足, 本文提出了一種基于DRL的準被動雙足機器人步態控制方法, 實現較大斜坡范圍([0.04,0.15]rad)下的機器人不穩定步態控制, 使機器人能夠抑制跌倒并快速恢復至穩定步態, 達到提高機器人步行穩定性的目的: (1) 建立準被動雙足機器人動力學模型, 確立機器人的狀態空間與動作空間. (2) 針對DDPG的不足, 基于優先經驗回放(Prioritized Experience Replay, PER)[31]機制, 引入分布式優先經驗回放(Distributed Prioritized Experience Replay, DPER)[32]結構, 建立高效的機器人步態控制方法—Ape-X DPG算法. (3) 基于準被動雙足機器人的行走特性設計的episode過程, 結合機器人步態變化與縮放動作構建的獎勵函數, 為Ape-X DPG的高效學習提供支撐. (4) 通過仿真實驗, 對Ape-X DPG的學習能力和步態控制能力進行測試分析, 驗證步態控制方法的有效性.

                      • 本文以直腿前向圓弧足機器人作為研究對象, 構建其動力學模型, 機器人物理模型如圖1所示. 機器人由連接在髖關節H處的兩條完全一致的剛性直腿組成, 被動步行時具有兩個自由度, 分別位于支撐點s與髖關節H處, 記為$ \theta_1 $$ \theta_2 $. 為實施主動控制, 在機器人髖關節與兩腿的踝關節處設有電機. 對機器人行走過程做運動簡化[33], 可將行走過程劃分為擺動階段和碰撞階段, 機器人被動步行過程如圖2所示.

                        圖  1  機器人模型示意圖

                        Figure 1.  Sketch of the biped model

                        圖  2  被動步行過程

                        Figure 2.  Passive dynamic waking process

                        圖2中, 狀態a至狀態d前為擺動階段. 此階段, 機器人支撐腿繞支撐點s做倒立擺運動, 擺動腿離地并繞髖關節H做單擺運動, 運動中忽略擺動腿的擦地現象, 由Lagrange法推導擺動階段動力學方程:

                        $$ \begin{array}{l} M(q)\ddot q + H(q,\dot q) = u(t) \end{array} $$ (1)

                        其中,$ q $為姿態向量$ [\theta_1,\theta_2] $;$ M(q) $$ 2\times2 $正定質量慣性矩陣; $ H(q,\dot{q}) $為重力、離心力和哥氏力之和; $ \mu(t) = [\mu_{st},\mu_{sw}] $為控制力矩集合,$ \mu_{st} $、$ \mu_{sw} $分別為支撐腿踝關節與擺動腿髖關節處的電機力矩, 當$ \mu(t) = [0,0] $時機器人處于被動步行狀態.

                        狀態d時刻, 機器人處于碰撞階段. 此階段, 機器人擺動腿在碰撞點cp處與地面發生瞬時完全非彈性碰撞, 碰撞前后$ \dot{\theta_1} $、$ \dot{\theta_2} $發生突變, 碰撞后, 支撐腿與擺動腿間角色交換, 滿足:

                        $$ \begin{array}{l} \begin{cases} {\theta _1^ + = \theta _2^ - - 2{\beta _3}}\\ {\theta _2^ + = \theta _1^ - + 2{\beta _3}} \end{cases} \end{array} $$ (2)

                        其中,$ \beta_3 $為前向補償角,“$ - $”、“$ + $”分別表示碰撞前瞬間和碰撞后瞬間. 由于碰撞前后機器人關于碰撞點cp處角動量守恒, 碰撞后擺動腿關于髖關節H處角動量守恒, 可得到碰撞階段動力學方程:

                        $$ \begin{array}{l} {Q^ - }(q){\dot q^ - } = {Q^ + }(q){\dot q^ + } \end{array} $$ (3)

                        其中,$ Q^- $$ Q^+ $可由碰撞前后角動量守恒推導得到. 聯立式(1)-(3)完成機器人行走過程的混合動力學模型建立.

                      • 當機器人作為智能體時, 其受控行走過程可用馬爾可夫決策過程(Markov Decision Processes, MDP)描述. 通常, MDP可記為四元數組$(S,A, $$ P,R) $. 其中,$ S $為智能體狀態空間,$ A $為智能體動作空間,$ P $為狀態轉移函數, $ R $為獎勵函數. 本文中, 將機器人的狀態空間定義為$ S = [x,\phi] $, 其中,$x = $$ [\theta_1,\dot{\theta_1},\dot{\theta_2}] $為機器人起始狀態,$ \phi $為斜坡坡度; 令機器人動作空間為$ A = {\mu_{sw}} $, 在機器人擺動擺動階段中$ \mu_{sw} $恒定, 可有效防止擺動腿在行走中抖動, 保證步態的柔順; 由于$ \mu_{st} $空間范圍更為廣泛但對本文所選取的坡度范圍下無明顯的控制提升, 因此令$ \mu_{st}\equiv0 $即鎖死踝關節, 以減少訓練耗時與控制能耗. 因此在第t步時, 機器人的行走過程可以描述為: 狀態$ s_t $的機器人執行DRL選擇的動作$ a_t $, 根據$ P $遷移至狀態$ S_{t+1} $, 并通過$ R $得到獎勵值$ r_t(s_t,a_t) $.

                        為減少分析參數, 選取足地碰撞后瞬時時刻的機器人狀態空間為龐加萊截面, 則機器人狀態的轉換可利用龐加萊映射$ f $實現, 滿足:

                        $$ \begin{array}{l} x_{t+1} = f(x_t) \end{array} $$ (4)

                        若存在狀態$ x $, 滿足$ x = f(x) $, 稱狀態$ x $為不動點, 此時機器人步態即為穩定步態. 結合MDP可知, 以步態穩定為目標時, DRL需選擇動作 使機器人快速到達不動點, 以獲得更高的獎勵值.

                      • DDPG是基于確定性策略梯度(Deterministic Policy Gradient, DPG)[34]改進的一種離線、無模型DRL算法, 適用于連續動作空間問題. 采用DDPG控制機器人行走, 可以使機器人獲得更準確的控制, 加快步態的收斂速度. 進一步利用PER替代DDPG原有的樣本抽取機制, 可提高樣本利用率, 改善DDPG的學習能力.

                      • 在DDPG中, 分別使用策略神經網絡$ \mu $與價值神經網絡$ Q $表示DPG與狀態動作值函數, 并組成AC算法. 其中,$ \mu $為Actor, 當機器人狀態為$ s_t $時,$ \mu $選擇動作$ a_t $的過程為:

                        $$ \begin{array}{l} {a_t} = \mu ({s_t}|{\theta ^\mu }) + {N_t} \end{array} $$ (5)

                        其中,$ \theta^\mu $$ \mu $的神經網絡參數;$ N_t $為動作擾動, 由擾動函數$ N $提供, 用以在學習過程中探索環境. 機器人在執行動作$ a_t $后, 結合返回的$ s_{t+1} $$ r_t $, 將其結合$ s_t $$ a_t $組成樣本$ [s_t,a_t,r_t,s_{t+1}] $存入樣本池. 價值網絡$ Q $作為Critic, 用以逼近狀態動作值函數:

                        $$ \begin{array}{l} q = Q({s_t},{a_t}|{\theta ^Q}) \end{array} $$ (6)

                        其中,$ \theta^Q $$ Q $的神經網絡參數.

                        為穩定學習過程, DDPG借鑒DQN中的目標網絡結構, 構建目標策略網絡$ \mu' $與目標價值網絡$ Q' $, 并在目標網絡中引入緩慢更新策略:

                        $$ \begin{array}{l} \begin{cases} {{\theta ^{Q'}} = \tau {\theta ^Q} + (1 - \tau ){\theta ^{Q'}}}\\ {{\theta ^{\mu '}} = \tau {\theta ^\mu } + (1 - \tau ){\theta ^{\mu '}}} \end{cases} \end{array} $$ (7)

                        其中,$ \theta^{Q'} $、$ \theta^{\mu'} $分別為$ Q' $、$ \mu' $的神經網絡參數;$ \tau $控制著$ \theta^{Q'} $、$ \theta^{\mu'} $的更新幅度, 通常取$ \tau<<1 $. 對于策略網絡$ \mu $與價值網絡$ Q $, 則使用經驗回放(Experience Replay, ER)機制從樣本池中隨機抽取訓練樣本集進行離線訓練. 結合目標網絡$ \mu' $$ Q' $, 對于訓練樣本集$ I $, $ Q $的損失函數和$ \mu $的梯度更新分別為:

                        $$ \begin{split} L({\theta ^Q}) =& \dfrac{1}{I}\displaystyle\mathop \sum \limits_i^I {({r_i} + \gamma Q'({s_{i + 1}},\mu '({s_{i + 1}}|{\theta ^{\mu '}})|{\theta ^{Q'}})} -\\ & Q({s_i},{a_i}|{\theta ^Q}))^2 \\[-10pt]\end{split} $$ (8)
                        $$ \begin{array}{l} {\nabla _{{\theta ^\mu }}}J \approx \dfrac{1}{I}\displaystyle\mathop \sum \limits_i^I {\nabla _{{a_i}}}Q({s_i},{a_i}|{\theta ^Q}){\nabla _{{\theta ^\mu }}}\mu ({s_i}|{\theta ^\mu }) \end{array} $$ (9)

                        式中,$ \gamma $為獎勵折扣;$ Q' $$ \mu' $通過降低$ Q $的變化幅度, 抑制訓練中$ Q $$ \mu $的網絡震蕩, 達到穩定算法學習過程的目的, DDPG中的神經網絡訓練過程如圖3所示.

                        圖  3  DDPG中神經網絡訓練過程

                        Figure 3.  The neural network training process in DDPG

                      • 雖然ER能夠打破樣本間的相關性, 滿足DDPG中神經網絡的離線訓練要求, 但ER并不能判斷其抽取樣本的訓練價值, 導致DDPG無法充分利用樣本. 為改善這一不足, 采用PER替代ER, 以提升高價值樣本利用率.

                        PER使用時間差分(Temporal Difference, TD)誤差[35]表示樣本的價值. 令樣本TD誤差絕對值越大時價值越高, 則對于樣本$ i $, 在DDPG中的TD誤差為:

                        $$ \begin{array}{l} {D_i} = r_i + \gamma Q'({s_{i + 1}},\mu '({s_{i + 1}})) - Q({s_i},{a_i}) \end{array} $$ (10)

                        將樣本池中的樣本按TD誤差絕對值進行降序排列, 建立樣本的抽取優先級:

                        $$ \begin{array}{l} {p_i} = \dfrac{1}{{rank(i)}} \end{array} $$ (11)

                        其中,$ rank(i) $為樣本$ i $排序后的隊列序號, 最高優先級$ p_{max} = 1 $, 即價值越高優先級越高. 相比于直接使用TD誤差作為抽取依據,$ p_i $能夠更好的抑制噪聲樣本的影響, 此時樣本$ i $被抽取概率為:

                        $$ \begin{array}{l} {P_i} = \dfrac{{p_i^\alpha }}{{\displaystyle\sum\nolimits_k {p_k^\alpha } }} \end{array} $$ (12)

                        其中,$ k $為樣本總量;$ \alpha\in[0,1] $可調節高價值樣本在樣本集中的比例, 確保樣本集內的樣本多樣性,$ \alpha = 0 $時即為隨機抽取. 同時, PER中還使用重要性采樣權重(Importance-Sampling weights, IS)對頻繁回放高價值樣本造成的影響進行糾正, 確保學習過程的穩定, 樣本$ i $的IS值可表示為:

                        $$ \begin{array}{l} {w_i} = {\left(\dfrac{1}{{kP(i)}}\right)^\beta } \end{array} $$ (13)

                        其中,$ \beta\in[0,1] $可控制糾正的程度, 在價值網絡$ Q $的損失函數中加入IS值, 損失函數更新為:

                        $$ \begin{split} L({\theta ^Q}) =& \dfrac{1}{I}\displaystyle\mathop \sum \limits_i^I {w_i}{({r_i} + \gamma Q'({s_{i + 1}},\mu '({s_{i + 1}}|{\theta ^{\mu '}})|{\theta ^{Q'}})}- \\& Q({s_i},{a_i}|{\theta ^Q}))^2\\[-10pt] \end{split} $$ (14)
                      • 基于PER的DDPG通過改變樣本抽取機制進而改善算法學習能力, 但其學習過程中訓練與交互需順序交替執行, 限制了樣本的采集速度, 增加了學習時間. 為此, 本文在基于PER的DDPG的基礎上引入DPER結構, 形成Ape-X DPG算法, 整體結構如圖:

                      • 圖4所示, Ape-X DPG主要由三部分組成:

                        圖  4  APE-X DPG算法結構

                        Figure 4.  The structure of Ape-X DPG

                        (1)交互單元: 交互單元負責收集機器人的行走樣本, 可依據計算機性能部署多個, 各單元間相互獨立. 交互單元由本地DDPG、本地樣本池、機器人交互環境組成. 其中, 本地DDPG控制機器人的行走, 其從參數緩沖區中獲得網絡參數; 本地樣本池用于樣本的緩存, 當樣本量超過存儲上限時, 計算樣本初始優先級并送入公共樣本池.

                        (2)公共樣本池: 公共樣本池負責存儲交互中產生的所有樣本, 同時使用PER為訓練單元抽取訓練樣本集. 為減少樣本在排序與抽樣時的計算消耗, 公共樣本池采用二叉樹結構.

                        (3)訓練單元: 訓練單元利用樣本集不斷訓練學習. 訓練單元本身不直接參與機器人的交互, 但每次訓練后, 其會將訓練后參數存入參數緩沖區中, 并更新訓練樣本在公共樣本池中的優先級.

                        為簡化結構, 本文將交互單元中的本地DDPG使用策略神經網絡$ \mu $進行替代, 稱為本地Actor. 簡化后, 樣本的初始優先級均為$ p_{max} = 1 $, 此時使用PER的公共樣本池會優先抽取傳入的新樣本, 使訓練單元更重視最新樣本的處理.

                        Ape-X DPG通過上述三部分的并行執行, 將DDPG的交互與訓練相分離, 從而有效縮短學習時間. 同時, 多個交互單元的部署, 極大的提升樣本的收集速度, 而交互單元間的相互獨立, 使得不同交互單元可以采用不同擾動函數$ N $, 增強了算法探索環境的能力, 簡化后的Ape-X DPG過程如下所述:

                        算法1: 交互單元$ n $

                        01: 由參數緩沖區獲得本地Actor的神經網絡參數$ \theta_i^\mu $

                        02: 初始化本地樣本池$ K_n $、隨機擾動函數$ N_n $, 設置$ K_n $上限$ Size $

                        03: for e = 1 to M:

                        04:  本地Actor控制機器人完成一次episode

                        05:  if $ K_n>Size: $

                        06:   對$ K_n $中的樣本賦予優先級$ p_{max} = 1 $

                        07:   將$ K_n $中的樣本存入公共經驗樣本池$ K $, 并清空$ K_n $

                        08:   從參數緩沖區中更新神經網絡參數$ \theta_n^\mu $

                        09:  end if

                        10: end for

                        算法2: 訓練單元

                        01: 隨機初始化價值網絡$ Q $和策略網絡$ \mu $的網絡參數$ \theta^Q $、$ \theta^\mu $, 并傳入參數緩沖區

                        02: 初始化目標網絡網絡參數$ \theta^{Q'}\!\gets\!\theta^Q $、$ \theta^{\mu'}\!\gets\!\theta^\mu $

                        03: for t = 1 to T:

                        04:  公共樣本池$ K $使用PER抽取訓練樣本集I, 并取出對應的IS值$ w_i $

                        05:  通過最小化損失函數式(14)對$ Q $進行更新

                        06:  依據梯度更新式(9)對$ \mu $進行更新

                        07:  目標網絡獲得參數更新

                        08:  將$ \theta^\mu $傳入參數緩沖區

                        09:  計算各訓練樣本最新的TD誤差$ D_i $

                        10: 根據$ D_i $更新訓練樣本在$ K $中的優先級

                        11: end for

                      • 為使Ape-X DPG習得高效的步態控制策略, 限定一次episode中最大行走步數為10步. 同時, 為模擬機器人多樣的不穩定步態, 隨機選擇機器人的初始狀態$ s_1 $, 交互單元$ n $中1次episode的過程如圖5所示.

                        圖  5  交互單元n中episode過程

                        Figure 5.  Episode process in interaction unit n

                        圖5中,$ falls $用于標識機器人在本次episode的完成狀態, 若在episode中機器人跌倒, 則將episode中的各步標記為$ falls = 1 $;若機器人完成10步行走, 則各步標記為$ falls = 0 $.

                      • 不動點能夠表征機器人穩定行走時的狀態, 常被用于獎勵函數的設計. 但由于不動點求解困難且隨$ \phi $的變化而變化, 因此其不適合較大斜坡范圍下的獎勵函數設計. 當機器人狀態處于不動點時, 機器人步態單一且無需外力矩作用, 因此獎勵函數可設計為:

                        $$ \begin{array}{l} r(s_t,a_t) = \begin{cases} \exp ( - {\Delta ^2} - {a_r}^2)&,falls = 0\\ - 1&,falls = 1 \end{cases} \end{array} $$ (15)

                        其中,$ \Delta = 4{\left\| {{x_{t + 1}} - {x_t}} \right\|_2} $表示機器人在龐加萊截面上的步態變化,$ x_t $、$ x_{t+1} $分別從樣本中的$ s_t $、$ s_{t+1} $獲得; $ {a_r} = 25\left| {{a_t}} \right| $為縮放后的動作$ a_t $. 當$ falls = 1 $時, 機器人獲得獎勵值-1. 當$ falls = 0 $時, 獎勵函數利用$ \Delta $$ \alpha_r $替代不動點評價機器人步態穩定程度, 獎勵函數空間如圖6所示:

                        圖  6  falls = 0時的獎勵函數空間

                        Figure 6.  Landscape of the reward function when falls = 0

                        圖6中, 獎勵函數空間整體呈現單調變化趨勢, 當$ \Delta $$ a_r $均趨近0時將步態視為穩定, 給予機器人高獎勵值. 在獎勵函數中引入動作$ a_t $, 可以引導Ape-X DPG選擇較小的動作調節機器人步態, 提高機器人能效, 同時減小對穩定步態的擾動.

                      • 本文通過Python與Matlab的聯合仿真對Ape-X DPG的學習與控制能力進行驗證. 其中, Python負責Ape-X DPG的實現; Matlab負責機器人的動力學仿真; Python與Matlab間通過Matlab Engine進行通信. 為 保證結果的一致性, 圖像均使用Matlab進行繪制.

                        在Matlab中, 機器人物理參數設置如表1所示. 為更好的檢驗算法控制能力, 仿真實驗中機器人采用穩定性較差的對稱圓弧足[36], 此時$ \beta_3 = 0 $、碰撞后$ \theta_1 = -\theta_2 $. 基于機器人的步態運動特征, 限定初始時的狀態空間$ S_1 $范圍:$ {\theta _1} \in [0.02,0.6] $、${\dot \theta _1} \in $$ [ - 2, - 0.08] $、$ {\dot \theta _2} \in [0,6] $、$ \phi \in [0.04,0.15] $, 并限定動作空間$ A $中的$ {u_{sw}} \in [ - 0.3,0.3] $.

                        表 1  機器人符號及無量綱參數

                        Table 1.  Symbols and dimensionless default values of biped parameters

                        參數 符號 數值
                        腿長 I 1
                        腿部質心 m1 1
                        髖關節質心 m2 2
                        足半徑 r 0.3
                        腿部質心與圓弧足中心距離 I1 0.55
                        髖關節與圓弧足中心距離 I2 0.7
                        髖關節到腿部質心距離 c 0.15
                        腿部轉動慣量 J1 0.01
                        重力加速度 g 9.8

                        在Python中, 采用Tensorflow[37]實現的Ape-X DPG, 交互單元、公共樣本池分配于不同CPU核心中, 訓練單元則分配至GPU中. 訓練單元中,$ Q $$ \mu $使用全鏈接神經網絡, 均有4個隱藏層, 各層單元數分別為100、300、200、50, 使用ReLU激活函數. 輸入層單元數由狀態空間$ S $決定, 且$ Q $在第3隱藏層中接收對應動作$ a $. 對于輸出層激活函數,$ \mu $使用tanh激活函數, 而$ Q $不使用激活函數. 在訓練過程中,$ \mu $$ Q $的學習率分別設置為$ {10^{ - 4}} $、$ {10^{ -3}} $, 使用Adam算法[38]更新.$ \mu' $$ Q' $更新參數$ \tau $$ {10^{ -4}} $.

                        公共樣本池存儲上限為$ 5 \times {10^5} $, PER中參數設置分別為$ \alpha = 0.7 $、$ \beta = 0.4 $. 交互單元中, 本地Actor結構與$ \mu $相同, 本地樣本池存儲上限為$ {10^{3}} $.

                      • 由于交互單元數量與擾動函數$ N $設置均影響著算法性能, 本文通過3組不同交互單元數量的Ape-X DPG和1組基于PER的DDPG進行仿真實驗, 對比算法的學習能力與收斂速度. 在學習開始后, 當公共樣本池樣本總數到達$ 2.5 \times {10^5} $時啟動訓練單元, 當各采集單元均完成20000次episode時結束學習. 各組仿真實驗中$ N $分配與訓練單元啟動后的學習耗時如表2所示, 表中0,1,2表示該組算法中使用對應$ N $的交互單元數. 訓練單元啟動后各算法獎勵曲線如圖7所示.

                        表 2  擾動函數N分配與學習耗時

                        Table 2.  Noise function N settings and learning time

                        算法 高斯擾動 O-U擾動 網絡參數擾動[39] 耗時
                        DDPG 0 1 0 6.4 h
                        2交互單元 1 1 0 4.2 h
                        4交互單元 2 1 1 4.2 h
                        6交互單元 2 2 2 4.3 h

                        圖  7  平均獎勵值曲線

                        Figure 7.  The curve of the average reward

                        圖7中, 曲線表示各組算法中交互單元對應episode獎勵的平均值. 其中, 點線為DDPG的獎勵值, 可以看出其學習速度緩慢且學習過程存在明顯的震蕩, 雖然與2交互單元Ape-X DPG最終的平均獎勵值相差不大, 但Ape-X DPG的收斂更早且過程也更加穩定. 同時, 由于Ape-X DPG中交互與訓練并行運行, 因此在相同條件下, Ape-X DPG的學習耗時顯著低于DDPG. 對于三組Ape-X DPG, 其在收斂后的平均獎勵值大小與交互單元數量成正比, 且由于各交互單元獨立運行, 使得三組算法在執行固定交互次數時學習整體耗時差異較小.

                      • 為測試Ape-X DPG的步態控制能力, 本文選擇能量成型控制作為對比控制算法. 當機器人在斜坡上被動行走時, 擺動階段中重力所做功轉化為系統動能, 若碰撞階段中這部分能量被精確消耗, 則機器人能量變化形成平衡, 可實現穩定行走;若能量無法被精確消耗, 則會導致機器人行走的不穩定. 能量成型控制利用上述過程, 將機器人不動點處能量總值$ E_{target} $作為參考, 通過$ \mu_{t} = [\mu_{st},\mu_{sw}] $的作用, 使機器人不穩定初始能量$ E_t $快速收斂至$ E_{target} $, 進而實現步態的調整, 有控制率:

                        $$ \begin{array}{l} \mu_t = -\lambda_t(E_t-E_{target})\dot{q} \end{array} $$ (16)

                        其中,$ \lambda_t $為自適應系數, 具體為:

                        $$ \begin{array}{l} {\lambda _t} = \dfrac{{{\lambda _{t - 1}}}} {{1 - \tanh(\xi\upsilon _{t - 1})}} \end{array} $$ (17)

                        其中,$ \xi $為可調阻尼系數,$ \upsilon _{t - 1} $為機器人第t-1步時步態周期變化, 表示為:

                        $$ \begin{array}{l} {\upsilon _{t - 1}} = \ln \left| {\dfrac{{{T_{t - 3}} - {T_{t - 2}}}}{{{T_{t - 2}} - {T_{t - 1}}}}} \right| \end{array} $$ (18)

                        其中,$ T_{t-1} $為機器人第t-1步的行走時間.$ \lambda_t $能夠依據步態不穩定程度對力矩大小進行調整, 加快步態收斂速度.

                        不失一般性, 從初始狀態空間中隨機抽取2 000組作為測試集. 能量成型控制選取參數$ \xi = 0.8 $, 初始$ \lambda_t $$ \lambda_1 = 0.01 $, 對于初始階段所需的$ T_{t-1} $等, 使用穩定步態行走時間補充. DDPG與Ape-X DPG使用上節訓練所得參數, 在機器人行走15步時檢測步態是否穩定, 各算法穩定行走次數如圖8所示.

                        圖  8  測試集穩定行走次數

                        Figure 8.  Stable walking times in test

                        圖8中, 能量成型控制同DDPG、2交互單元Ape-X DPG的穩定行走次數接近, 均高于被動行走. 6交互單元Ape-X DPG控制能力優于其它算法, 實現最高的1811次穩定行走, 因此本文后續采用6交互單元Ape-X DPG進行分析. 從測試集中選擇2組初始狀態, 如表3所示.

                        表 3  機器人初始狀態

                        Table 3.  The Initial states of the biped

                        狀態 $\theta_1$ $\dot\theta_1$ $\dot\theta_2$ $\phi$
                        a 0.37149 ?1.24226 2.97253 0.078
                        b 0.24678 ?1.20521 0.15476 0.121

                        圖9為以初始狀態a、b行走的機器人前進方向左側腿相空間示意圖, 初始狀態a時, 兩種算法均可阻止機器人跌倒, 使機器人步態收斂至穩定狀態, 并最終形成一致的運動軌跡. 相比于能量成型控制, Ape-X DPG的控制過程更快, 僅通過兩步的調整便使機器人步態趨近于穩定; 在初始狀態b時, 能量成型控制失效, 無法抑制機器人的最終摔倒, 而Ape-X DPG依然可以完成機器人不穩定步態的快速恢復.

                        圖  9  機器人左腿相空間圖

                        Figure 9.  The phase plane of the right leg

                        圖10為初始狀態b時兩種算法的控制過程, 由于機器人初始狀態的能量與不動點的能量接近, 使得能量成型控制效果微弱, 經過3步調整, 仍然無法抑制機器人跌倒. 而在Ape-X DPG作用下, 機器人第一步時$ \dot\theta_2 $達到最高2.842 rad/s, 高于能量成型控制時的2.277 rad/s, 較大的$ \dot\theta_2 $增大了機器人步幅、延長了第一步行走時間, 同時控制力矩的輸入增加機器人系統機械能, 使碰撞后$ \dot\theta_1 $、$ \dot\theta_2 $絕對值增大, 機器人狀態則轉移至${s_2} = [0.39896, - 1.60110, $$ 1.38857,0.121] $. 對比能量成型控制$ {s_2} = [{\rm{0}}{\rm{.25749}}, $${\rm{ - 1}}{\rm{.82706}}, - 0.76343,0.121] $可知, Ape-X DPG在第一步時便使機器人步態向不動點$ x = [0.47213, $$- 1.71598,3.33070] $靠近. 此后, Ape-X DPG作用力矩逐步減小并收束為0, 最終機器人步態恢復穩定, 主動控制行走轉為被動行走, 兩種控制方法控制下的機器人棍狀圖如圖11所示.

                        圖  10  初始狀態b時機器人行走狀態

                        Figure 10.  Biped walking state in initial state b

                        圖  11  機器人行走過程棍狀圖

                        Figure 11.  The git diagrams of the biped

                        通過棍狀圖可直觀看出, 在Ape-X DPG控制下機器人前3步中擺動腿擺動幅度逐步增大, 并在4步時開始穩定行走, 而在使用能量成型控制時, 機器人在第3步時未能將擺動腿擺至地面上方, 進而引發了跌倒.

                        進一步的, 使用Solidworks建立機器人物理模型, 并基于Matlab中的Simscape Multibody進行物理仿真, 機器人模型參數同表1, 模型如圖12所示.

                        圖  12  機器人物理模型示意圖

                        Figure 12.  Sketch of the biped physical model

                        在機器人模型中, 外側腿為灰色, 內側腿為白色, 并定義外側腿為物理仿真時的起始支撐腿. 為解決擺動階段中擺動腿的擦地現象, 將擺動腿前擺時的足部碰撞參數置為0, 回擺時恢復碰撞參數, 以實現足地碰撞. 在上述條件下, 初始狀態b的機器人在Ape-X DPG控制下的前10步行走過程如圖13所示.

                        圖  13  機器人物理仿真

                        Figure 13.  Robot physics simulation

                        圖13(a)為機器人前4步的行走過程, 在(c)中0 s時的角速度階躍為機器人從空中釋放后落地瞬間造成的速度突變. 從圖13(b)、(c)圖10(a)、(b)對比可以看出, 物理仿真與數值仿真在角度變化上大致相同, 但在角速度變化中存在差異, 主要原因為物理仿真下機器人碰撞階段無法實現完全非彈性碰撞. 因碰撞階段的不同, 導致圖13(d)中Ape-X DPG作用力矩無法數值仿真時一樣收斂至0, 但依然可以阻止機器人的跌倒, 并使機器人在狀態$ x = [0.46, - 1.73,1.81] $附近進行行走.

                      • 為進一步刻畫Ape-X DPG的控制能力, 采用胞映射法分別獲得被動步行、能量成型控制、Ape-X DPG三種情況下的機器人步態收斂域(Basion of Attraction, BOA). BOA是機器人可穩定行走的初始狀態集合, 其范圍越大時機器人步行穩定性越高[40]. 為檢測算法在不同坡度下的控制能力, 將$ \phi = [0.04,0.15] $以0.01等間隔劃分, 獲得12組步行環境. 進一步將初始狀態$ S_1 $中的$ x = [{\theta _1},{\dot \theta _1},{\dot\theta _2}] $劃分為$ 6.4 \times{10^4} $個胞.

                        三種情況下機器人穩定行走胞數如圖14所示, 在選取的12組坡度中, Ape-X DPG控制下BOA穩定行走胞數均遠高于被動步行與能量成型控制, 并在$ \phi = 0.1 $時獲得最大胞數為55649, 此時BOA可覆蓋胞空間的86.95%, 而此時被動步行與能量成型控制胞數分別為27371、38692, 覆蓋胞空間為42.76%、58.89%. 取$ \phi = 0.1 $時的BOA進行繪制, 如圖15所示, 其中綠色部分為BOA區域, 藍色為跌倒步態區域. 圖15(c)中, Ape-X DPG的BOA范圍顯著增加, 進一步證明Ape-X DPG可有效提高機器人步行穩定性.

                        圖  14  穩定行走胞數

                        Figure 14.  The number of the state walking

                        圖  15  $ \phi = 0.1 $時機器人步態收斂域

                        Figure 15.  The biped BOA when $ \phi = 0.1 $

                      • 本文提出了一種穩定、高效的準被動雙足機器人斜坡步態控制方法, 實現了$ [0.04,0.15] $rad斜坡范圍內的機器人步態穩定控制. 在DDPG的基礎上, 融合PER機制與DPER結構建立了Ape-X DPG分布式學習算法, 以加快樣本采集速度、提高樣本利用率、縮短學習時間. 將機器人視為智能體, 結合Ape-X DPG分布式的交互過程, 基于機器人行走特性的準確描述, 設計了episode過程與獎勵函數. 經學習后, Ape-X DPG能夠控制機器人在2 000組測試中完成1 811次穩定行走, 并在$ \phi = 0.1 $時使機器人BOA覆蓋86.95%的胞空間. 相較于能量成型控制, Ape-X DPG能夠更有效的調節準被動雙足機器人不穩定步態、抑制跌倒, 達到提高準被動雙足機器人斜坡步行穩定性的目標.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回