2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    基于事件相機的定位與建圖算法: 綜述

                    馬艷陽 葉梓豪 劉坤華 陳龍

                    馬艷陽, 葉梓豪, 劉坤華, 陳龍. 基于事件相機的定位與建圖算法: 綜述. 自動化學報, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    引用本文: 馬艷陽, 葉梓豪, 劉坤華, 陳龍. 基于事件相機的定位與建圖算法: 綜述. 自動化學報, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    Citation: Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550

                    基于事件相機的定位與建圖算法: 綜述


                    DOI: 10.16383/j.aas.c190550
                    詳細信息
                      作者簡介:

                      中山大學數據科學與計算機學院碩士研究生. 2014年獲得中山大學計算機科學與技術學士學位. 主要研究方向為機器人定位與建圖技術. E-mail: mayany3@mail2.sysu.edu.cn

                      中山大學數據科學與計算機學院本科生. 主要研究方向為機器人定位與建圖技術. E-mail: yezh9@mail2.sysu.edu.cn

                      中山大學數據科學與計算機學院博士后. 2019年獲得山東科技大學機電工程學院博士學位. 主要研究方向為自動駕駛環境感知. E-mail: lkhzyf@163.com

                      中山大學數據科學與計算機學院副教授. 于2007年、2013年獲得武漢大學學士、博士學位. 主要研究方向為自動駕駛, 機器人, 人工智能. 本文通信作者. E-mail: chenl46@mail.sysu.edu.cn

                    • 基金項目:  國家重點研發計劃(2018YFB1305002), 國家自然科學基金(61773414)資助

                    Event-based Visual Localization and Mapping Algorithms: A Survey

                    More Information
                    • Fund Project:  Supported by National Key Research and Development Program of China (2018YFB1305002), National Natural Science Foundation of China (61773414)
                    • 摘要: 事件相機是一種新興的視覺傳感器, 通過檢測單個像素點光照強度的變化來產生“事件”. 基于其工作原理, 事件相機擁有傳統相機所不具備的低延遲、高動態范圍等優良特性. 而如何應用事件相機來完成機器人的定位與建圖則是目前視覺定位與建圖領域新的研究方向. 本文從事件相機本身出發, 介紹事件相機的工作原理、現有的定位與建圖算法以及事件相機相關的開源數據集. 其中, 本文著重對現有的、基于事件相機的定位與建圖算法進行詳細的介紹和優缺點分析.
                    • 圖  1  事件相機輸出的地址 ? 事件流[47]

                      Fig.  1  Address-event stream output by event-based camera[47]

                      圖  2  DVS像素結構原理圖[34]

                      Fig.  2  Abstracted DVS pixel core schematic[34]

                      圖  3  DVS工作原理圖[34]

                      Fig.  3  Principle of DVS operation[34]

                      圖  4  Bryner算法工作流程[51]

                      Fig.  4  The workflow of Bryner's algorithm[51]

                      表  1  文中敘述的部分基于事件相機的SLAM算法及應用

                      Table  1  Event-based SLAM algorithms and applications

                      相關文獻所使用傳感器維度算法類型是否需要輸入地圖發表時間(年)
                      [44]DVS2D定位2012
                      [45]DVS2D定位與建圖2013
                      [47]DVS3D定位2014
                      [48]DVS3D定位與建圖2016
                      [49]DVS3D定位與建圖2016
                      [51]DVS3D定位2019
                      [52]DVS, 灰度相機3D定位2014
                      [53]DVS, RGB-D相機3D定位與建圖2014
                      [55]DAVIS3D定位2016
                      [56]DAVIS(內置IMU)3D定位2017
                      [59]DAVIS(內置IMU)3D定位與建圖2017
                      [64]DAVIS(內置IMU), RGB相機3D定位與建圖2018
                      [65]DAVIS(內置IMU)3D定位2018
                      下載: 導出CSV

                      表  2  DVS公開數據集

                      Table  2  Dataset provided by event cammera

                      相關文獻所使用傳感器相機運動自由度數據采集場景載具是否提供真值發表時間(年)
                      [53]eDVS相機, RGB-D相機6DOF室內手持2014
                      [68]DAVIS(內置IMU)3DOF(純旋轉)室內, 仿真旋轉基座2016
                      [69]DAVIS, RGB-D相機4DOF室內, 仿真地面機器人和云臺2016
                      [70]DAVIS(內置IMU)6DOF室內 室外 仿真手持室內: 是 室外: 否 仿真: 是2016
                      [71]DAVIS6DOF室外汽車2017
                      [72] 2*DAVIS(內置IMU) 2*RGB相機(內置IMU) 16線激光雷達 6DOF 室內 室外 室內
                      到室外
                      四軸飛行器 摩托車 汽車 手持 2018
                      [73] 2*DAVIS(內置IMU) RGB-D相機3DOF 室內 3*地面機器人 2018
                      [74]DAVIS6DOF室內手持2019
                      [51]DAVIS, IMU6DOF室內, 仿真手持2019
                      下載: 導出CSV
                      360彩票
                    • [1] Burri M, Oleynikova H, Achtelik M W, Siegwart R. Realtime visual-inertial mapping, re-localization and planning onboard MAVs in unknown environments. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 1872−1878
                      [2] Chatila R, Laumond J P. Position referencing and consistent world modeling for mobile robots. In: Proceedings of the 1985 IEEE International Conference on Robotics and Automation. Louis, Missouri, USA: IEEE, 1985. Vol. 2: 138−145.
                      [3] 3 Chatzopoulos D, Bermejo C, Huang Z, P Hui. Mobile augmented reality survey: From where we are to where we go. Ieee Access, 2017, 5: 6917?6950 doi:  10.1109/ACCESS.2017.2698164
                      [4] 4 Taketomi T, Uchiyama H, Ikeda S. Visual SLAM algorithms: a survey from 2010 to 2016. Transactions on Computer Vision and Applications, 2017, 9(1): 16 doi:  10.1186/s41074-017-0027-2
                      [5] 5 Strasdat H, Montiel J M M, Davison A J. Visual SLAM: why filter?. Image and Vision Computing, 2012, 30(2): 65?77 doi:  10.1016/j.imavis.2012.02.009
                      [6] 6 Younes G, Asmar D, Shammas E, J Zelek. Keyframe-based monocular SLAM: design, survey, and future directions. Robotics and Autonomous Systems, 2017, 98: 67?88 doi:  10.1016/j.robot.2017.09.010
                      [7] 7 Olson C F, Matthies L H, Schoppers M, Maimore M W. Rover navigation using stereo ego-motion. Robotics and Autonomous Systems, 2003, 43(4): 215?229 doi:  10.1016/S0921-8890(03)00004-6
                      [8] 8 Zhang Z. Microsoft kinect sensor and its effect. IEEE multimedia, 2012, 19(2): 4?10 doi:  10.1109/MMUL.2012.24
                      [9] Huang A S, Bachrach A, Henry P, et al. Visual odometry and mapping for autonomous flight using an RGB-D camera. Robotics Research. Springer, Cham, 2017: 235−252
                      [10] 10 Jones E S, Soatto S. Visual-inertial navigation, mapping and localization: A scalable real-time causal approach. The International Journal of Robotics Research, 2011, 30(4): 407?430 doi:  10.1177/0278364910388963
                      [11] 11 Martinelli A. Vision and IMU data fusion: Closed-form solutions for attitude, speed, absolute scale, and bias determination. IEEE Transactions on Robotics, 2011, 28(1): 44?60
                      [12] Klein G, Murray D. Parallel tracking and mapping for small AR workspaces In: Proceedings of the 2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality. Nara, Japan: IEEE, 2007. 1−10
                      [13] 13 Mur-Artal R, Montiel J M M, Tardos J D. ORB-SLAM: a versatile and accurate monocular SLAM system. IEEE transactions on robotics, 2015, 31(5): 1147?1163 doi:  10.1109/TRO.2015.2463671
                      [14] 14 Mur-Artal R, Tardós J D. Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras. IEEE Transactions on Robotics, 2017, 33(5): 1255?1262 doi:  10.1109/TRO.2017.2705103
                      [15] Forster C, PizzoliM, Scaramuzza D. SVO: Fast semi-direct monocular visual odometry. In: Proceedings of the 2014 IEEE international conference on robotics and automation (ICRA). Hong Kong, China: IEEE, 2014. 15−22
                      [16] Engel J, Schops T, Cremers D. LSD-SLAM: Large-scale direct monocular SLAM. In: Proceedings of the 2014 European conference on computer vision. Zurich, Switzerland: Springer, 2014. 834−849
                      [17] Engel J, Stückler J, Cremers D. Large-scale direct SLAM with stereo cameras. In: Proceedings of the 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015. 1935−1942
                      [18] 18 Li M, Mourikis A I. High-precision, consistent EKFbased visual-inertial odometry. The International Journal of Robotics Research, 2013, 32(6): 690?711 doi:  10.1177/0278364913481251
                      [19] 19 Leutenegger S, Lynen S, Bosse M, Siegwart R, Furgale P. Keyframe-based visual inertial odometry using nonlinear optimization. The International Journal of Robotics Research, 2015, 34(3): 314?334 doi:  10.1177/0278364914554813
                      [20] 20 Qin T, Li P, Shen S. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, 2018, 34(4): 1004?1020 doi:  10.1109/TRO.2018.2853729
                      [21] 21 Fossum E R. CMOS image sensors: Electronic camera-ona-chip. IEEE transactions on electron devices, 1997, 44(10): 1689?1698 doi:  10.1109/16.628824
                      [22] Delbruck T. Neuromorophic vision sensing and processing. In: Proceedings of the 2016 46th European SolidState Device Research Conference (ESSDERC). Lansanne, Switzerland: IEEE, 2016. 7−14
                      [23] Delbruck T, Lichtsteiner P. Fast sensory motor control based on event-based hybrid neuromorphic-procedural system. In: Proceedings of the IEEE international symposium on circuits and systems. New Orleans, USA: IEEE, 2007. 845−848
                      [24] 24 Delbruck T, Lang M. Robotic goalie with 3 ms reaction time at 4% CPU load using event-based dynamic vision sensor. Frontiers in neuroscience, 2013, 7: 223
                      [25] Glover A, Bartolozzi C. Event-driven ball detection and gaze fixation in clutter. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, Korea: IEEE, 2016. 2203−2208
                      [26] 26 Benosman R, Ieng S H, Clercq C, Bartolozzi C, Srinivasan M. Asynchronous frameless event-based optical flow. Neural Networks, 2012, 27: 32?37 doi:  10.1016/j.neunet.2011.11.001
                      [27] 27 Benosman R, Clercq C, Lagorce X, leng S H, Bartolozzi C. Event-based visual flow. IEEE transactions on neural networks and learning systems, 2013, 25(2): 407?417
                      [28] 28 Rueckauer B, Delbruck T. Evaluation of event-based algorithms for optical flow with ground-truth from inertial measurement sensor. Frontiers in neuroscience, 2016, 10: 176
                      [29] Bardow P, Davison A J, Leutenegger S. Simultaneous optical flow and intensity estimation from an event camera. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LAS VEGAS, USA: IEEE, 2016. 884−892
                      [30] 30 Reinbacher C, Graber G, Pock T. Real-time intensityimage reconstruction for event cameras using manifold regularisation. International Journal of Computer Vision, 2018, 126(12): 1381?1393 doi:  10.1007/s11263-018-1106-2
                      [31] Mahowald M. VLSI analogs of neuronal visual processing: a synthesis of form and function. California Institute of Technology, 1992.
                      [32] 32 Posch C, Serrano-Gotarredona T, Linares-Barranco B, Delbruck T. Retinomorphic event-based vision sensors: bioinspired cameras with spiking output. Proceedings of the IEEE, 2014, 102(10): 1470?1484 doi:  10.1109/JPROC.2014.2346153
                      [33] Lichtsteiner P, Posch C, Delbruck T. A 128 X 128 120 db 30 mw asynchronous vision sensor that responds to relative intensity change. In: Proceedings of the 2006 IEEE International Solid State Circuits Conference-Digest of Technical Papers. San Francisco, CA, USA: IEEE, 2006. 2060−2069
                      [34] 34 Lichtsteiner P, Posch C, Delbruck T. A 128×128 120 dB 15 μs Latency Asynchronous Temporal Contrast Vision Sensor. IEEE Journal of Solid-State Circuits, 2008, 43(2): 566?576 doi:  10.1109/JSSC.2007.914337
                      [35] Son B, Suh Y, Kim S, et al. 4. 1 A 640×480 dynamic vision sensor with a 9 μm pixel and 300 Meps address-event representation. In: Proceedings of the 2017 IEEE International Solid-State Circuits Conference (ISSCC). San Francisco, CA, USA: IEEE, 2017. 66−67
                      [36] 36 Posch C, Matolin D, Wohlgenannt R. A QVGA 143 dB Dynamic Range Frame-Free PWM Image Sensor With Lossless Pixel-Level Video Compression and Time-Domain CDS. IEEE Journal of Solid-State Circuits, 2010, 46(1): 259?275
                      [37] Posch C, Matolin D, Wohlgenannt R. A QVGA 143 dB dynamic range asynchronous address-event PWM dynamic image sensor with lossless pixel-level video compression. In: Proceedings of the 2010 IEEE International Solid-State Circuits Conference-(ISSCC). San Francisco, CA, USA: IEEE, 2010. 400−401
                      [38] Berner R, Brandli C, Yang M, Liu S C, Delbruck T. A 240x180 120 db 10 mw 12 us-latency sparse output vision sensor for mobile applications. In: Proceedings of the International Image Sensors Workshop. Snowbird, Utah, USA: IEEE, 2013. 41−44
                      [39] 39 Brandli C, Berner R, Yang M, Liu S C, Delbruck T. A 240×180 130 db 3 μs latency global shutter spatiotemporal vision sensor. IEEE Journal of Solid-State Circuits, 2014, 49(10): 2333?2341 doi:  10.1109/JSSC.2014.2342715
                      [40] Guo M, Huang J, Chen S. Live demonstration: A 768×640 pixels 200 Meps dynamic vision sensor. In: Proceedings of the 2017 IEEE International Symposium on Circuits and Systems (ISCAS). Baltimore, Maryland, USA: IEEE, 2017. 1−1
                      [41] Li C, Brandli C, Berner R, et al. Design of an RGBW color VGA rolling and global shutter dynamic and active-pixel vision sensor. In: Proceedings of the 2015 IEEE International Symposium on Circuits and Systems (ISCAS). Liston, Portulgal: IEEE, 2015. 718−721
                      [42] Moeys D P, Li C, Martel J N P, et al. Color temporal contrast sensitivity in dynamic vision sensors. In: Proceedings of the 2017 IEEE International Symposium on Circuits and Systems (ISCAS). Baltimore, Maryland, USA: IEEE, 2017. 1−4
                      [43] 43 Marcireau A, Ieng S H, Simon-Chane C, Benosman R B. Event-based color segmentation with a high dynamic range sensor. Frontiers in neuroscience, 2018, 12: 135 doi:  10.3389/fnins.2018.00135
                      [44] Weikersdorfer D, Conradt J. Event-based particle filtering for robot self-localization. In: Proceedings of the 2012 IEEE International Conference on Robotics and Biomimetics (ROBIO). Guangzhou, China: IEEE, 2012. 866−870
                      [45] Weikersdorfer D, Hoffmann R, Conradt J. Simultaneous localization and mapping for event-based vision systems. In: Proceedings of the 2013 International Conference on Computer Vision Systems. St. Petersburg, Russia: Springer, 2013. 133−142
                      [46] Hoffmann R, Weikersdorfer D, Conradt J. Autonomous indoor exploration with an event-based visual SLAM system. In: Proceedings of the 2013 European Conference on Mobile Robots. Barcelona, Catalonia, Spain: IEEE, 2013. 38−43
                      [47] Mueggler E, Huber B, Scaramuzza D. Event-based, 6-DOF pose tracking for high-speed maneuvers. In: Proceedings of the 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago, USA: IEEE, 2014. 2761−2768
                      [48] Kim H, Leutenegger S, Davison A J. Real-time 3D reconstruction and 6-DoF tracking with an event camera. In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016. 349−364
                      [49] 49 Rebecq H, Horstschafer T, Gallego G, Scaramuzza D. EVO: A geometric approach to event-based 6-DOF parallel tracking and mapping in real time. IEEE Robotics and Automation Letters, 2016, 2(2): 593?600
                      [50] Rebecq H, Gallego G, Scaramuzza D. EMVS: Event-based multi-view stereo. In: Proceedings of the 2016 British machine vision conference (BMVC). York, UK: Springer, 2016(CONF).
                      [51] Bryner S, Gallego G, Rebecq H, Scaramuzza D. Eventbased, direct camera tracking from a photometric 3D map using nonlinear optimization. In: the 2019 International Conference on Robotics and Automation (ICRA). Montreal, Canada: IEEE, 2019. 2
                      [52] Censi A, Scaramuzza D. Low-latency event-based visual odometry. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation (ICRA). Hong Kong, China: IEEE, 2014. 703−710
                      [53] Weikersdorfer D, Adrian D B, Cremers D, Conradt J. Eventbased 3D SLAM with a depth-augmented dynamic vision sensor. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation (ICRA). Hong Kong, China: IEEE, 2014. 359−364
                      [54] Tedaldi D, Gallego G, Mueggler E, Scaramuzza D. Feature detection and tracking with the dynamic and active-pixel vision sensor (DAVIS). In: Proceedings of the 2016 Second International Conference on Event-based Control, Communication, and Signal Processing (EBCCSP). Krakow, Poland: IEEE, 2016. 1−7
                      [55] Kueng B, Mueggler E, Gallego G, Scaramuzza D. Lowlatency visual odometry using event-based feature tracks. In: Proceedings of the 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, Korea: IEEE, 2016. 16−23
                      [56] Zhu A Z, Atanasov N, Daniilidis K. Event-based visual inertial odometry. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, USA: IEEE, 2017. 5816−5824
                      [57] Zhu A Z, Atanasov N, Daniilidis K. Event-based feature tracking with probabilistic data association. In: Proceedings of the 2017 IEEE International Conference on Robotics and Automation (ICRA). Marina Bay, Singapore: IEEE, 2017. 4465−4470
                      [58] Mourikis A I, Roumeliotis S I. A multi-state constraint Kalman filter for vision-aided inertial navigation. In: Proceedings of the 2007 IEEE International Conference on Robotics and Automation (ICRA). Roma, Italy: IEEE, 2007. 3565−3572
                      [59] Rebecq H, Horstschaefer T, Scaramuzza D. Real-time Visual-Inertial Odometry for Event Cameras using Keyframe-based Nonlinear Optimization. In: Proceedings of the 2017 British machine vision conference (BMVC). London, UK: Springer, 2017(CONF).
                      [60] 60 Gallego G, Scaramuzza D. Accurate angular velocity estimation with an event cameras. IEEE Robotics and Automation Letters, 2017, 2(2): 632?639 doi:  10.1109/LRA.2016.2647639
                      [61] Rosten E, Drummond T. Machine learning for high-speed corner detection. In: Proceedings of the 2006 European conference on computer vision. Graz, Austria: Springer, 2006. 430−443
                      [62] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision. 1981. 121-130
                      [63] Leutenegger S, Furgale P, Rabaud V, et al. Keyframe-based visual-inertial slam using nonlinear optimization. In: Proceedings of the 2013 Robotis Science and Systems (RSS). Berlin, German, 2013.
                      [64] 64 Vidal A R, Rebecq H, Horstschaefer T, Scaramuzza D. Ultimate SLAM? Combining events, images, and IMU for robust visual SLAM in HDR and high-speed scenarios. IEEE Robotics and Automation Letters, 2018, 3(2): 994?1001 doi:  10.1109/LRA.2018.2793357
                      [65] 65 Mueggler E, Gallego G, Rebecq H, Scaramuzza D. Continuous-time visual-inertial odometry for event cameras. IEEE Transactions on Robotics, 2018, 34(6): 1425?1440 doi:  10.1109/TRO.2018.2858287
                      [66] Mueggler E, Gallego G, Scaramuzza D. Continuous-time trajectory estimation for event-based vision sensors[R]. 2015
                      [67] 67 Patron-Perez A, Lovegrove S, Sibley G. A spline-based trajectory representation for sensor fusion and rolling shutter cameras. International Journal of Computer Vision, 2015, 113(3): 208?219 doi:  10.1007/s11263-015-0811-3
                      [68] 68 Rueckauer B, Delbruck T. Evaluation of event-based algorithms for optical flow with ground-truth from inertial measurement sensor. Frontiers in neuroscience, 2016, 10: 176
                      [69] 69 Barranco F, Fermuller C, Aloimonos Y, Delbruck T. A dataset for visual navigation with neuromorphic methods. Frontiers in neuroscience, 2016, 10: 49
                      [70] 70 Mueggler E, Rebecq H, Gallego G, Delbruck T, Scaramuzza D. The event-camera dataset and simulator: Event-based data for pose estimation, visual odometry, and SLAM. The International Journal of Robotics Research, 2017, 36(2): 142?149 doi:  10.1177/0278364917691115
                      [71] Binas J, Neil D, Liu S C, Delbruck T. DDD17: End-to-end DAVIS driving dataset. arXiv: 1711. 01458, 2017
                      [72] 72 Zhu A Z, Thakur D, Ozaslan T, Pfrommer B, Kumar V, Daniilidis K. The multivehicle stereo event camera dataset: An event camera dataset for 3D perception. IEEE Robotics and Automation Letters, 2018, 3(3): 2032?2039 doi:  10.1109/LRA.2018.2800793
                      [73] Leung S, Shamwell E J, Maxey C, Nothwang W D. Toward a large-scale multimodal event-based dataset for neuromorphic deep learning applications. In: Proceedings of the 2018 Micro-and Nanotechnology Sensors, Systems, and Applications X. International Society for Optics and Photonics. Orlando, Florida, USA: SPIE, 2018. 10639: 106391T
                      [74] Mitrokhin A, Ye C, Fermuller C, Aloimonos Y, Delbruck T. EV-IMO: Motion segmentation dataset and learning pipeline for event cameras. arXiv: 1903. 07520, 2019
                    • [1] 閔永智, 陶佳, 任維卓. 基于特征點位置校正的靶標位姿測量方法[J]. 自動化學報, doi: 10.16383/j.aas.c190217
                      [2] 王碩, 祝海江, 李和平, 吳毅紅. 基于共面圓的距離傳感器與相機的相對位姿標定[J]. 自動化學報, doi: 10.16383/j.aas.c190115
                      [3] 余磊, 廖偉, 周游龍, 楊文, 夏桂松. 基于事件相機的合成孔徑成像[J]. 自動化學報, doi: 10.16383/j.aas.c200388
                      [4] 張芳, 王萌, 肖志濤, 吳駿, 耿磊, 童軍, 王雯. 基于全卷積神經網絡與低秩稀疏分解的顯著性檢測[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170535
                      [5] 范蓉蓉, 唐付林, 吳劭桓, 劉青山. 基于兩個共面圓的無匹配相機位姿計算[J]. 自動化學報, doi: 10.16383/j.aas.c180596
                      [6] 俞毓鋒, 趙卉菁. 基于相機與搖擺激光雷達融合的非結構化環境定位[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170281
                      [7] 謝理想, 萬剛, 曹雪峰, 王慶賀, 王龍. 基于凸優化改進的相機全局位置估計方法[J]. 自動化學報, doi: 10.16383/j.aas.2018.c160639
                      [8] 丁文東, 徐德, 劉希龍, 張大朋, 陳天. 移動機器人視覺里程計綜述[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170107
                      [9] 李曉航, 朱芳來. 延遲不確定馬爾科夫跳變系統的執行器和傳感器故障同時估計方法[J]. 自動化學報, doi: 10.16383/j.aas.2017.c150389
                      [10] 張勇剛, 黃玉龍, 李寧, 趙琳. 帶一步隨機延遲量測非線性序列貝葉斯估計的條件后驗克拉美羅下界[J]. 自動化學報, doi: 10.16383/j.aas.2015.c140391
                      [11] 劉毅, 陳圣磊, 馮國富, 黃兵, 夏德深. 基于圖割的低景深圖像自動分割[J]. 自動化學報, doi: 10.16383/j.aas.2015.c140734
                      [12] 彭義剛, 索津莉, 戴瓊海, 徐文立. 從壓縮傳感到低秩矩陣恢復: 理論與應用[J]. 自動化學報, doi: 10.3724/SP.J.1004.2013.00981
                      [13] 吳培良, 孔令富, 孔亮. 一種普適機器人系統同時定位、標定與建圖方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2012.00618
                      [14] 楊晶東, 楊敬輝, 洪炳熔. 一種有效的移動機器人里程計誤差建模方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2009.00168
                      [15] 秦麗娟, 朱楓. 一種新的基于直線的定位方法[J]. 自動化學報, doi: 10.3724/SP.J.1004.2008.00130
                      [16] 羅繼亮, 吳維敏, 蘇宏業, 褚健. 事件圖的混合控制器設計[J]. 自動化學報, doi: 10.1360/aas-007-0218
                      [17] 任思成, 徐德, 王芳, 譚民. 基于賦時事件圖的周期可重構流水作業構形建模與優化[J]. 自動化學報
                      [18] 楊明, 董斌, 王宏, 張鈸, Helder Araújo. 基于激光雷達的移動機器人實時位姿估計方法研究[J]. 自動化學報
                      [19] 周江華, 劉磊, 管曉宏, 孫國基. Markov離散事件動態系統參數靈敏度估計算法[J]. 自動化學報
                      [20] 隋家賢, 黃蘇南, 夏圈世. 故障檢測與定位[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  4992
                    • HTML全文瀏覽量:  4371
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-07-25
                    • 錄用日期:  2019-12-15
                    • 網絡出版日期:  2020-01-03

                    基于事件相機的定位與建圖算法: 綜述

                    doi: 10.16383/j.aas.c190550
                      基金項目:  國家重點研發計劃(2018YFB1305002), 國家自然科學基金(61773414)資助
                      作者簡介:

                      中山大學數據科學與計算機學院碩士研究生. 2014年獲得中山大學計算機科學與技術學士學位. 主要研究方向為機器人定位與建圖技術. E-mail: mayany3@mail2.sysu.edu.cn

                      中山大學數據科學與計算機學院本科生. 主要研究方向為機器人定位與建圖技術. E-mail: yezh9@mail2.sysu.edu.cn

                      中山大學數據科學與計算機學院博士后. 2019年獲得山東科技大學機電工程學院博士學位. 主要研究方向為自動駕駛環境感知. E-mail: lkhzyf@163.com

                      中山大學數據科學與計算機學院副教授. 于2007年、2013年獲得武漢大學學士、博士學位. 主要研究方向為自動駕駛, 機器人, 人工智能. 本文通信作者. E-mail: chenl46@mail.sysu.edu.cn

                    摘要: 事件相機是一種新興的視覺傳感器, 通過檢測單個像素點光照強度的變化來產生“事件”. 基于其工作原理, 事件相機擁有傳統相機所不具備的低延遲、高動態范圍等優良特性. 而如何應用事件相機來完成機器人的定位與建圖則是目前視覺定位與建圖領域新的研究方向. 本文從事件相機本身出發, 介紹事件相機的工作原理、現有的定位與建圖算法以及事件相機相關的開源數據集. 其中, 本文著重對現有的、基于事件相機的定位與建圖算法進行詳細的介紹和優缺點分析.

                    English Abstract

                    馬艷陽, 葉梓豪, 劉坤華, 陳龍. 基于事件相機的定位與建圖算法: 綜述. 自動化學報, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    引用本文: 馬艷陽, 葉梓豪, 劉坤華, 陳龍. 基于事件相機的定位與建圖算法: 綜述. 自動化學報, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                    Citation: Ma Yan-Yang, Ye Zi-Hao, Liu Kun-Hua, Chen Long. Event-based visual localization and mapping algorithms: a survey. Acta Automatica Sinica, 2020, 46(x): 1?11. doi: 10.16383/j.aas.c190550
                      • 感知自身在空間中的位置、方向、速度以及周圍環境信息, 是自動駕駛系統、移動機器人等無人系統進行自主導航、路徑規劃[1]等任務的前提. 因此, 同時定位與建圖(Simultaneous Localization and Mapping, SLAM)技術[2]被廣泛應用于自動駕駛、移動機器人、無人機、增強現實[3]等領域. 在SLAM算法中常用的傳感器包括全球導航衛星系統(Global Navigation Satellite System, GNSS)、慣性導航系統(Inertial Navigation System, INS)、激光雷達(Light Detection and Ranging, Lidar)、毫米波雷達(Radio Detection and Ranging, Radar)、相機等. 相較于其他傳感器, 相機具有體積小、成本低、易部署、低功耗、能夠提供豐富的信息等優點; 但由于其視野受限、容易受光照影響, 同時無法直接獲得深度信息, 基于視覺的定位與建圖[4-6]方法比其它傳感器的方法更復雜. 因此, 視覺SLAM一直是SLAM領域里備受關注的研究方向.

                        單目相機無法獲得深度信息, 這不僅使單目SLAM算法更復雜, 而且導致通過單目SLAM算法得到的相機位姿和地圖具有尺度不確定性. 而利用多個相機之間的內參(Intrinsic)和外參(Extrinsic), 則可以將多個相機組成雙目或多目相機系統; 然后根據多目相機系統對同一點的組合觀測, 再利用三角測量的原理便可以計算出該點的深度. 早在2003年, Olson等人[7]便使用這種方法進行相機的位姿估計. 然而由于計算量較大, 三角測量通常只能針對稀疏的特征點; 對所有像素進行三角測量和深度恢復, 需要有額外的設備和算法來支持. 隨著傳感器技術的發展, 以微軟的Kinect[8]為代表的RGB-D相機可以通過紅外結構光或飛行時間法(Time of Flight, TOF)來直接獲取場景中的三維信息, 使得RGB-D相機成為視覺SLAM中代替雙目相機的可選方案[9]. 除此之外, 一些研究者結合相機和IMU兩種傳感器來構建視覺 ? 慣性系統(Visual-Inertial System, VIS)[10-11], 利用視覺信息修正IMU的累積誤差, 同時利用IMU提供的線加速度和角速度獲得相機的絕對位姿, 為視覺里程計提供良好的位姿初值, 并且可以為圖像進行運動矯正. 視覺SLAM技術發展至今, 領域內已經有許多經典的算法, 其中基于純視覺的代表性算法有PTAM[12]、ORB-SLAM[13-14]、SVO[15]、LSD-SLAM[16-17]等, 基于視覺 ? 慣性系統的代表性工作有MSCKF[18]、OKVIS[19]以及香港科技大學研發的VINS[20]等.

                        盡管相機憑借其自身的優勢, 在SLAM領域中被廣泛地應用, 但是傳統的CMOS[21]相機(Active Pixel Sensor, APS)存在著不少缺陷: 每個像素需要統一時間曝光, 快速運動時圖像容易產生運動模糊; 相機獲取信息的頻率受曝光時間的限制; 在高動態范圍(High Dynamic Range, HDR)的場景下容易出現圖像部分過曝或部分欠曝的現象, 導致場景細節丟失. 這些缺陷的存在限制了視覺SLAM的使用場景, 因此一類新型的基于事件的動態視覺相機進入了SLAM研究者們的視野. 基于事件的相機(簡稱事件相機)是一類異步(asynchronous)的相機[22], 它的誕生是受到了生物視網膜的啟發. 事件相機不再像傳統的相機那樣需要外部信號來觸發像素統一曝光而獲得完整的圖像, 而是每個像素單獨檢測相對光照變化, 并輸出光照變化的像素地址-事件(Address-Event, AE)流. 圖1[47]為帶一個黑色圓點的勻速旋轉圓盤在事件相機中產生地址-事件流的示意圖. 其中X、Y軸張成像素地址空間, 不同時刻被激發的像素點在時空上形成一條螺旋線.

                        圖  1  事件相機輸出的地址 ? 事件流[47]

                        Figure 1.  Address-event stream output by event-based camera[47]

                        傳統相機的曝光時間是固定的, 即便某個像素上的光照沒有發生變化, 它也會重復曝光. 這種工作原理導致傳統相機輸出的圖像有高延遲、高冗余的缺點. 而事件相機只輸出由光照變化所觸發的“事件”, 因此其輸出的事件流是稀疏的、低延遲以及低冗余的. 此外, 事件相機在高動態范圍的場景下也能良好地工作. 有著上述的優勢, 事件相機在運動物體追蹤[23-25]、光流估計[26-29]、高動態范圍圖像重建[30]等問題上都得到成功的應用.

                        本文將對事件相機及其在SLAM領域的算法做詳細的介紹, 文章結構如下: 第二節將介紹不同類型的事件相機; 第三節將介紹與分析基于事件相機的定位與建圖算法; 用于定位與建圖算法的事件相機數據集將在第四節介紹; 最后, 第五節是總結與展望.

                      • 事件相機的出現, 可以追溯到1992年, Misha Mahowald在他的博士論文[31]中提出了一種新型視覺傳感器“硅視網膜”(“Silicon Retina”). 這是首個輸出地址 ? 事件流的視覺傳感器, 但它只是事件相機的雛形; 像素面積過大導致它無法被實際使用. 在隨后幾十年的發展中, 越來越多像素面積更小, 填充因數(Fill Factor)更大的事件相機被研發出來[32]. 其中被廣泛接受并使用的可分為以下三類: DVS(Dynamic Vision Sensor)、ATIS(Asynchronous Time Based Image Sensor)、DAVIS(Dynamic and Active Pixel Vision Sensor). DVS是輸出只有事件流的事件相機, 而ATIS和DAVIS除了能夠輸出事件流, 還能夠輸出灰度信息. 上述三種事件相機已經有商用產品的版本, 包括iniVation公司的DVS128[34]、DAVIS240[39], Prophesee公司的ATIS[37], CelePixel公司的CeleX-IV[40]. 除此之外, 考慮到無論是自然界動物的視覺還是傳統的APS相機都可以獲取顏色信息, 研究者們嘗試利用濾鏡或分色棱鏡, 將顏色信息融入到事件相機中[41-43]. 不過這方面的工作仍處在學術研究的階段. 本章節的后續部分將對DVS、ATIS、DAVIS這三種事件相機的工作原理進行介紹.

                      • DVS是只輸出地址 ? 事件流(簡稱事件流)的一類事件相機[33-35], 它的單個像素結構和工作原理簡化圖分別如圖2[34]以及圖3[34]所示. 其工作原理與傳統的APS相機截然不同: 每個像素單獨地檢測照射到該像素上的光強對數(Log Intensity)的變化, 并根據光強對數的變化異步地輸出變亮(“ON”)或者變暗(“OFF”)事件. 更具體地說, 當某個像素激發一個變亮或變暗事件時, 它會通過重置操作(Reset)來記錄當前時刻的光強對數, 并持續檢測光強對數的變化. 一旦某個時刻的光強對數相較于記錄中的光強對數的增大或減小量超過一定的閾值, 該像素會激發一個新的變亮或變暗事件, 并記錄新的光強對數. 由像素陣列激發的事件, 經過外圍器件的處理后便可以發送給上位機.

                        圖  2  DVS像素結構原理圖[34]

                        Figure 2.  Abstracted DVS pixel core schematic[34]

                        圖  3  DVS工作原理圖[34]

                        Figure 3.  Principle of DVS operation[34]

                        通常, DVS輸出的事件$ e_k $包含該事件發生的像素地址、時間和事件的類型(極性). 即$ e_k = ({ x}_k,$$t_k,p_k) $, 其中$ { x}_k = (x_k,y_k)^{\rm{T}} $, 表示像素地址; $ t_k $表示該事件發生的時間; $ p_k\in\{+1,-1\} $表示事件的極性, $ p_k = +1 $為變亮事件, 反之則為變暗事件. 規定在像素$ x_k $$ t_k $時刻的光強對數表示為$L({ x}_k,t_k) = $$ \log(I({ x}_k,t_k)) $, 其中$ I $表示光照強度. 事件$ e_k $被激發, 意味著像素$ { x}_k $上的光強對數與該像素上一次激發事件時的光強對數之差, 達到了預先設置的閾值$ \pm C $, 即:

                        $$ \Delta L({ x}_k,t_k) = p_k C $$ (1)

                        其中,

                        $$ \Delta L({ x}_k,t_k) = L({ x}_k,t_k)-L({ x}_k,t_k-\Delta t_k) $$ (2)

                        $ \Delta t_k $表示從像素$ { x}_k $上次激發事件開始經過的時間.

                        上述的事件生成模型, 僅考慮了沒有噪聲的理想情況. 實際上, 任何相機都會受到噪聲的影響, 包括來自感光器的外部噪聲以及內部電路產生的噪聲, DVS也不例外. 通過設置閾值$ C $, 可以調節DVS對噪聲的敏感度: 閾值$ C $越大, DVS對噪聲越不敏感, 但是DVS捕捉到的事件也會相應地減少. 閾值$ C $越小, DVS捕捉到的事件越多, 但信噪比會嚴重降低.

                        在某個像素上的光照強度的改變, 通常是由兩種情況造成的: 場景亮度的改變、場景中的物體或相機自身發生了移動. 并且, 當場景亮度變化越快、場景中的物體或相機自身移動越快時, 單位時間內DVS產生的事件就越多. 事件源源不斷地從DVS中異步地輸出, 形成事件流. 根據硬件和設計的不同, DVS輸出速率可高達300 Meps(events per second, eps)[35], 延遲可低至3微秒[39], 動態范圍可達130 dB. 這樣的特性讓DVS在捕捉高速運動的物體、應對高動態范圍的光照環境、低延遲控制等應用上有著巨大的優勢.

                      • 單純的DVS輸出的事件流, 只提供了事件的像素地址、事件和極性, 而ATIS不僅能輸出上述信息, 還能輸出發生事件的像素的灰度值[36-37]. ATIS的像素結構可以劃分為兩個子像素(以下簡稱甲、乙子像素): 甲子像素包含完整的DVS像素結構, 它可以感應光強對數的變化并激發相應的事件; 在甲子像素激發事件的同時, 它還會激發乙子像素進行“曝光”. ATIS像素中的乙子像素的曝光方式, 與傳統APS相機像素的曝光方式不同. 傳統相機的曝光方式是預置曝光時間, 通過測定曝光后電容兩端的電壓來確定像素的灰度值. 因此, 光照強度越大、曝光時間越長, 像素的灰度值越大. 而ATIS像素中的乙子像素采用一種基于時間的異步曝光方式: 甲子像素激發事件的同時, 乙子像素內的一個電容被重置為高電平. 隨著乙子像素持續受到光照, 電容兩端的電壓下降, 其兩端電壓從高電平下降到低電平所需的時間決定了該像素的灰度值. 電壓下降時間越短, 說明該像素上光照強度越強, 灰度值越高; 下降時間越長, 則說明灰度值越低. 像素的灰度信息是以獨立的事件流的形式輸出的. 這種由事件觸發的基于時間的曝光方式, 使得ATIS相機在高動態范圍的場景下也能獲得較好的灰度圖(傳統APS相機容易過曝或欠曝). 并且只有產生事件的像素會輸出灰度信息, 減少了信息的時間冗余和空間冗余. 然而ATIS相機也有一定的缺陷: 在亮度過低的情況下曝光時間過長. 當曝光時間超過了下一次時間觸發的時間, 電容會被強行重置導致曝光異常終止, 從而導致信息丟失.

                      • DAVIS[38-39]相機也是一種能夠輸出事件流和灰度信息的時間相機, 它是DVS相機和傳統的APS相機的結合體. DAVIS像素也分為兩個子結構, 其中一個子結構用于監測光照變化的事件, 而另一個子結構像傳統的APS相機一樣進行同步的曝光. 不同于ATIS的是, DAVIS像素的兩個子結構是共用同一個感光器的, 而ATIS像素的兩個子像素有各自的感光器. 因此, DAVIS相機的像素面積較ATIS相機的像素面積更小, 前者的填充因數較后者的更大. 通過DAVIS獲取的灰度圖, 和通過傳統APS相機獲取的灰度圖一樣, 具有時間冗余性和空間冗余性, 并且無法承受高動態范圍的環境. 因此, 從功能上看, DAVIS只是DVS和APS的簡單結合體.

                      • 從2012年開始, 機器人領域逐漸出現基于事件相機和事件流的定位與建圖算法的研究. 它們對事件流的使用方式各不相同, 并且其中的部分算法結合了其它傳感器數據, 取得了良好的效果. 本節將按照算法中使用的傳感器和數據作為分類的依據, 對基于事件相機的定位與建圖算法做詳細的介紹. 最后, 我們將本節中介紹的算法概要匯總整理至表1.

                        表 1  文中敘述的部分基于事件相機的SLAM算法及應用

                        Table 1.  Event-based SLAM algorithms and applications

                        相關文獻所使用傳感器維度算法類型是否需要輸入地圖發表時間(年)
                        [44]DVS2D定位2012
                        [45]DVS2D定位與建圖2013
                        [47]DVS3D定位2014
                        [48]DVS3D定位與建圖2016
                        [49]DVS3D定位與建圖2016
                        [51]DVS3D定位2019
                        [52]DVS, 灰度相機3D定位2014
                        [53]DVS, RGB-D相機3D定位與建圖2014
                        [55]DAVIS3D定位2016
                        [56]DAVIS(內置IMU)3D定位2017
                        [59]DAVIS(內置IMU)3D定位與建圖2017
                        [64]DAVIS(內置IMU), RGB相機3D定位與建圖2018
                        [65]DAVIS(內置IMU)3D定位2018
                      • Weikersdorfer等在2012年提出了一種基于事件流與粒子濾波的定位算法[44]. 常規的基于粒子濾波的定位算法迭代主要分為兩個步驟, 即用運動模型預測位姿和用觀測模型校正位姿.[44]預測位姿所使用的運動模型為隨機擴散模型, 而校正位姿使用的觀測模型則是作者提出的指數遞減模型. 傳統相機所拍攝的圖像幀之間是獨立的, 而DVS所輸出的事件流中, 每一個事件并不是獨立的, 作者正是針對該特性提出了指數遞減的事件觀測模型. 此外, 算法每一次位姿預測都是基于單個事件的, 這種方式利用了DVS相機低延遲的特性, 使定位算法的延遲更低、響應更快. 在[44]的實驗中, 機器人在地面上進行二維運動, 并且相機固定朝向天花板, 天花板上有預先布置好的紋理, 機器人到天花板的距離需要預先設定, 同時需要為算法提供天花板紋理的地圖.

                        2013年, Weikersdorfer等對[44]中的文章進行拓展[45], 在粒子濾波的框架外維護了一個動態地圖. 在粒子濾波的每一次迭代中, 先用上一次迭代產生的地圖進行位姿的更新, 再用更新后的位姿來更新地圖. 這使得算法從一個單純的定位算法拓展為同時定位與建圖算法, 不再需要提供先驗的地圖, 移動機器人可以進行定位與建圖. 在[45]的基礎上, 作者結合碰撞檢測器搭建了機器人空間自主探索系統[46]. 系統利用[45]中的算法進行定位和建圖, 并利用碰撞開關來探測墻壁和障礙物, 再利用啟發式的算法進行路徑規劃.[44-46]中, 機器人都只在室內的地面上做3自由度的運動, 并且要求天花板上有特殊的紋理作為算法的前置條件, 這些缺陷限制了算法在實際環境中的應用.

                        Mueggler等在2014年提出了一種基于事件流的6自由度定位算法[47], 該算法建立于一個假設: DVS所檢測到的事件是由地圖中灰度變化強烈的邊緣產生的. 因此算法以預先建好的三維邊緣地圖為輸入, 將地圖中的邊和它產生的事件聯系起來. 在初始化階段, 算法累積一定的事件點形成初始事件圖像幀, 并在該圖像上用Hough變換進行直線檢測, 根據檢測到的線段將事件點與地圖中的邊緣形成關聯.

                        在算法的位姿追蹤階段, 算法根據產生的事件持續更新事件與地圖邊緣的關聯, 將地圖中的邊重投影到像素平面坐標系, 并最小化投影后的邊與相關聯的事件的平方和誤差, 從而計算出相機的位姿$ P $, 下文的公式(3)用數學語言概括了這個過程. 其中, $ l $代表事件相機像素平面某條線段, 它是地圖中的線段$ L_l $在像素平面的投影, $ e_{l,i} $表示與線段$ l $關聯的第$ i $個事件.

                        $$ P^* = \mathop{\arg\min}\limits_{P}\sum\limits_{l = 1}^M {\mathop \sum \limits_{i = 1}^N } {\Vert d({\text{π}}(L_l,P),e_{l,i}) \Vert}^2 $$ (3)

                        算法實驗是在空中機器人(無人機)上進行的: 實驗中機器人在空中進行快速的翻轉, 而算法能很好地跟蹤機器人的位姿. 然而, 文章實驗中用到的地圖較為簡單: 在白墻上貼了一個黑色的正方形, 而且機器人一直面朝這個正方形. 這種形狀簡單, 邊緣明顯的場景為算法的運行提供了便利, 作者并沒有驗證算法在復雜場景下的魯棒性.

                        Hanme Kim等提出了一種基于事件流和拓展卡爾曼濾波的定位與建圖算法[48]. 文章分別使用了三個不同的拓展卡爾曼濾波器(EKF)來估計相機的六自由度位姿、場景的灰度信息以及場景的深度信息. 三個濾波器交錯運行, 每一個濾波器輸出的結果都會被用在其它兩個濾波器中. 算法僅使用DVS事件流, 對相機位姿的估計, 場景灰度的估計以及深度的估計都有著良好的效果. 但在文章的實驗中, 事件相機都是在一個很小的范圍內移動的(在幾十厘米內來回擺動), 而且相機的朝向也沒有很大的變化, 對場景深度和灰度的估計不僅需要對場景同一區域進行多次重復觀測, 還需要較長時間才能收斂. 這些限制可能導致算法無法在相機進行長距離運動的情況下運行.

                        2017年, Rebecq等將事件流累積成事件圖像幀, 提出了基于事件圖像幀的定位與建圖算法EVO[49]. 在算法的建圖部分, Rebecq等使用了他們在2016年提出的基于事件的空間掃描法[50]. 基于事件的空間掃描法將傳統圖像三維重建中常用的空間掃描法拓展到事件相機中, 算法可以總結為三個步驟:

                        1. 根據相機的運動軌跡和記錄的對應時刻產生的事件, 利用相機的內參, 將對應的事件投影到空間中, 形成一條經過相機光心和成像平面上該事件位置的射線.

                        2. 選取一個參考視角, 基于參考視角建立視差空間圖(DSI), 統計DSI中的每個體素被所有射線經過的次數.

                        3. 根據DSI的統計結果來確定某個體素中是否存在物體, 從而完成三維重建.

                        算法[49]中定位的部分, 則是將一定個數的事件累積成事件圖像幀, 并用事件圖像幀與當前已經建出的三維半稠密地圖作匹配, 從而計算出相機的當前位姿. 文章中的實驗表明, 在室內外環境、高動態范圍環境以及相機快速運動的情況下, 算法都具有良好的表現. 作者用開關燈模擬亮度劇烈變化, EVO也能良好地進行位姿追蹤. 唯一的問題在于, 將事件累積成事件圖像幀的過程, 會在一定程度上增加算法的延遲, 這就浪費了DVS低延遲的特性.

                        2019年, Bryner等人提出了一種新的基于非線性優化的定位算法[51]. 與傳統的優化特征點重投影誤差的思路不同的是, Bryner等設計了一種基于光強變化圖像(Intensity-Change Image)的誤差函數. 如圖4所示, 算法根據輸入的三維光度地圖和當前估計的相機位姿, 用GPU計算出當前相機位姿下的灰度圖和深度圖, 然后對灰度圖提取邊緣, 同時根據估計相機速度求出對深度圖求出光流圖, 再結合邊緣圖和光流圖構造估計的光強變化圖$ \Delta \hat{L}({\bf u}) $. 算法根據事件生成模型, 對事件流進行積分獲得測量的光強變化圖$ \Delta L({\bf u}) $. 對$ \Delta \hat{L}({\bf u}) $$ \Delta L({\bf u}) $歸一化后求差值, 便得到了光強變化誤差. 最后, 算法根據光強變化誤差來優化估計的相機位姿以及相機速度, 直到優化收斂. 算法在實驗中的精度表現十分優異: 在合成數據下算法的角度誤差低于0.52°, 在真實數據下算法的角度誤差低于3.84°. 然而由于優化的過程復雜, 算法無法做到實時運行, 甚至比實時慢了2-3個數量級.

                        圖  4  Bryner算法工作流程[51]

                        Figure 4.  The workflow of Bryner's algorithm[51]

                      • Censi等結合使用DVS和普通相機, 提出了一種基于濾波的視覺里程計[52]. 文章提出了一種結合了普通相機輸出的灰度圖和DVS輸出的事件流的觀測模型. 其中心思想是, DVS輸出的事件流是由場景中灰度梯度較大的區域產生的, 而這些區域在灰度圖中能直接獲取. 因此, 算法利用事件流與作者提出的觀測模型相結合, 追蹤兩個普通圖像幀之間的相機位姿, 使定位算法的延遲比普通的基于圖像的視覺里程計更低. 經過作者的實驗, 該算法在姿態估計上有較好的表現, 但對位移的估計表現不佳.

                        Weikersdorfer等基于他們在[45]中的工作, 結合使用DVS和RGB-D相機, 提出了一種6自由度的定位與建圖算法[53]. 與前面的工作一致, 該算法的核心也是粒子濾波算法, 不過粒子中位姿由原先的二維位姿拓展為三維位姿. 對RGB-D相機和DVS相機標定內外參后, 利用RGB-D相機提供的深度圖構建深度映射, 為DVS輸出的事件提供深度, 從而將濾波器中粒子的狀態從二維空間提升到三維空間. 類似[45], 算法也維護了一個動態地圖, 地圖由三維體素網格構成, 采用和[45]中類似的更新方式. 在實驗中, 該算法的最低誤差達到3.1 cm(RMSE); 在不使用GPU加速地情況下, 算法運行速度也能達到實時的20倍. 算法的不足之處在于, 相比起低延遲、高響應速度的DVS, RGB-D提供的深度圖是有延遲的; 這就意味著在快速運動的情況下, 根據深度映射計算出的事件的深度是不夠準確的.

                        Tedaldi等在2016年提出了一種結合圖像和事件流的特征點檢測與追蹤算法[54]. 該算法使用DAVIS相機作為傳感器, 在灰度圖上進行特征點檢測, 并利用事件流來對特征點進行追蹤. 在特征點提取階段, 算法對相機輸出的原始灰度圖使用Canny算子進行邊緣提取, 形成邊緣圖; 同時, 對原始灰度圖提取Harris角點, 作為特征點; 然后對以特征點為中心的方形區塊內的邊緣圖進行二值化, 形成模型點集(model point set), 作為特征點的描述子以供后續的特征點追蹤. 在特征點追蹤階段, 算法將特征點的描述子區塊內發生的事件累積形成數據點集(data point set), 然后將數據點集和描述子的模型點集使用ICP算法進行幾何上的配準, 解算出特征點移動.

                        Kueng等的工作[55]中使用了[54]中的算法進行特征點提取和追蹤, 然后和常規的基于優化的視覺里程計類似, 用深度濾波器來估計特征點的深度, 并且用最小化重投影誤差的方式來解算相機的位姿. 文中的特征點追蹤算法有著很高的時空分辨率, 使得定位延遲低. 不過限于DAVIS中APS部分的自身缺陷, 在特征點提取和邊緣提取的過程中還是會受到運動模糊的影響, 并且APS部分所能承受的動態范圍仍然有限, 這限制了算法的適用場景.

                      • Alex等在2017年提出基于特征和卡爾曼濾波的VIO方法[56], 在傳統的VIO算法上進行了改進, 從事件流中提取特征點在圖像中的移動軌跡并使用濾波方法將該軌跡與IMU的測量數據融合, 完成相機的位姿估計. 在[56]中, 系統將單個特征點和多個與其空間相鄰的事件關聯起來并完成追蹤[57]. 得到特征點在圖像中的移動軌跡后, 使用多狀態約束的卡爾曼濾波器[58]將特征點軌跡與IMU信息相結合, 最終得到估計的相機位姿模型, 并不斷通過新獲取的IMU數據以及高頻的事件流對位姿模型進行更新和修正. 文章中的實驗表明, 使用事件相機來進行特征追蹤較傳統視覺相機而言擁有更小的漂移誤差, 在長距離追蹤中擁有更好的效果. 但由于實驗采用了迭代的EM算法來進行特征的追蹤, 開銷較大, 因此算法無法做到在常規算力平臺(如筆記本電腦)及載具中實時運行.

                        使用濾波方法的SLAM系統的定位和建圖的精度會因為線性化過程導致的誤差的累積而迅速降低. 針對這個現象, Rebecq等在2017年提出基于事件幀和非線性優化的定位與建圖算法[59]. 這個算法的主要思想是將連續的事件流通過給定長度的時間窗口劃分成事件幀, 基于事件幀進行非線性優化完成位姿追蹤. 首先, 將從事件相機得到的連續事件流拆分成一組重疊的時間窗口, 將同窗口內的事件流累計成一個事件幀, 并通過IMU采集到的數據對得到的事件幀進行運動補償[60]. 對于修正完成的事件幀, 使用經典的FAST角點檢測方法[61]和Lucas-Kanade追蹤方法[62]提取和追蹤其中的特征點, 得到用于相機位姿估計的特征點移動軌跡. 最后, 使用非線性優化方法[63]將由特征點的移動軌跡與來自IMU的數據結合, 將IMU誤差項以完全概率的方式與特征重投影誤差緊耦合, 優化聯合了重投影誤差和IMU誤差的非線性代價函數, 周期性地改進相機的軌跡和3D界標的位置. 文章中通過實驗驗證了其方法可在普通筆記本上完成實時的6自由度位姿追蹤以及3D地標的稀疏圖還原.

                        在2018年, Rebecq等繼續對他們在[59]中的工作進行拓展, 首次提出了將事件流、標準圖像幀以及IMU測量數據三者緊耦合融合的狀態估計方法[64]. 方法同時對來自事件相機的事件幀和來自標準相機的圖像幀進行了特征點的追蹤, 并將二者的追蹤結果都作為非線性優化方法的輸入并完成相機位姿的估計. 在[64]中, 作者在四旋翼無人機上搭載了事件相機以及標準相機, 在光源高頻切換、高速旋轉的幾種極端情況下對提出的特征點追蹤方法進行了測試, 并實驗證明了論文提出的方法在多種極端情況下(高動態光照場景和高速運動)均具有優秀的性能, 并且能夠在算力有限的平臺上完成實時計算. 同時, 該方法也擁有更高的準確度, 與僅基于事件幀以及IMU的方法[59]相比提升了130 %, 與僅基于標準圖像幀以及IMU的方法相比提升了85 %.

                        當前主流的VIO算法大多是基于特征的, 即從事件中提取特征點的移動軌跡并與IMU的數據融合完成位姿的追蹤. Mueggler等則在2018年提出了一個不依賴特征點的新方法: 使用連續的時間框架描述基于事件相機的VIO過程[65]. 與基于特征的傳統VIO算法不同, [65]中應用了連續時間框架[66-67], 直接應用事件流中的時間和位置屬性, 將事件和相機位姿建立對應關系, 使用平滑參數模型來描述相機的位姿變化情況. 最后, 使用三次樣條插值、視覺-慣性束調整等優化方法來完成模型的優化, 減少存儲開銷, 提高計算效率. 文章中的實驗顯示在普通算力平臺下方法無法實現實時運行, 需要通過使用高算力平臺(如多GPU)來達到實時運行的結果.

                      • 在硬件方面, 事件相機目前在市場上并不普及, 種類少且價格昂貴. 因此, 關于事件相機的開源數據集是算法開發和測試的重要工具. 好的數據集不僅可以幫助研究者避免硬件系統搭建的麻煩, 還可以幫助研究者對算法進行客觀準確的評估. 本節總結了用于定位與建圖的事件相機數據集, 并對其進行簡要介紹, 最后將數據集的概要歸納至節末的表2中.

                        表 2  DVS公開數據集

                        Table 2.  Dataset provided by event cammera

                        相關文獻所使用傳感器相機運動自由度數據采集場景載具是否提供真值發表時間(年)
                        [53]eDVS相機, RGB-D相機6DOF室內手持2014
                        [68]DAVIS(內置IMU)3DOF(純旋轉)室內, 仿真旋轉基座2016
                        [69]DAVIS, RGB-D相機4DOF室內, 仿真地面機器人和云臺2016
                        [70]DAVIS(內置IMU)6DOF室內 室外 仿真手持室內: 是 室外: 否 仿真: 是2016
                        [71]DAVIS6DOF室外汽車2017
                        [72] 2*DAVIS(內置IMU) 2*RGB相機(內置IMU) 16線激光雷達 6DOF 室內 室外 室內
                        到室外
                        四軸飛行器 摩托車 汽車 手持 2018
                        [73] 2*DAVIS(內置IMU) RGB-D相機3DOF 室內 3*地面機器人 2018
                        [74]DAVIS6DOF室內手持2019
                        [51]DAVIS, IMU6DOF室內, 仿真手持2019

                        [53]的工作中, 作者開放了實驗用的數據集. 數據集中包含了eDVS相機和RGB-D相機輸出的事件流、彩色圖像以及深度圖像. 相機在室內環境做6自由度的運動, 相機位姿的真值則是通過運動采集系統獲取的.

                        [68]中使用內置IMU的DAVIS相機, 采集了在室內環境下相機做純旋轉運動的數據, 相機姿態的真值是通過對陀螺儀的輸出進行角度積分獲取的.

                        數據集[69]中, 作者使用一個地面機器人和一個云臺搭載了DAVIS和RGB-D相機, 提供了機器人在室內運動采集的數據以及作者合成的數據. 由于云臺只能進行偏航角和俯仰角方向的旋轉, 相機的運動只有4自由度. 相機位姿的真值是結合機器人的里程計以及云臺的角度計算出來的.

                        數據集[70]提供了多場景的DAVIS及其內置IMU的數據, 數據集包括室內數據、室外數據以及合成數據. 室內數據的真值來自運動采集系統, 而室外數據部分作者并未提供真值.

                        數據集[71]提供了長距離室外道路場景的DAVIS數據, 由于該數據集原本目的是自動駕駛的車輛控制, 數據集提供了多種車輛控制信息, 但并未提供準確的6自由度位姿真值, 相機位置只能通過車載GPS提供的經緯度信息來獲取.

                        數據集[72]中, 作者搭建了多傳感器的數據采集系統, 該系統包含了一對內置IMU的DAVIS相機、一對內置IMU的RGB相機、一個16線的激光雷達以及一個GPS傳感器. 作者采集了多種場景的數據, 包括室內、室外、室內外切換、白天和黑夜. 除此之外, 數據采集系統搭載于不同的載具: 四軸飛行器、汽車、摩托車以及手持. 作者利用室內運動采集系統和室外運動采集系統等方法提供了真值. 該數據集不僅滿足了第3節中所包含的類型的算法研究需求, 還滿足了雙目事件視覺算法研究的需求. 同時, 多場景和多載具的數據也大大方便了對算法適應性和魯棒性的驗證.

                        數據集[73]使用了三個地面機器人, 每個地面機器人搭載了一對內置IMU的DAVIS相機, 以及一個RGB-D相機. 三個地面機器人在室內地面上同時運動, 并由運動采集系統采集機器人的位姿.

                        文章[51][74]的作者也將他們實驗中所使用的DAVIS數據開放出來.

                        上述數據集都提供了相機運動的真值, 可以用于對基于事件相機的定位與建圖算法進行評估. 值得注意的是, 數據集[68]中相機只做三維空間中的旋轉運動; 數據集[69]中的相機運動缺少豎直方向的位移和滾轉旋轉; 數據集[73]中相機只有水平位移和偏航旋轉. 這三個數據集相機運動均未達到6自由度, 不能夠全面地評估基于事件相機定位與建圖算法的性能. 數據集[71]雖然相機運動達到了6自由度, 但數據集提供的真值只包含其中兩個自由度的信息. 研究者在選用以上四個數據集時, 須注意與其它數據集搭配使用. 此外, 數據集[73]為同一場景下, 多機器人同時采集的數據, 可以用于基于事件相機的多智體協同定位與建圖的研究. 除了用于對基于事件相機的定位與建圖算法的研究, 上述數據集中部分也可以用于對基于事件相機的深度估計、基于事件相機的運動分割等方面的研究. 例如, 數據集[72][74]給出了深度圖的真值, 可以用于研究基于事件相機的深度估計算法. 數據集[69]給出了二維圖像運動場真值, 數據集[74]給出了精確的場景內物體運動軌跡, 可以用于研究基于事件相機的運動分割算法.

                      • 本文以基于事件相機的定位與建圖算法為中心, 介紹了事件相機的種類及其工作原理, 介紹了一些具有代表性的、基于事件相機的定位與建圖算法, 以及與事件相機定位與建圖相關的數據集. 盡管已經有許多基于事件相機的定位與建圖算法被提出來, 但它們仍存在問題. 比如說, [55]中的算法仍然受到了APS相機的限制, 無法應對快速運動; [49]中的算法要把事件流累積成事件圖像幀, 浪費了事件相機低延遲的特性; [48]中的算法被局限于小范圍的相機運動; [51]中的算法需要很長時間才能收斂, 并且需要預先建立精確的三維光度地圖.

                        總的來說, 基于純事件流的定位建圖算法存在的問題主要在于, 微小時間內事件相機獲取的信息較少, 這是由事件相機的分辨率、信噪比以及帶寬所決定的. 這導致基于純事件流的定位建圖算法或要求場景或相機運動簡單, 或需要通過累積事件流形成事件圖像幀. 前者使得算法的實用性下降, 而后者則犧牲了事件相機低延遲的優良特性. 基于事件流與傳統圖像的定位建圖算法存在的問題在于, 對傳統APS相機的依賴導致算法仍會受到相機延遲、運動模糊、高動態范圍環境的影響. 而基于事件相機和IMU的算法是目前表現最佳的一類算法, 既保持了VIO低延遲、高頻輸出的優勢, 又結合了事件相機可以應對低光照和高動態范圍環境的優良特性. 然而IMU的使用會為算法帶來額外的成本.

                        從本文介紹的算法可以看出, 事件相機可以應用于實現低延遲的定位與建圖算法, 可以幫助克服視覺傳感器受運動模糊和高動態范圍環境的影響, 可以提升視覺定位與建圖算法的精度. 但是對于如何利用事件相機進行回環檢測, 降低累積誤差, 并沒有很好的研究工作. 在未來的研究中, 有望對事件相機做進一步的挖掘, 實現更加完善魯棒的定位與建圖算法.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回