2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    結合目標檢測的人體行為識別

                    周波 李俊峰

                    周波, 李俊峰. 結合目標檢測的人體行為識別. 自動化學報, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    引用本文: 周波, 李俊峰. 結合目標檢測的人體行為識別. 自動化學報, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    Citation: Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848

                    結合目標檢測的人體行為識別


                    DOI: 10.16383/j.aas.c180848
                    詳細信息
                      作者簡介:

                      浙江理工大學碩士研究生. 2017年獲浙江理工大學機械與自動控制學院學士學位. 主要研究方向為深度學習, 計算機視覺與模式識別. E-mail: zhoubodewy@163.com

                      浙江理工大學機械與自動控制學院副教授. 2010年獲得東華大學工學博士學位. 主要研究方向為圖像質量評價, 人體行為識別, 產品視覺檢測. 本文通信作者. E-mail: ljf2003@zstu.edu.cn

                    • 基金項目:  國家自然科學基金(61374022), 浙江省基礎公益研究計劃項目(LGG18F030001), 金華市科學技術研究計劃重點項目(2018-1-027)資助

                    Human Action Recognition Combined With Object Detection

                    More Information
                    • Fund Project:  Supported by National Basic Research Program of China (61374022), Zhejiang Basic Public Welfare Research Project (LGG18F030001), and Jinhua Science and Technology Research Program Key Project (2018-1-027)
                    • 摘要: 人體行為識別領域的研究方法大多數是從原始視頻幀中提取相關特征, 這些方法或多或少地引入了多余的背景信息, 從而給神經網絡帶來了較大的噪聲. 為了解決背景信息干擾、視頻幀存在的大量冗余信息、樣本分類不均衡及個別類分類難的問題, 本文提出一種新的結合目標檢測的人體行為識別的算法. 首先, 在人體行為識別的過程中增加目標檢測機制, 使神經網絡有側重地學習人體的動作信息; 其次, 對視頻進行分段隨機采樣, 建立跨越整個視頻段的長時時域建模; 最后, 通過改進的神經網絡損失函數再進行行為識別. 本文方法在常見的人體行為識別數據集UCF101和HMDB51上進行了大量的實驗分析, 人體行為識別的準確率(僅RGB圖像)分別可達96.0%和75.3%, 明顯高于當今主流人體行為識別算法.
                    • 圖  1  VGG特征提取器

                      Fig.  1  VGG feature extractor

                      圖  2  區域候選網絡

                      Fig.  2  Region proposal network

                      圖  3  邊框回歸與類別預測

                      Fig.  3  Boundding box regression and class prediction

                      圖  4  目標區域獲取與圖像變換

                      Fig.  4  Target area acquisition and image transformation

                      圖  5  視頻分段隨機采樣

                      Fig.  5  Video segmentation and random sampling

                      圖  6  I3D網絡

                      Fig.  6  Inflated inception network

                      圖  7  Focal loss參數$\alpha $敏感曲線

                      Fig.  7  Focal loss parameter $\alpha $ sensitivity curve

                      圖  8  不同Focal loss參數條件下實驗精度直方圖

                      Fig.  8  Experimental precision histogram under different focal loss parameters

                      圖  9  混淆矩陣

                      Fig.  9  Confusion matrix

                      圖  10  不同的輸入圖像下I3D網絡測試精度對比

                      Fig.  10  Comparison of I3D network test accuracy under different inputs

                      表  1  HMDB51與UCF101數據集在不同$ \alpha $值下的實驗結果 $(\gamma = 1)$ (%)

                      Table  1  Experimental results of HMDB51 and UCF101 data sets at different $ \alpha $ values $(\gamma = 1)$ (%)

                      HMDB51-FL-$\alpha$ Split1 Split2 Split3 Average UCF101-FL-$\alpha$ Split1 Split2 Split3 Average
                      0.10 60.6 56.5 58.7 58.6 0.1 76.8 77.4 78.4 77.5
                      0.25 76.6 73.6 74.9 75.0 0.25 95.4 96.3 95.4 95.7
                      0.50 76.8 73.8 75.2 75.3 0.5 95.5 96.3 95.9 95.9
                      0.75 76.7 73.9 75.1 75.2 0.75 95.7 96.4 95.6 95.9
                      0.90 76.7 73.8 75.1 75.2 0.9 95.5 96.2 95.7 95.8
                      1.00 76.7 73.8 75.1 75.2 1 95.6 96.3 95.8 95.9
                      下載: 導出CSV

                      表  2  在 Focal loss 的不同參數值條件下的實驗精度對比(%)

                      Table  2  Comparison of experimental precision under different parameter values of focal loss (%)

                      HMDB51 Split 1 Split 2 Split 3 Average UCF101 Split 1 Split 2 Split 3 Average
                      $\alpha$= 0.50, $\gamma$= 0.50 65.3 62.8 63.5 63.9 $\alpha$= 0.50, $\gamma$= 0.50 78.3 78.9 77.4 78.2
                      $\alpha$= 0.50, $\gamma$= 0.75 70.8 67.5 69.2 69.2 $\alpha$= 0.50, $\gamma$= 0.75 86.8 88.4 87.4 87.5
                      $\alpha$= 0.50, $\gamma$= 2.00 76.6 73.7 75.1 75.1 $\alpha$= 0.50, $\gamma$= 2.00 95.4 96.3 96 95.9
                      $\alpha$= 0.50, $\gamma$= 5.00 76.9 73.8 75.3 75.3 $\alpha$= 0.50, $\gamma$= 5.00 95.6 96.3 95.8 95.9
                      $\alpha$= 0.75, $\gamma$= 3.00 76.7 73.7 75.2 75.2 $\alpha$= 0.75, $\gamma$= 3.00 95.5 96.2 95.7 95.8
                      $\alpha$= 0.75, $\gamma$= 5.00 76.7 73.7 75.1 75.2 $\alpha$= 0.75, $\gamma$= 5.00 95.7 96.4 95.9 96
                      $\alpha$= 0.90, $\gamma$= 10.0 76.3 73.4 74.7 74.8 $\alpha$= 0.90, $\gamma$= 10.0 95 95.9 95.5 95.5
                      下載: 導出CSV

                      表  3  UCF101與HMDB51數據集實驗結果(%)

                      Table  3  Experimental results of UCF101 and HMDB51 (%)

                      UCF101-Input Split 1 Split 2 Split 3 Average HMDB51-Input Split 1 Split 2 Split 3 Average
                      CI 87.6 91.7 90.9 90.1 CI 71.3 67.1 68.8 69.7
                      WI 90.4 92.2 92.5 91.7 WI 74.1 70.2 70.6 71.6
                      RI 95.2 95.8 95.4 95.5 RI 75.9 73.1 75.0 74.7
                      CI+RI 91.7 92.7 92.9 92.4 CI+RI 73.3 71.8 72.0 72.4
                      WI+RI 95.7 96.4 96.0 96.0 WI+RI 76.8 73.9 75.3 75.3
                      下載: 導出CSV

                      表  4  不同算法在UCF101和HMDB51數據集上識別準確率對比(%)

                      Table  4  Comparison with the state-of-the-art on UCF101 and HMDB51 (%)

                      算法 Pre-training UCF101 HMDB51
                      LTC[28] Sports-1M 82.4 48.7
                      C3D[23] Sports-1M 85.8 54.9
                      TSN[24] ImageNet 86.4 53.7
                      DTPP[29] ImageNet 89.7 61.1
                      C3D[5] Kinetics 89.8 62.1
                      T3D[30] Kinetics 91.7 61.1
                      ARTNet[31] Kinetics 94.3 70.9
                      TSN[24] ImageNet+Kinetics 91.1 ?
                      I3D[2] ImageNet+Kinetics 95.6 74.8
                      PM without TS & FL ImageNet+Kinetics 95.8 95.1
                      PM without FL ImageNet+Kinetics 95.9 75.1
                      PM without TS ImageNet+Kinetics 95.9 75.2
                      Proposed method (all) ImageNet+Kinetics 96.0 75.3
                      下載: 導出CSV
                      360彩票
                    • [1] 朱紅蕾, 朱昶勝, 徐志剛. 人體行為識別數據集研究進展. 自動化學報, 2018, 44(6): 978?1004

                      Zhu Hong-Lei, Zhu Chang-Sheng, Xu Zhi-Gang. Research advances on human activity recognition datasets. Acta Automatica Sinica, 2018, 44(6): 978?1004
                      [2] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017. 4724−4733
                      [3] Ng Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: Deep networks for video classification. In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015. 4694−4702
                      [4] Hara K, Kataoka H, Satoh Y. Can spatiotemporal 3d CNNs retrace the history of 2d CNNs and imagenet? In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 6546−6555
                      [5] Tran D, Ray J, Shou Z, Chang S F, Paluri M. Convnet architecture search for spatiotemporal feature learning. arXiv: 1708.05038, 2017.
                      [6] Wang H, Schmid C. Action recognition with improved trajectories. In: Proceedings of the 2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE, 2013. 3551−3558
                      [7] Dalal N. Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005. 886−893
                      [8] Chaudhry R. Ravichandran A. Hager G. Vidal R. Histograms of oriented optical flow and Binet-Cauchy kernels on nonlinear dynamical systems for the recognition of human actions. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA: IEEE, 2009. 1932−1939
                      [9] Knopp J, Prasad M, Willems G, Timofte R, VanGool L. Hough transformand 3D SURF for robust threedimensional classification. In: Proceedings of the 11th European Conference on Computer Vision (ECCV2010). Berlin Heidelberg, Germany: Springer. 2010. 589?602
                      [10] Sánchez J, Perronnin F, Mensink T, Verbeek J. Image classification with the fisher vector: Theory and practice. International Journal of Computer Vision, 2013, 105(3): 222?245 doi:  10.1007/s11263-013-0636-x
                      [11] Yang Y H, Deng C, Gao S L, Liu W, Tao D P, Gao X B. Discriminative multi-instance multi-task learning for 3d action recognition. IEEE Transactions on Multimedia, 2017, 19(3): 519?529 doi:  10.1109/TMM.2016.2626959
                      [12] Yang Y H, Deng C, Tao D P, Zhang S T, Liu W, Gao X B. Latent max-margin multi-task learning with skelets for 3d action recognition. IEEE Transactions on Cybernetics, 2017, 47(2): 439?448
                      [13] Kim T S, Reiter A. Interpretable 3d human action analysis with temporal convolutional networks. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, HI, USA: IEEE, 2017. 1623−1631
                      [14] Yang Y, Liu R S, Deng C, Gao X B. Multi-task human action recognition via exploring super-category. Signal Process, 2016, 124: 36?44 doi:  10.1016/j.sigpro.2015.10.035
                      [15] 朱煜, 趙江坤, 王逸寧, 鄭兵兵. 基于深度學習的人體行為識別算法綜述. 自動化學報, 2016, 42(6): 848?857

                      Zhu Yu, Zhao Jiang-Kun, Wang Yi-Ning, Zheng Bing-Bing. A review of human action recognition based on deep learning. Acta Automatica Sinica, 2016, 42(6): 848?857
                      [16] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 1725−1732
                      [17] Ji S W, Xu W, Yang M, Yu K. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221?231 doi:  10.1109/TPAMI.2012.59
                      [18] Donahue J, Hendricks L A, Rohrbach M, Venugopalan S, Guadarrama S, Saenko K. Long-term recurrent convolutional networks for visual recognition and description. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 39(4): 677?691
                      [19] Cho K, Van Merrienboer B, Bahdanau D, Bengio Y. On the properties of neural machine translation: Encoder-decoder approaches. arXiv: 1409.1259, 2014.
                      [20] Zolfaghari M, Singh K, Brox T. ECO: Efficient convolutional network for online video understanding. arXiv: 1804.09066, 2018.
                      [21] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. Advance in Neural Information Processing Systems, 2014, 1(4): 568?576
                      [22] Sevilla-Lara L, Liao Y Y, Guney F, Jampani V, Geiger A, Black M J. On the integration of optical flow and action recognition. arXiv: 1712.08416, 2017.
                      [23] Tran D, Bourdev L, Fergus R, Torresani L, Paluri M. Learning spatiotemporal features with 3d convolutional networks. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015. 4489−4497.
                      [24] Wang L M, Xiong Y J, Wang Z, Qiao Y, Lin D H, Tang X O, Van Gool L. Temporal segment networks: Towards good practices for deep action recognition. In: Proceedings of the 14th European Conference on Computer Vision (ECCV). Amsterdam, the Netherlands: Springer, 2016. 20−36
                      [25] He D L, Li F, Zhao Q J, Long X, Fu Y, Wen S L. Exploiting spatial-temporal modelling and multi-modal fusion for human action recognition. arXiv: 1806.10319, 2018.
                      [26] Lin T Y, Goyal P, Girshick R, He K M, Dollár P. Focal loss for dense object detection. In: Proceedings of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017. 2999?3007
                      [27] Ren S Q, He K M, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137?1149
                      [28] Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1510?1517
                      [29] Zhu J G, Zou W, Zhu Z. End-to-end video-level representation learning for action recognition. In: Proceedings of the 24th International Conference on Pattern Recognition (ICPR). Beijing, China, 2018. 645?650
                      [30] Diba A, Fayyaz M, Sharma V, Karami A H, Arzani M M, Yousefzadeh R, et al. Temporal 3d convnets: New architecture and transfer learning for video classification. arXiv: 1711.08200, 2017.
                      [31] Wang L M, Li W, Li W, Van Gool L. Appearance-and-relation networks for video classification. In: Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018. 1430−1439
                    • [1] 孟琭, 孫霄宇, 趙濱, 李楠. 基于卷積神經網絡的鐵軌路牌識別方法[J]. 自動化學報, 2020, 46(3): 518-530. doi: 10.16383/j.aas.c190182
                      [2] 吳彥丞, 陳鴻昶, 李邵梅, 高超. 基于行人屬性先驗分布的行人再識別[J]. 自動化學報, 2019, 45(5): 953-964. doi: 10.16383/j.aas.c170691
                      [3] 林金花, 姚禹, 王瑩. 基于深度圖及分離池化技術的場景復原及語義分類網絡[J]. 自動化學報, 2019, 45(11): 2178-2186. doi: 10.16383/j.aas.2018.c170439
                      [4] 胡建芳, 王熊輝, 鄭偉詩, 賴劍煌. RGB-D行為識別研究進展及展望[J]. 自動化學報, 2019, 45(5): 829-840. doi: 10.16383/j.aas.c180436
                      [5] 羅浩, 姜偉, 范星, 張思朋. 基于深度學習的行人重識別研究進展[J]. 自動化學報, 2019, 45(11): 2032-2049. doi: 10.16383/j.aas.c180154
                      [6] 李良福, 馬衛飛, 李麗, 陸鋮. 基于深度學習的橋梁裂縫檢測算法研究[J]. 自動化學報, 2019, 45(9): 1727-1742. doi: 10.16383/j.aas.2018.c170052
                      [7] 張號逵, 李映, 姜曄楠. 深度學習在高光譜圖像分類領域的研究現狀與展望[J]. 自動化學報, 2018, 44(6): 961-977. doi: 10.16383/j.aas.2018.c170190
                      [8] 唐賢倫, 杜一銘, 劉雨微, 李佳歆, 馬藝瑋. 基于條件深度卷積生成對抗網絡的圖像識別方法[J]. 自動化學報, 2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470
                      [9] 田娟秀, 劉國才, 谷珊珊, 鞠忠建, 劉勁光, 顧冬冬. 醫學圖像分析深度學習方法研究與挑戰[J]. 自動化學報, 2018, 44(3): 401-424. doi: 10.16383/j.aas.2018.c170153
                      [10] 胡長勝, 詹曙, 吳從中. 基于深度特征學習的圖像超分辨率重建[J]. 自動化學報, 2017, 43(5): 814-821. doi: 10.16383/j.aas.2017.c150634
                      [11] 張慧, 王坤峰, 王飛躍. 深度學習在目標視覺檢測中的應用進展與展望[J]. 自動化學報, 2017, 43(8): 1289-1305. doi: 10.16383/j.aas.2017.c160822
                      [12] 羅建豪, 吳建鑫. 基于深度卷積特征的細粒度圖像分類研究綜述[J]. 自動化學報, 2017, 43(8): 1306-1318. doi: 10.16383/j.aas.2017.c160425
                      [13] 孫曉, 潘汀, 任福繼. 基于ROI-KNN卷積神經網絡的面部表情識別[J]. 自動化學報, 2016, 42(6): 883-891. doi: 10.16383/j.aas.2016.c150638
                      [14] 張暉, 蘇紅, 張學良, 高光來. 基于卷積神經網絡的魯棒性基音檢測方法[J]. 自動化學報, 2016, 42(6): 959-964. doi: 10.16383/j.aas.2016.c150672
                      [15] 耿杰, 范劍超, 初佳蘭, 王洪玉. 基于深度協同稀疏編碼網絡的海洋浮筏SAR圖像目標識別[J]. 自動化學報, 2016, 42(4): 593-604. doi: 10.16383/j.aas.2016.c150425
                      [16] 常亮, 鄧小明, 周明全, 武仲科, 袁野, 楊碩, 王宏安. 圖像理解中的卷積神經網絡[J]. 自動化學報, 2016, 42(9): 1300-1312. doi: 10.16383/j.aas.2016.c150800
                      [17] 隨婷婷, 王曉峰. 一種基于CLMF的深度卷積神經網絡模型[J]. 自動化學報, 2016, 42(6): 875-882. doi: 10.16383/j.aas.2016.c150741
                      [18] 金連文, 鐘卓耀, 楊釗, 楊維信, 謝澤澄, 孫俊. 深度學習在手寫漢字識別中的應用綜述[J]. 自動化學報, 2016, 42(8): 1125-1141. doi: 10.16383/j.aas.2016.c150725
                      [19] 朱煜, 趙江坤, 王逸寧, 鄭兵兵. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報, 2016, 42(6): 848-857. doi: 10.16383/j.aas.2016.c150710
                      [20] 王蒙, 戴亞平, 王慶林. 單目視覺下目標三維行為的時間尺度不變建模及識別[J]. 自動化學報, 2014, 40(8): 1644-1653. doi: 10.3724/SP.J.1004.2014.01644
                    • 加載中
                    圖(10) / 表(4)
                    計量
                    • 文章訪問數:  231
                    • HTML全文瀏覽量:  130
                    • PDF下載量:  103
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2018-12-26
                    • 錄用日期:  2019-06-06
                    • 網絡出版日期:  2020-09-28
                    • 刊出日期:  2020-09-28

                    結合目標檢測的人體行為識別

                    doi: 10.16383/j.aas.c180848
                      基金項目:  國家自然科學基金(61374022), 浙江省基礎公益研究計劃項目(LGG18F030001), 金華市科學技術研究計劃重點項目(2018-1-027)資助
                      作者簡介:

                      浙江理工大學碩士研究生. 2017年獲浙江理工大學機械與自動控制學院學士學位. 主要研究方向為深度學習, 計算機視覺與模式識別. E-mail: zhoubodewy@163.com

                      浙江理工大學機械與自動控制學院副教授. 2010年獲得東華大學工學博士學位. 主要研究方向為圖像質量評價, 人體行為識別, 產品視覺檢測. 本文通信作者. E-mail: ljf2003@zstu.edu.cn

                    摘要: 人體行為識別領域的研究方法大多數是從原始視頻幀中提取相關特征, 這些方法或多或少地引入了多余的背景信息, 從而給神經網絡帶來了較大的噪聲. 為了解決背景信息干擾、視頻幀存在的大量冗余信息、樣本分類不均衡及個別類分類難的問題, 本文提出一種新的結合目標檢測的人體行為識別的算法. 首先, 在人體行為識別的過程中增加目標檢測機制, 使神經網絡有側重地學習人體的動作信息; 其次, 對視頻進行分段隨機采樣, 建立跨越整個視頻段的長時時域建模; 最后, 通過改進的神經網絡損失函數再進行行為識別. 本文方法在常見的人體行為識別數據集UCF101和HMDB51上進行了大量的實驗分析, 人體行為識別的準確率(僅RGB圖像)分別可達96.0%和75.3%, 明顯高于當今主流人體行為識別算法.

                    English Abstract

                    周波, 李俊峰. 結合目標檢測的人體行為識別. 自動化學報, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    引用本文: 周波, 李俊峰. 結合目標檢測的人體行為識別. 自動化學報, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    Citation: Zhou Bo, Li Jun-Feng. Human action recognition combined with object detection. Acta Automatica Sinica, 2020, 46(9): 1961?1970. doi: 10.16383/j.aas.c180848
                    • 目前, 人體行為分析成為一個十分活躍的計算機視覺領域, 包括對剪輯與未剪輯的視頻段進行動作識別、時序動作提名、檢測等研究方向分支. 人體行為識別在物聯網與大數據的環境下具有廣闊的應用場景, 包括體育運動、智能交通、虛擬現實、人機交互等領域. 由于人體行為的高復雜性與場景的多變化性[1], 使得行為識別成為一項非常具有挑戰性的課題.

                      得益于卷積神經網絡(Convolutional neural network, CNN)在圖像處理領域取得的巨大成就以及大數據的發展, 目前基于深度學習的人體行為識別的方法[2-5]已經優于基于經典的手工設計特征的方法[6-10], 且在三維空間的動作識別[11-14]領域也取得了顯著成效.

                      然而, 基于深度學習的人體行為識別方法仍然存在一些難點[15]: 首先, Karpathy等[16]將單幅RGB圖像作為深度學習模型的輸入, 只考慮了視頻的空間表觀特征, 而忽視了視頻與單幅靜態圖像的區別, 沒有對視頻的時域信息進行編碼. 對此, Ji等[17]首次使用3D-CNN來獲得運動信息; Donahue等[18]利用2D-CNN提取視頻幀的表征信息, 緊接著連接一個長短期記憶(Long short-term memory, LSTM)循環神經網絡或者GRU (Gated recurrent unit)等來學習幀與幀之間的運動信息[19]; 與Donahue等[18]的做法不同, Zolfaghari等[20]將2D-CNN之后的循環神經網絡替換成了3D-CNN. Simonyan等[21]首次提出結合RGB圖像與光流圖像的雙流卷積神經網絡的方法, 利用視頻相鄰幀之間的信息差計算出光流作為網絡的輸入, 以期獲得視頻的時域信息. 后來的研究[22] 也表明: RGB與光流的方法相融合可以提高在測試集上的精度. 對于RGB$ + $光流的做法, 計算光流耗時也占用了計算機的額外內存. 所以, Tran等[23]提出一種基于3D-CNN的新的網絡結構, 以期在單一網絡中同時對視頻的空域和時域信息進行編碼, 而3D-CNN相比于2D-CNN的計算量較大.

                      其次, 不論是2D-CNN中堆疊的光流或是3D-CNN中堆疊的RGB圖像, 都只對視頻進行短期的時域信息編碼, 尚未考慮視頻的長時時域信息. 例如, 在一段視頻中, 一個動作延續時間通常是幾秒至幾十秒甚至更長. 對此, Wang等[24]提出了時間段網絡(Temporal segment network, TSN), 一個輸入視頻被分為$ K $段(segment), 而一個片段(snippet)從它對應的段中隨機采樣得到. 不同片段的類別得分采用段共識函數(Segmental consensus function)進行融合來產生段共識(segmental consensus). 最后對所有模型的預測融合產生最終的預測結果.

                      另外, 針對視頻中相鄰兩幀差異很小的情況, Zolfaghari等[20]提出ECO (Efficient convolutional network for online video understanding)以避免過多計算視頻幀中的冗余信息, 從而實現實時動作識別. He等[25]為了提升模型在數據集上的準確度, 提出結合RGB圖像、光流、音頻信息的多模態融合方法, 此方法精度稍高但卻十分占用計算空間與資源.

                      為了讓CNN更好地學習到視頻中的動作信息, 受目標檢測算法的啟發, 本文將區域候選網絡(Region proposal network, RPN)應用于算法中, 將視頻中人所在區域精確地提取出來, 變換到原圖像大小, 以此作為神經網絡的輸入. 考慮到圖像經過目標檢測算法后得出的目標區域必定大小不一, 對此, 在本文算法中, 對每一幅圖片做對齊操作, 確保輸入到網絡的圖片大小一致. 此外, 類似于TSN, 本文還對視頻片段進行分段稀疏采樣以使模型獲得視頻級的表達能力, 并將用于分類的交叉熵函數改進為Lin等[26]提出的焦點損失(Focal loss)函數, 以解決分類問題中類別判斷難以及可能存在的樣本不均衡問題.

                      • 綜合目標檢測算法的精度與速度, 本文采用Ren等[27]提出的Faster-RCNN方法作為目標檢測的框架. 首先, 每張圖片經由特定特征提取網絡提取特征, 得到的特征圖經由區域候選網絡生成約2$ k $個目標候選區域; 其次, 2$ k $個目標候選區域經過ROI 池化層獲得感興趣的區域(Region of interest, ROI), 感興趣的區域經全連接層后產生兩個分支, 經由Bounddingbox regression與Softmax輸出分別得到目標所在原始圖像區域的精準位置信息與其所屬類別的概率; 最后, 對上述目標檢測算法結果的兩個信息進行調整, 得到對目標區域的裁剪圖像與warped圖像. Faster-RCNN目標檢測算法的具體流程如下.

                      • 本文采用預訓練的VGG-Net作為目標檢測的特征提取網絡提取視頻幀的特征圖, 其原理如圖1所示. VGG-Net有13個卷積層, 卷積核大小為3×3, $ padding $值為1, 卷積核水平與垂直移動步長為1, 特征圖大小與原始圖像大小($ W $×$ H $)及卷積層參數關系為

                        圖  1  VGG特征提取器

                        Figure 1.  VGG feature extractor

                        $$ {W = { \left\lfloor {\frac{{W-F+2P}}{{S}}+1} \right\rfloor }} $$ (1)
                        $$ {H = { \left\lfloor {\frac{{H-F+2P}}{{S}}+1} \right\rfloor }} $$ (2)

                        每個卷積層后對應一個激活層, 激活層不改變圖像大小, 所以原始圖像經過卷積層和激活層后的特征圖大小均不會改變. 4個最大池化層對激活層輸出進行$2\times2 $不重疊取最大值降采樣, 所以輸入的圖像經過VGG-Net網絡得到的特征圖的長寬都為原始圖像大小的1/16. 最后得到的特征圖為512維, 即特征圖參數為($ W /16) \times ( H /16)\times 512$維度.

                      • 本文采用的區域候選網絡(RPN)如圖2所示. 在RPN中, 輸入的特征圖經過$kernelsize = 3\times 3,$$ padding = 1, stride = 1 $卷積層與激活層, 大小維度仍不變, 再分別經過兩個1×1的卷積層, 用于整合特征圖不同維度的信息與降維. 位于上方的1×1卷積層輸出anchors將用于二分類, 判斷區域是否存在目標; 而位于下方的卷積層輸出anchors用于做邊框回歸, 初步修正邊框位置. 1×1卷積后的特征圖像素點映射到圖片上的3種長寬比例和3種大小的區域, 以此生成anchors. 最后, 由可能帶有目標信息的anchors與初步修正的邊框信息經過ROI池化層(ROI pooling)生成ROI.

                        圖  2  區域候選網絡

                        Figure 2.  Region proposal network

                      • 生成的ROI經過兩個全連接層加激活層, 再分別進入兩個不同的全連接層進行分類和邊框回歸, 輸出ROI屬于某一類的概率與精確的邊框位置信息, 邊框回歸與類別預測流程如圖3所示.

                        圖  3  邊框回歸與類別預測

                        Figure 3.  Boundding box regression and class prediction

                      • 通過目標檢測算法可以得到目標的Bounding box和對應的類別, 對非目標區域填充黑色得到cropped圖像以及將目標區域擴充到原圖大小得到warped圖像. 而對未能找到圖像中的人物信息或者所有目標anchor的總面積小于原圖面積的1/8的圖像, 取其原圖作為訓練樣本. 采用此方法的原因是: 1)理論上較小區域包含較少的圖像信息; 2)未檢測到人物的圖像可能會丟失主體部分信息. 考慮到人物目標在圖像中大小不確定性與提取圖像中的上下文必要背景信息, 本文將目標區域擴充至coco數據集中的80類, 形成以人物為主體的目標區域提取. 最后得到的結果如圖4所示.

                        圖  4  目標區域獲取與圖像變換

                        Figure 4.  Target area acquisition and image transformation

                      • 為了獲得視頻的長時時域信息, 建立視頻級表達的RGB網絡, 如圖5所示, 在訓練時對視頻幀進行分段隨機采樣. 采用視頻分段隨機采樣的原因是: 1)堆疊的連續視頻幀存在大量的冗余信息; 2)許多方法都是基于局部推理的, 喪失獲取持續時間長達數秒甚至數分鐘的動作之間的相關關系. 本文提出方法類似于TSN, 同樣將視頻幀分為$ K $段, 但與TSN不同的是, TSN將一個片段(snippet)從它對應的段中隨機采樣得到. 不同片段的類別得分采用段共識函數(Segmental consensus function)進行融合來產生段共識(Segmental consensus), 然后對所有模式的預測融合產生最終的預測結果. 本文對每段采集$ N $/$ K $幀圖片, 將$ N $幀圖片按時序順序堆疊, 送入預訓練的I3D網絡中進行識別, 而并非每段視頻對應一個模型, 然后進行模型融合.

                        圖  5  視頻分段隨機采樣

                        Figure 5.  Video segmentation and random sampling

                      • I3D的實現, 將Inception-v1從2D擴展到3D. 對于一個2D的模型, 將它的所有的filters和池化核增加一個時間維度, 例如將$ N $×$ N $的filter變成$ N\times N \times N ,$ 由2D filters得到3D filters. 對$ N $×$ N $的filter重復復制N遍, 再除以$ N $進行歸一化. 確定感受野在空間、時間和網絡深度的尺寸. 2D網絡與對應的3D網絡在水平和豎直方向上的核大小和步長保持一致, 3D網絡在時間維度上的核大小和步長自由決定, 如果時間維度的感受野尺寸比空間維度的大, 將會合并不同物體的邊緣信息. 反之, 將捕捉不到動態場景, I3D網絡結構如圖6所示.

                        圖  6  I3D網絡

                        Figure 6.  Inflated inception network

                      • Inception框架中最后的損失函數為普通的交叉熵函數, $ p $$ y $分別為預測值與真實標簽.

                        $$ CE(p,y) = \left\{\!\! {\begin{array}{*{20}{l}} {- {\ln}(p),}&{\text{若}}{\;y = 1}\\ {- {\ln}(1 - p),}&{\text{否則}} \end{array}} \right. $$ (3)
                        $$ {p\mathop{{}}\nolimits_{{t}}} = \left\{ \!\begin{array}{ll} p, &{\text{若}}\ y = 1 \\ 1-p, & {\text{否則}} \end{array} \right.$$ (4)

                        且重寫

                          ${CE}(p,y) = {CE} \left( p\mathop{{}}\nolimits_{{t}} \right) = -{\ln} \left( p\mathop{{}}\nolimits_{{t}} \right)$

                        本文將其替換為Focal loss函數, 以處理樣本分類難的問題, 轉換后的損失函數為

                        $$ {FL \left( p\mathop{{}}\nolimits_{{t}} \left) = - \alpha \left( 1-p\mathop{{}}\nolimits_{{t}} \left) \mathop{{}}\nolimits^{{ \gamma }}{\ln} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. \right. \right. } $$ (5)

                        Focal loss函數可由式(6)和式(7)結合而成, 式(6)在交叉熵的基礎上增加了調制參數$ \alpha $, $ \alpha $的取值為: 當$ y = 1 $時, $\alpha = a$; 當 $ y = -1 $時, $ \alpha = 1-a $. 當正樣本比例比負樣本少很多時, 取$ a = 0.5 \sim 1 $來增大正樣本對總的損失函數的權重. 這樣即可解決正負樣本不均衡問題.

                        $$ {CE \left( p\mathop{{}}\nolimits_{{t}} \left) = - \alpha {\ln} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. } $$ (6)

                        表1的實驗結果來看(本小節實驗輸入為: WI + RI, 加入了視頻分段隨機采樣), Focal loss函數的參數$ \alpha $對兩個數據集的實驗結果影響甚微. 但是, $ \alpha = 0.5 $$ \alpha = 0.75 $分別在HMDB51與UCF101數據集上較其他值有些微提升. 圖7顯示了Focal loss參數$ \alpha $的敏感曲線. 式(7)引入調制參數$ \gamma $, 當一個樣本被分錯的時候, $ p \mathop{{}}\nolimits_{{t}} $趨近于0時, $ \gamma $趨近于1, 與原不增加調制參數的損失相比, 損失基本不變; 當$ p \mathop{{}}\nolimits_{{t}} $趨近于1時, 此時樣本分類正確且為易分類樣本, $ \gamma $趨近于0, 意味著該類損失在總損失中權重很小.

                        表 1  HMDB51與UCF101數據集在不同$ \alpha $值下的實驗結果 $(\gamma = 1)$ (%)

                        Table 1.  Experimental results of HMDB51 and UCF101 data sets at different $ \alpha $ values $(\gamma = 1)$ (%)

                        HMDB51-FL-$\alpha$ Split1 Split2 Split3 Average UCF101-FL-$\alpha$ Split1 Split2 Split3 Average
                        0.10 60.6 56.5 58.7 58.6 0.1 76.8 77.4 78.4 77.5
                        0.25 76.6 73.6 74.9 75.0 0.25 95.4 96.3 95.4 95.7
                        0.50 76.8 73.8 75.2 75.3 0.5 95.5 96.3 95.9 95.9
                        0.75 76.7 73.9 75.1 75.2 0.75 95.7 96.4 95.6 95.9
                        0.90 76.7 73.8 75.1 75.2 0.9 95.5 96.2 95.7 95.8
                        1.00 76.7 73.8 75.1 75.2 1 95.6 96.3 95.8 95.9

                        圖  7  Focal loss參數$\alpha $敏感曲線

                        Figure 7.  Focal loss parameter $\alpha $ sensitivity curve

                        $$ {CE \left( p\mathop{{}}\nolimits_{{t}} \left) = - \left( 1-p\mathop{{}}\nolimits_{{t}} \left) \mathop{{}}\nolimits^{{ \gamma }}{\rm{log}} \left( p\mathop{{}}\nolimits_{{t}} \right) \right. \right. \right. \right. } $$ (7)

                        由于HMDB51與UCF101數據集實驗精度對Focal loss函數的$ \alpha $參數不敏感, 故在本文中設置$ \gamma $由小到大進行實驗. 表2顯示了實驗精度隨$ \gamma $參數變化的規律. 圖8顯示了表2對應實驗的直方圖.

                        表 2  在 Focal loss 的不同參數值條件下的實驗精度對比(%)

                        Table 2.  Comparison of experimental precision under different parameter values of focal loss (%)

                        HMDB51 Split 1 Split 2 Split 3 Average UCF101 Split 1 Split 2 Split 3 Average
                        $\alpha$= 0.50, $\gamma$= 0.50 65.3 62.8 63.5 63.9 $\alpha$= 0.50, $\gamma$= 0.50 78.3 78.9 77.4 78.2
                        $\alpha$= 0.50, $\gamma$= 0.75 70.8 67.5 69.2 69.2 $\alpha$= 0.50, $\gamma$= 0.75 86.8 88.4 87.4 87.5
                        $\alpha$= 0.50, $\gamma$= 2.00 76.6 73.7 75.1 75.1 $\alpha$= 0.50, $\gamma$= 2.00 95.4 96.3 96 95.9
                        $\alpha$= 0.50, $\gamma$= 5.00 76.9 73.8 75.3 75.3 $\alpha$= 0.50, $\gamma$= 5.00 95.6 96.3 95.8 95.9
                        $\alpha$= 0.75, $\gamma$= 3.00 76.7 73.7 75.2 75.2 $\alpha$= 0.75, $\gamma$= 3.00 95.5 96.2 95.7 95.8
                        $\alpha$= 0.75, $\gamma$= 5.00 76.7 73.7 75.1 75.2 $\alpha$= 0.75, $\gamma$= 5.00 95.7 96.4 95.9 96
                        $\alpha$= 0.90, $\gamma$= 10.0 76.3 73.4 74.7 74.8 $\alpha$= 0.90, $\gamma$= 10.0 95 95.9 95.5 95.5

                        圖  8  不同Focal loss參數條件下實驗精度直方圖

                        Figure 8.  Experimental precision histogram under different focal loss parameters

                        Focal loss函數中的兩個參數$ \alpha $$ \gamma $相互協調進行控制.本文在HMDB51數據集上進行實驗時采用的參數設置為$ \alpha = 0.5 $, $ \gamma = 5 $; 在UCF101數據集上進行實驗時采用的參數設置為$ \alpha = 0.75 $, $\gamma = 5.$

                      • 本文在最常見的行為識別數據集上評估所提出的網絡架構, 主要包括比較受歡迎的數據集UCF101和HMDB51, 以便將其性能與目前主流的方法進行比較.

                        UCF101數據集是從YouTube收集的具有101個動作類別的逼真動作視頻的動作識別數據集, 此數據集是UCF50數據集的擴展. 憑借來自101個動作類別的13 320個視頻, UCF101在動作方面提供了最大的多樣性, 并且存在相機運動、物體外觀和姿勢、物體比例、視點、雜亂背景、照明條件等較大的變化, 它是迄今為止依然具有一定挑戰性的數據集. 101個動作類別中的視頻分為25組, 每組可包含$4\sim 7 $個動作視頻. 來自同一組的視頻可能共享一些共同的功能, 例如類似的背景、類似的觀點等. 動作類別可以分為5種類型: 1) 人?物體相互作用; 2) 僅身體動作; 3) 人?人相互作用; 4) 演奏樂器; 5) 運動.

                        HMDB51數據集內容主要來自電影, 一小部分來自公共數據庫, 如Prelinger存檔、YouTube和Google視頻. 該數據集包含6 849個剪輯, 分為51個動作類別, 每個動畫類別至少包含101個剪輯. 操作類別可以分為5種類型: 1) 一般的面部動作微笑; 2) 對象操縱的面部動作; 3) 一般身體動作; 4) 與對象互動的身體動作; 5) 人體互動的身體動作.

                      • 實驗計算機配置為Intel Core i5-8500@3.0 GHz, NVIDA GeForce 1080 TI GPU, 操作系統為Windows 10. 實驗中, 卷積神經網絡基于Tensorflow平臺設計實現. 網絡訓練采用小批量隨機梯度下降法, 動量為0.9, 權值在每10個epoch衰減1次, 衰減率為0.1, HMDB51數據集的批大小為6, UCF101數據集的批大小為8. 采用在ImageNet + Kinetics行為庫上預訓練的Inception 3D網絡, 初始學習率設為0.001.

                      • 表3顯示了本文算法在行為識別數據集UCF101和HMDB51上使用不同輸入圖像、Warped圖像與Cropped圖像的識別結果. 分別對數據集劃分的3個子數據集進行訓練, 測試準確度, 最后對所有測試集結果取平均.

                        表 3  UCF101與HMDB51數據集實驗結果(%)

                        Table 3.  Experimental results of UCF101 and HMDB51 (%)

                        UCF101-Input Split 1 Split 2 Split 3 Average HMDB51-Input Split 1 Split 2 Split 3 Average
                        CI 87.6 91.7 90.9 90.1 CI 71.3 67.1 68.8 69.7
                        WI 90.4 92.2 92.5 91.7 WI 74.1 70.2 70.6 71.6
                        RI 95.2 95.8 95.4 95.5 RI 75.9 73.1 75.0 74.7
                        CI+RI 91.7 92.7 92.9 92.4 CI+RI 73.3 71.8 72.0 72.4
                        WI+RI 95.7 96.4 96.0 96.0 WI+RI 76.8 73.9 75.3 75.3

                        實驗結果表明, Warped圖像比Cropped圖像具有更高的可辯別性, 原因在于Cropped圖像比Warped圖像多了黑色區域. 而事實上每個類的圖片因anchor大小及比例不固定的原因都存在這樣的黑色區域. 因此, 相同分辨率的WI圖像比CI圖像具有更少的冗余信息和更多的有效信息. WI + RI圖像相對原始圖片而言, 在減少噪聲的同時, 擴大了人體動作區域在圖像中的所占比重, 使得訓練結果有所提升.

                        圖9顯示了UCF101和HMDB51數據集的不同類別圖像在第1個分組的測試集上的混淆矩陣圖, UCF101數據集因預測準確率較高無法直觀地從混淆矩陣中看出模型預測各類別時準確率的差異; 而HMDB51數據集可以明顯地看出, 在第48類, 49類WI + RI的預測概率分別比后兩者有顯著提升.

                        圖  9  混淆矩陣

                        Figure 9.  Confusion matrix

                        圖10顯示了不同輸入圖像下的I3D網絡一些類別的測試精度對比. 包含兩個數據集上的WI + RI較CI + RI與CI預測概率提升最大的類別、最平穩的的類別以及下降最大的類別. HMDB51第48類throw位于提升最大類別之中, 與圖7的混淆矩陣相符. 兩個數據集上相對提升最大的類別是, eat, throw, fall_floor, kayaking, bowling, frisbeecatch. 這些行為相對右邊的行為而言背景占據較大范圍且與行為相關性強. 行為相對下降最多的是shoot_ball, laugh, shake_hands, lunges, shavingbeard, mixing. 這些行為相對人體占據圖像小或動作幅度不大, 所以完全去除背景能夠更有效提升該行為的識別率.

                        圖  10  不同的輸入圖像下I3D網絡測試精度對比

                        Figure 10.  Comparison of I3D network test accuracy under different inputs

                        表4顯示了本文提出的算法與現有其他算法在行為識別數據集UCF101和HMDB51上的對比結果. 在不對輸入進行分段隨機采樣且不采用Focal loss函數的情況下, 實驗結果顯示利用目標檢測算法能夠有效地學習視頻中人物的動作信息并加以辨別. 本文用WI + RI的圖像輸入形式在刪減過多背景信息與保留必要的背景信息中取得平衡, 有效地提高了行為識別的準確率. 而消融實驗則表明, Focal loss函數與視頻分段隨機采樣策略進一步提高了本文算法的競爭力.

                        表 4  不同算法在UCF101和HMDB51數據集上識別準確率對比(%)

                        Table 4.  Comparison with the state-of-the-art on UCF101 and HMDB51 (%)

                        算法 Pre-training UCF101 HMDB51
                        LTC[28] Sports-1M 82.4 48.7
                        C3D[23] Sports-1M 85.8 54.9
                        TSN[24] ImageNet 86.4 53.7
                        DTPP[29] ImageNet 89.7 61.1
                        C3D[5] Kinetics 89.8 62.1
                        T3D[30] Kinetics 91.7 61.1
                        ARTNet[31] Kinetics 94.3 70.9
                        TSN[24] ImageNet+Kinetics 91.1 ?
                        I3D[2] ImageNet+Kinetics 95.6 74.8
                        PM without TS & FL ImageNet+Kinetics 95.8 95.1
                        PM without FL ImageNet+Kinetics 95.9 75.1
                        PM without TS ImageNet+Kinetics 95.9 75.2
                        Proposed method (all) ImageNet+Kinetics 96.0 75.3
                      • 本文提出了一種結合目標檢測的人體行為識別方法. 通過在人體行為識別算法中加入目標檢測機制, 使神經網絡能夠有側重地學習人體的動作信息, 而減弱部分不必要的背景噪聲干擾, 同時對不合要求的圖像進行替換, 達到平衡背景取舍的作用. 結合視頻分段隨機采樣, 改進I3D網絡的損失函數. 本文提出的算法在常用數據集上進行實驗, 并與其他先進算法進行比較, 體現出了良好的性能, 實驗結果驗證了本文提出方法的有效性.

                    參考文獻 (31)

                    目錄

                      /

                      返回文章
                      返回