2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    多源數據行人重識別研究綜述

                    葉鈺 王正 梁超 韓鎮 陳軍 胡瑞敏

                    葉鈺, 王正, 梁超, 韓鎮, 陳軍, 胡瑞敏. 多源數據行人重識別研究綜述. 自動化學報, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    引用本文: 葉鈺, 王正, 梁超, 韓鎮, 陳軍, 胡瑞敏. 多源數據行人重識別研究綜述. 自動化學報, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    Ye Yu, Wang Zheng, Liang Chao, Han Zhen, Chen Jun, Hu Rui-Min. A survey on multi-source person re-identification. Acta Automatica Sinica, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    Citation: Ye Yu, Wang Zheng, Liang Chao, Han Zhen, Chen Jun, Hu Rui-Min. A survey on multi-source person re-identification. Acta Automatica Sinica, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278

                    多源數據行人重識別研究綜述


                    DOI: 10.16383/j.aas.c190278
                    詳細信息
                      作者簡介:

                      武漢大學計算機學院國家多媒體軟件工程技術研究中心博士研究生. 主要研究方向為圖像處理, 計算機視覺. E-mail: ms.yeyu@whu.edu.cn

                      日本國立信息學研究所學術振興會外國人特別研究員. 2017年獲得武漢大學計算機學院國家多媒體軟件工程技術研究中心博士學位. 主要研究方向為行人重識別和實例搜索. 本文通信作者.E-mail: wangz@nii.ac.jp

                      武漢大學副教授. 2012年獲得中國科學院自動化研究所博士學位. 主要研究方向為多媒體內容分析和檢索, 計算機視覺和模式識別. E-mail: cliang@whu.edu.cn

                      武漢大學副教授. 2009年獲得武漢大學博士學位. 主要研究方向為圖像/視頻壓縮與處理, 計算機視覺和人工智能. E-mail: hanzhen_2003@hotmail.com

                      武漢大學教授. 主要研究方向為多媒體分析, 計算機視覺和安防應急信息處理. E-mail: chenj@whu.edu.cn

                      武漢大學教授. 主要研究方向為多媒體技術與大數據分析, 多媒體信號處理, 音視頻處理, 模式識別, 人工智能. E-mail: hrm1964@163.com

                    • 基金項目:  國家重點研發計劃(2017YFC0803700), 國家自然科學基金青年項目(61801335, 61876135), 湖北省自然科學基金群體項目(2018CFA024, 2019CFB472, 2018AAA062)資助

                    A Survey on Multi-source Person Re-identification

                    More Information
                    • Fund Project:  Supported by National Key Program of China (2017YFC0803700), National Natureal Science Foundation of China (61801335, 61876135), and Natural Science Foundation of Hubei Province(2018CFA024, 2019CFB472, 2018AAA062)
                    • 摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.
                    • 圖  1  行人重識別示意圖

                      Fig.  1  An example illustrating person re-identification

                      圖  2  多源數據行人重識別類型

                      Fig.  2  Scope of multi-source data person re-identification studied in this survey

                      圖  3  一般行人重識別與多源數據行人重識別論文數量和最優效果對比

                      Fig.  3  The state-of-the-art performance and number of papers between general Re-ID and multi-source data Re-ID

                      圖  4  三類多源數據行人重識別方法描述

                      Fig.  4  Three types of methods for multi-source data re-ID

                      表  1  一般行人重識別與多源數據行人重識別的對比

                      Table  1  Comparison of general Re-ID and multi-source data Re-ID

                      一般行人重識別 多源數據行人重識別
                      定義 給定一個監控行人圖像, 檢索跨設備下的該行人圖像的技術 給定一個監控行人的跨類型或模態信息/圖像, 檢索跨設備跨模態下的該行人圖像的技術
                      數據類型 單一類型的圖像 多類型的圖像/視頻、文本、語言、素描等數據信息
                      方法 針對輸入圖像提取穩定、魯棒且能描述和區分不同行人的特征信息, 計算特征相似性, 根據相似性大小排序 使用特定于類型/域的網絡提取該類型/域的特征信息, 通過共享網絡生成特征, 使用合適的損失函數進行訓練并與普通網絡相連確保重識別工作的有效性
                      數據集 單一的可見光圖像、二分類屬性數據集 多種圖像、多種信息、多屬性數據集
                      解決重點和難點 低分辨率、視角和姿勢變化、光照變化、遮擋和視覺模糊性問題 模態變化以及一般行人重識別需要克服的問題
                      下載: 導出CSV

                      表  2  多源數據行人重識別工作中的代表性方法

                      Table  2  A summary of representational methods in multi-source data Re-ID

                      方法 模態 年份 會議/期刊 方法類別 數據集 度量學習 特征模型 統一模態
                      JUDEA[7] 高?低分辨率圖像 2015 ICCV 度量學習 ⑩?? × ×
                      SLD2L[9] 2015 CVPR 字典學習 ??? × ×
                      SALR-REID[8] 2016 IJCAI 子空間學習 ⑩?? ×
                      SING[14] 2018 AAAI 超分辨率 ??? ×
                      CSR-GAN[15] 2018 IJCAI 超分辨率 ⑩?? ×
                      DSPDL[11] 2018 AAAI 字典學習 ??? × ×
                      Zhuang[18] 2018 CVPR 深度對偶學習 ??? ×
                      Wu[22] 紅外?可見光圖像 2017 ICCV 深度零填充 ? × ×
                      TONE[24] 2018 AAAI 度量學習 ? ×
                      Ye[23] 2018 IJCAI 特征學習 ?? ×
                      cmGAN[25] 2018 IJCAI 特征嵌入 ? × ×
                      D2RL[26] 2019 CVPR 圖像生成 ?? ×
                      Barbosa[27] 深度?可見光圖像 2012 ECCV 度量學習 ? × ×
                      Wu[30] 2017 TIP 子空間學習 ??? ×
                      Hafner[31] 2018 CVPR 模態轉移 ?? ×
                      Ye[40] 文本?可見光圖像 2015 ACM 度量學習 ①④? × ×
                      Shi[35] 2015 CVPR 屬性識別 ①⑤? × ×
                      APR[37] 2017 CVPR 屬性識別 ⑦⑧ × ×
                      GNA-RNN[42] 2017 CVPR 密切關系學習 ? × ×
                      CNN-LSTM[41] 2017 ICCV 特征學習 ? × ×
                      MTL-LORAE[39] 2018 PAMI 特征學習 ①③④⑨ ×
                      Pang[45] 素描?可見光圖像 2018 ACM MM 特征學習 ? × ×
                      下載: 導出CSV

                      表  3  常用的一般行人重識別數據集與跨模態行人重識別數據集

                      Table  3  A summary of general Re-ID dataset and multi-source data Re-ID datase

                      類別 數據集名稱 發布時間 數據集類型 人數 相機數量 數據集大小
                      一般行人數據集 ①VIPeR[51] 2008 真實數據集 632 2 1 264幅 RGB 圖像
                      ②3DPES[52] 2011 192 8 1 011 幅 RGB 圖像
                      ③i-LIDS[50] 2009 119 2 476 幅 RGB 圖像
                      ④PRID2011[53] 2011 934 2 1 134 幅 RGB 圖像
                      ⑤CUHK01[48] 2012 971 2 3 884幅 RGB 圖像
                      ⑥CUHK03[6] 2014 1 467 10 13 164幅 RGB 圖像
                      ⑦Market-1501[54] 2015 1 501 6 32 217 幅 RGB 圖像
                      ⑧DukeMT MC-REID[55] 2017 1 812 8 36 441 幅 RGB 圖像
                      ⑨SAIVT-SoftBio[56] 2012 152 8 64 472 幅 RGB 圖像
                      低分辨率行人數據集 ⑩CAVIAR[57] 2011 真實數據集 72 2 720 幅高分辨率圖像
                      500 幅低分辨率圖像
                      ?LR-VIPeR[7, 9-11] 2015 模擬數據集 632 2 1 264 幅 RGB 圖像
                      ?LR-3DPES[7] 2015 192 8 1 011 幅 RGB 圖像
                      ?LR-PRID2011[9, 15] 2015 100 2 200 幅 RGB 圖像
                      ?LR-i-LDIS[9, 11] 2015 119 2 238 幅 RGB 圖像
                      ?SALR-VIPeR[8, 15] 2016 632 2 1 264 幅 RGB 圖像
                      ?SALR-PRID[8, 15] 2016 450 2 900 幅 RGB 圖像
                      ?MLR-VIPeR[14] 2018 632 2 1 264 幅 RGB 圖像
                      ?MLR-SYSU[14] 2018 502 2 3 012 幅 RGB 圖像
                      ?MLR-CUHK03[14] 2018 1 467 2 14 000 幅 RGB 圖像
                      ?LR-CUHK01[11] 2018 971 2 1 942 幅 RGB 圖像
                      ?LR-CUHK03[18] 2018 1 467 10 13 164 幅 RGB 圖像
                      ?LR-Market-1501[18] 2018 1 501 6 32 217 幅 RGB 圖像
                      ?LR-DukeMTMC-REID[18] 2018 1 812 8 36 441 幅 RGB 圖像
                      紅外行人數據集 ?SYSU-MM01[22] 2017 真實數據集 491 6 287 628 幅 RGB 圖像
                      15 792幅紅外圖像
                      ?RegDB[58] 2017 412 2 4 120 幅 RGB 圖像
                      4 120 幅紅外圖像
                      深度圖像行人數據集 ?PAVIS[27] 2012 真實數據集 79 ? 316 組視頻序列
                      ?BIWI RGBD-ID[28] 2014 50 ? 22 038 幅 RGB-D 圖像
                      ?IAS-Lab RGBD-ID[28] 2014 11 ? 33 個視頻序列
                      ?Kinect REID[59] 2016 71 ? 483 個視頻序列
                      ?RobotPKU RGBD-ID[60] 2017 90 ? 16 512 幅 RGB-D 圖像
                      文本行人數據集 ?PETA[34] 2014 真實數據集 8 705 ? 19 000 幅圖像
                      66 類文字標簽
                      ?CUHK-PEDES[42] 2017 13 003 ? 40 206 幅圖像
                      80 412 個句子描述
                      素描行人數據集 ?Sketch Re-ID[45] 2018 真實數據集 200 2 400 幅 RGB 圖像
                      200 幅素描
                      下載: 導出CSV

                      表  4  幾種多源數據行人重識別方法在常用的行人數據集上的識別結果

                      Table  4  Comparison of state-of-the-art methods on infra-red person re-identification dataset

                      數據集 算法 年份 Rank1 (%) Rank5 (%) Rank10 (%)
                      低分辨率 VIPeR SLD2L[9] 2015 16.86 41.22 58.06
                      MVSLD2L[10] 2017 20.79 45.08 61.24
                      DSPDL[11] 2018 28.51 61.08 76.11
                      CAVIAR JUDEA[7] 2015 22.12 59.56 80.48
                      SLD2L[9] 2015 18.40 44.80 61.20
                      SING[14] 2018 33.50 72.70 89
                      紅外 SYSU-MM01 Wu等[22] 2017 24.43 ? 75.86
                      Ye等[23] 2018 17.01 ? 55.43
                      CMGAN[25] 2018 37.00 ? 80.94
                      RegDB Ye等[23] 2018 33.47 ? 58.42
                      TONE[24] 2018 16.87 ? 34.03
                      深度圖像 BIWI RGBD-ID Wu等[30] 2017 39.38 72.13 ?
                      Hafner[31] 2018 36.29 77.77 94.44
                      PAVIS Wu等[30] 2017 71.74 88.46 ?
                      Ren等[63] 2017 76.70 87.50 96.10
                      素描 SKETCH Re-ID Pang等[45] 2018 34 56.30 72.50
                      文本 VIPeR Shi等[35] 2015 41.60 71.90 86.20
                      SSDAL[38] 2016 43.50 71.80 81.50
                      MTL-LORAE[39] 2018 42.30 42.30 81.6
                      PRID SSDAL[38] 2016 22.60 48.70 57.80
                      MTL-LORAE[39] 2018 18 37.40 50.10
                      Top1 Top10
                      文本 CUHK-PEDES CNN-LSTM[41] 2017 25.94 60.48
                      GNA-RNN[42] 2017 19.05 53.64
                      下載: 導出CSV
                      360彩票
                    • [1] 宋婉茹, 趙晴晴, 陳昌紅, 干宗良, 劉峰. 行人重識別研究綜述. 智能系統學報, 2017, 12(6): 770?780

                      Song Wan-Ru, Zhao Qing-Qing, Chen Chang-Hong, Gan Zong-Liang, Liu Feng. Survey on pedestrian re-identification research. CAAI Transactions on Intelligent Systems, 2017, 12(6): 770?780
                      [2] 李幼蛟, 卓力, 張菁, 李嘉鋒, 張輝. 行人再識別技術綜述. 自動化學報, 2018, 44(9): 1554?1568

                      Li You-Jiao, Zhuo Li, Zhang Jing, Li Jia-Feng, Zhang Hui. A survey of person re-identification. Acta Automatica Sinica, 2018, 44(9): 1554?1568
                      [3] 鄭偉詩, 吳岸聰. 非對稱行人重識別: 跨攝像機持續行人追蹤. 中國科學: 信息科學, 2018, 48(5): 545?563

                      Zheng Wei-Shi, Wu An-Cong. Asymmetric person re-identification: cross-view person tracking in a large camera network. Scientia Sinica Informationis, 2018, 48(5): 545?563
                      [4] 王正. 條件復雜化行人重識別關鍵技術研究[博士學位論文]. 武漢大學, 中國, 2017.

                      Wang Zheng. Person Re-identification in Complicated Conditions [Ph.D. dissertation], Wuhan University, China, 2017.
                      [5] Zhu X, Jing X Y, You X, Zuo W, Shan S, Zheng W S. Image to video person re-identification by learning heterogeneous dictionary pair with feature projection matrix. IEEE Transactions on Information Forensics and Security, 2018, 13(3): 717?732 doi:  10.1109/TIFS.2017.2765524
                      [6] Li W, Zhao R, Xiao T, Wang X G. DeepReID: deep filter pairing neural network for person re-identification. In: Proceedings of the 27th IEEE International Conference of Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014. 152−159
                      [7] Li X, Zheng W, Wang X, Xiang T, Gong S. Multi-scale learning for low-resolution person re-identification. In: Proceedings of the 28th IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 3765−3773
                      [8] Wang Z, Hu R M, Yu Y, Jiang J J, Chao L, Wang J Q. Scale-adaptive low-resolution person re-identification via learning a discriminating surface. In: Proceedings of the 2016 International Joint Conference on Artificial Intelligence. New York, USA, 2016. 2669−2675
                      [9] Jing X Y, Zhu X K, Wu F, You X G, Liu Q L, Yue D, et al. Super-resolution person re-identification with semi-coupled low-rank discriminant dictionary learning. In: Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 695−704
                      [10] Jing X Y, Zhu X K, Wu F, Hu R M, You X G, Wang Y H, et al. Super-resolution person re-identification with semi-coupled low-rank discriminant dictionary learning. IEEE Transactions Image Process, 2017, 26(3): 1363?1378 doi:  10.1109/TIP.2017.2651364
                      [11] Li K, Ding Z M, Li S, Fu Y. Discriminative semi-coupled projective dictionary learning for low-resolution person re-identification. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Louisiana, USA: IEEE, 2018. 2331?2338
                      [12] Wang S Y, Ding Z M, Fu Y. Coupled marginalized auto-encoders for cross-domain multi-view learning. In: Proceedings of the 2016 International Joint Conference on Artificial Intelligence. New York, USA, 2016. 2125−2131
                      [13] Liao S C, Li S Z. Efficient psd constrained asymmetric metric learning for person re-identification. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 3685−3693
                      [14] Jiao J N, Zheng W S, Wu A C, Zhu X T, Gong S G. Deep low-resolution person re-identification. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Louisiana, USA: IEEE, 2018. 6967?6974
                      [15] Wang Z, Ye M, Yang F, Bai X, Satoh S I. Cascaded SR-GAN for scale-adaptive low resolution person re-identification. In: Proceedings of the 2018 International Joint Conferences on Artificial Intelligence. Stockholm, Sweden, 2018. 3891−3897
                      [16] Wang Y, Wang L Q, You Y R, Zou X, Chen V, Li S, et al. Resource aware person re-identification across multiple resolutions. In: Proceedings of the 31st IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1−10
                      [17] He K M, Zhang X Y, Ren S Q, Jian S. Deep residual learning for image recognition. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 770−778
                      [18] Zhuang Z J, Ai H Z, Chen L, Shang C. Cross-resolution person re-identification with deep antithetical learnin. In: Proceedings of the 31st IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1?16
                      [19] Kai J L, Arens M. Local feature based person reidentification in infrared image sequences. In: Proceedings of the 7th IEEE International Conference on Advanced Video and Signal Based Surveillance. Boston, USA: IEEE, 2010. 448−455
                      [20] Møgelmose A, Bahnsen C, Moeslund T B, Clapes A, Escalera S. Tri-modal person re-identification with RGB, depth and thermal features. In: Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, USA: IEEE, 2013. 301?307
                      [21] Bay H, Ess A, Tuytelaars T, Gool L V. Speeded-up robust features. Computer Vision and Image Understanding, 2008, 110(3): 346?359 doi:  10.1016/j.cviu.2007.09.014
                      [22] Wu A C, Zheng W S, Yu H X, Gong S G, Lai J H. RGB-infrared cross-modality person re-identification. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 5390−5399
                      [23] Ye M, Wang Z, Lan X Y, Yuen P C. Visible thermal person re-identification via dual-constrained top-ranking. In: Proceedings of the 2018 International Joint Conferences on Artificial Intelligence. Stockholm, Sweden, 2018. 1092−1099
                      [24] Ye M, Lan X Y, Li J W, Yuen P C. Hierarchical discriminative learning for visible thermal person re-identification. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Louisiana, USA: AAAI, 2018. 7501?7508
                      [25] Dai P Y, Ji R R, Wang H B, Wu Q, Huang Y Y. Cross-modality person re-identification with generative adversarial training. In: Proceedings of the 2018 International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018. 677?683
                      [26] Wang Z X, Wang Z, Zheng Y Q, Chuang Y-Y, Satoh S I. Learning to reduce dual-level discrepancy for infrared-visible person re-identification. In: Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, California, USA: IEEE, 2019. 618−626
                      [27] Barbosa I B, Cristani M, Bue A D, Bazzani L, Murino V. Re-identification with RGB-D sensors. In: Proceedings of the 12th International Conference on Computer Vision. Florence, Italy: ECCV, 2012. 433−442
                      [28] Matteo M, Alberto B, Andrea F, Luc V G, Menegatti E. 3D reconstruction of freely moving persons for reidentification with a depth sensor. In: Proceedings of the 2014 IEEE International Conference on Robotics and Automation. Hong Kong, China: IEEE, 2014. 4512?4519
                      [29] Haque A, Alahi A, Li F F. Recurrent attention models for depth-based person identification. In: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1229?1238
                      [30] Wu A C, Zheng W S, Lai J H. Robust depth-based person re-identification. IEEE Transactions on Image Processing, 2017: 2588?2603
                      [31] Hafner F, Bhuiyan A, Kooij J F P, Granger E. A cross-modal distillation network for person re-identification in rgb-depth. In: Proceedings of the 31st IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018. 1?18
                      [32] Gupta S, Hoffman J, Malik J. Cross modal distillation for supervision transfer. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 2827?2836
                      [33] Jason T, Jeanette B G, Daniel B, Michael C, Heather Z. Person attribute search for large-area video surveillance. In: Proceedings of the 2012 IEEE International Conference on Technologies for Homeland Security. Boston, USA: IEEE, 2012. 55?61
                      [34] Deng Y B, Luo P, Loy C C, Tang X O. Pedestrian attribute recognition at far distance. In: Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, USA: ACM MM, 2014. 789?792
                      [35] Shi Z Y, Hospedales T M, Xiang T. Transferring a semantic representation for person re-identification and search. In: Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA: IEEE, 2015. 4184−4193
                      [36] Wang Z, Hu R M, Yu Y, Liang C, Huang W X. Multi-level fusion for person re-identification with incomplete marks. In: Proceedings of the 23rd ACM International Conference on Multimedia. Brisbane, Australia: ACM MM, 2015. 1267?1270
                      [37] Lin Y T, Liang Z, Zheng Z D, Yu W, Yi Y. Improving person re-identification by attribute and identity learning. In: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA: IEEE, 2017: 1?10
                      [38] Su C, Zhang S L, Xing J L, Wen G, Qi T. Deep attributes driven multi-camera person re-identification. In: Proceedings of the 2016 European Conference on Computer Vision. Amsterdam, the Netherlands, 2016. 475?491
                      [39] Su C, Yang F, Zhang S L, Tian Q, Davis L S, Gao W. Multi-task learning with low rank attribute embedding for multi-camera person re-identification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(5): 1167?1181 doi:  10.1109/TPAMI.2017.2679002
                      [40] Ye M, Liang C, Wang Z, Leng Q M, Chen J, Liu J. Specific person retrieval via incomplete text description. In: Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China: ACM, 2015. 547−550
                      [41] Li S, Xiao T, Li H S, Yang W, Wang X G. Identity-aware textual-visual matching with latent co-attention. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 1890−1899
                      [42] Li S, Xiao T, Li H S, Zhou B L, Yue D Y, Wang X G. Person search with natural language description. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 5187−5196
                      [43] Galoogahi H K, Sim T. Face photo retrieval by sketch example. In: Proceedings of the 20th ACM International Conference on Multimedia. Nara, Japan: ACM, 2012. 949?952
                      [44] Zhang W, Wang X G, Tang X O. Coupled information-theoretic encoding for face photo-sketch recognition. In: Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2011. 513−520
                      [45] Pang L, Wang Y W, Song Y Z, Huang T J, Tian Y H. Cross-domain adversarial feature learning for sketch re-identification. In: Proceedings of the 2018 ACM Multimedia Conference on Multimedia Conferenc. Seoul, Korea: ACM, 2018. 609−617
                      [46] Yu Q, Liu F, Song Y Z, Xiang T, Hospedales T M, Chen C L. Sketch me that shoe. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 799−807
                      [47] Gray D, Brennan S, Tao H. Evaluating appearance models for recognition, reacquisition, and tracking. In: Proceedings of the 10th International Workshop on Performance Evaluation for Tracking and Surveillance. Rio de Janeiro, Brazil: IEEE, 2007. 1−7
                      [48] Li W, Zhao R, Wang X G. Human reidentification with transferred metric learning. In: Proceedings of the 2012 Asian Conference on Computer Vision. Daejeon, Korea, 2012. 31?44
                      [49] Roth P M, Martin H, K?stinger M, Beleznai C, Bischof H. Mahalanobis distance learning for person re-identification. Person Re-Identification, 2014: 247?267
                      [50] Zheng W S, Gong S G, Tao X. Associating groups of people. In: Proceedings of the 2009 British Machine Vision Conference. London, UK, 2009: 1?11
                      [51] Gray D, Hai T. Viewpoint invariant pedestrian recognition with an ensemble of localized features. In: Proceedings of the 10th European Conference on Computer Vision. Marseille, France, 2008. 262−275
                      [52] Baltieri D, Vezzani R, Cucchiara R. 3Dpes: 3D people dataset for surveillance and forensics. In: Proceedings of the 2011 ACM Joint ACM Workshop on Human Gesture and Behavior Understanding. Scottsdale, USA: ACM, 2011. 59?64
                      [53] Hirzer M, Beleznai C, Roth P M, Bischof H. Person re-identification by descriptive and discriminative classification. In: Proceedings of the 2011 Scandinavian Conference on Image Analysis. Ystad, Sweden, 2011. 91?102
                      [54] Zheng L, Shen L Y, Tian L, Wang S J, Wang J D, Tian Q. Scalable person re-identification: A benchmark. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2380?7504
                      [55] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. In: Proceedings of the 2017 IEEE International Conference on Computer Vision. Honolulu, USA: IEEE, 2017. 3774−3782
                      [56] Bialkowski A, Denman S, Sridharan S, Fookes C, Lucey P. A database for person re-identification in multi-camera surveillance networks. In: Proceedings of the 2012 International Conference on Digital Image Computing Techniques and Applications. Fremantle, Australia, 2012. 1?8
                      [57] Dong S C, Cristani M, Stoppa M, Bazzani L, Murino V. Custom pictorial structures for re-identification. In: Proceedings of the 2011 British Machine Vision Conference. Dundee, Scotland, 2011. 1?11
                      [58] Nguyen D T, Hong H G, Kim K W, Park. K R. Person recognition system based on a combination of body images from visible light and thermal cameras. Sensors, 2017, 17(3): 605?633 doi:  10.3390/s17030605
                      [59] Pala F, Satta R, Fumera G, Roli F. Multimodal person reidentification using RGB-D cameras. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(4): 788?799 doi:  10.1109/TCSVT.2015.2424056
                      [60] Hong L, Liang H, Ma L Q. Online RGB-D person re-identification based on metric model update. CAAI Transactions on Intelligence Technology, 2017, 2(1): 48?55 doi:  10.1016/j.trit.2017.04.001
                      [61] Joost V D W, Cordelia S, Jakob V, Diane L. Learning color names for real-world applications. IEEE Transactions on Image Processing, 2009, 18(7): 1512?1523 doi:  10.1109/TIP.2009.2019809
                      [62] Zhu J Q, Liao S C, Lei Z, Yi D, Li S. Pedestrian attribute classification in surveillance: Database and evaluation. In: Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Sydney, Australia: IEEE, 2013. 331?338
                      [63] Ren L L, Lu J W, Feng J J, Zhou J. Multi-modal uniform deep learning for RGB-D person re-identification. Pattern Recognition, 2017, 72: 446?457 doi:  10.1016/j.patcog.2017.06.037
                    • [1] 周勇, 王瀚正, 趙佳琦, 陳瑩, 姚睿, 陳思霖. 基于可解釋注意力部件模型的行人重識別方法[J]. 自動化學報, 2020, 41(): 1-13. doi: 10.16383/j.aas.c200493
                      [2] 劉卓, 湯健, 柴天佑, 余文. 基于多模態特征子集選擇性集成建模的磨機負荷參數預測方法[J]. 自動化學報, 2020, 46(): 1-11. doi: 10.16383/j.aas.c190735
                      [3] 羅浩, 姜偉, 范星, 張思朋. 基于深度學習的行人重識別研究進展[J]. 自動化學報, 2019, 45(11): 2032-2049. doi: 10.16383/j.aas.c180154
                      [4] 文丹艷, 馬超群, 王琨. 一種多源數據驅動的自動交易系統決策模型[J]. 自動化學報, 2018, 44(8): 1505-1517. doi: 10.16383/j.aas.2018.c170563
                      [5] 李霞, 盧官明, 閆靜杰, 張正言. 多模態維度情感預測綜述[J]. 自動化學報, 2018, 44(12): 2142-2159. doi: 10.16383/j.aas.2018.c170644
                      [6] 姚濤, 孔祥維, 付海燕, TIANQi. 基于映射字典學習的跨模態哈希檢索[J]. 自動化學報, 2018, 44(8): 1475-1485. doi: 10.16383/j.aas.2017.c160433
                      [7] 楊默涵, 陳萬忠, 李明陽. 基于總體經驗模態分解的多類特征的運動想象腦電識別方法研究[J]. 自動化學報, 2017, 43(5): 743-752. doi: 10.16383/j.aas.2017.c160175
                      [8] 齊美彬, 檀勝順, 王運俠, 劉皓, 蔣建國. 基于多特征子空間與核學習的行人再識別[J]. 自動化學報, 2016, 42(2): 299-308. doi: 10.16383/j.aas.2016.c150344
                      [9] 張淑美, 王福利, 譚帥, 王姝. 多模態過程的全自動離線模態識別方法[J]. 自動化學報, 2016, 42(1): 60-80. doi: 10.16383/j.aas.2016.c150048
                      [10] 顧鑫, 王士同, 許敏. 基于多源的跨領域數據分類快速新算法[J]. 自動化學報, 2014, 40(3): 531-547. doi: 10.3724/SP.J.1004.2014.00531
                      [11] 汪明, 喻俊志, 譚民, 王會東, 李成棟. 機器海豚多模態游動CPG控制[J]. 自動化學報, 2014, 40(9): 1933-1941. doi: 10.3724/SP.J.1004.2014.01933
                      [12] 林建粦, 平西建, 馬德寶. 基于方向一致性特征的漂移掃描小目標檢測[J]. 自動化學報, 2013, 39(6): 875-882. doi: 10.3724/SP.J.1004.2013.00875
                      [13] 種衍文, 匡湖林, 李清泉. 一種基于多特征和機器學習的分級行人檢測方法[J]. 自動化學報, 2012, 38(3): 375-381. doi: 10.3724/SP.J.1004.2012.00375
                      [14] 李永, 殷建平, 祝恩, 李寬. 基于FAR和FRR融合的多模態生物特征識別[J]. 自動化學報, 2011, 37(4): 408-417. doi: 10.3724/SP.J.1004.2011.00408
                      [15] 李敏強, 寇紀淞. 多模態函數優化的協同多群體遺傳算法[J]. 自動化學報, 2002, 28(4): 497-504.
                      [16] 王俊普, 郝金波, 李國清. 一種設計仿人智能控制器特征模型的新方法[J]. 自動化學報, 2001, 27(6): 841-844.
                      [17] 吳宏鑫, 解永春, 李智斌, 何英姿. 基于對象特征模型描述的智能控制[J]. 自動化學報, 1999, 25(1): 9-17.
                      [18] 牛培峰. 自整定智能控制器及其應用[J]. 自動化學報, 1996, 22(2): 214-218.
                      [19] 周超俊, 蔣慰孫, 藤井省三. 非線性系統的多模態ARMAX模型--一種基于插值理論的模型[J]. 自動化學報, 1995, 21(2): 137-144.
                      [20] 李祖樞, 徐鳴, 周其鑒. 一種新型的仿人智能控制器(SHIC)[J]. 自動化學報, 1990, 16(6): 503-509.
                    • 加載中
                    圖(4) / 表(4)
                    計量
                    • 文章訪問數:  413
                    • HTML全文瀏覽量:  146
                    • PDF下載量:  221
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-04-01
                    • 錄用日期:  2019-10-17
                    • 網絡出版日期:  2020-09-28
                    • 刊出日期:  2020-09-28

                    多源數據行人重識別研究綜述

                    doi: 10.16383/j.aas.c190278
                      基金項目:  國家重點研發計劃(2017YFC0803700), 國家自然科學基金青年項目(61801335, 61876135), 湖北省自然科學基金群體項目(2018CFA024, 2019CFB472, 2018AAA062)資助
                      作者簡介:

                      武漢大學計算機學院國家多媒體軟件工程技術研究中心博士研究生. 主要研究方向為圖像處理, 計算機視覺. E-mail: ms.yeyu@whu.edu.cn

                      日本國立信息學研究所學術振興會外國人特別研究員. 2017年獲得武漢大學計算機學院國家多媒體軟件工程技術研究中心博士學位. 主要研究方向為行人重識別和實例搜索. 本文通信作者.E-mail: wangz@nii.ac.jp

                      武漢大學副教授. 2012年獲得中國科學院自動化研究所博士學位. 主要研究方向為多媒體內容分析和檢索, 計算機視覺和模式識別. E-mail: cliang@whu.edu.cn

                      武漢大學副教授. 2009年獲得武漢大學博士學位. 主要研究方向為圖像/視頻壓縮與處理, 計算機視覺和人工智能. E-mail: hanzhen_2003@hotmail.com

                      武漢大學教授. 主要研究方向為多媒體分析, 計算機視覺和安防應急信息處理. E-mail: chenj@whu.edu.cn

                      武漢大學教授. 主要研究方向為多媒體技術與大數據分析, 多媒體信號處理, 音視頻處理, 模式識別, 人工智能. E-mail: hrm1964@163.com

                    摘要: 行人重識別是近年來計算機視覺領域的熱點問題, 經過多年的發展, 基于可見光圖像的一般行人重識別技術已經趨近成熟. 然而, 目前的研究多基于一個相對理想的假設, 即行人圖像都是在光照充足的條件下拍攝的高分辨率圖像. 因此雖然大多數的研究都能取得較為滿意的效果, 但在實際環境中并不適用. 多源數據行人重識別即利用多種行人信息進行行人匹配的問題. 除了需要解決一般行人重識別所面臨的問題外, 多源數據行人重識別技術還需要解決不同類型行人信息與一般行人圖片相互匹配時的差異問題, 如低分辨率圖像、紅外圖像、深度圖像、文本信息和素描圖像等. 因此, 與一般行人重識別方法相比, 多源數據行人重識別研究更具實用性, 同時也更具有挑戰性. 本文首先介紹了一般行人重識別的發展現狀和所面臨的問題, 然后比較了多源數據行人重識別與一般行人重識別的區別, 并根據不同數據類型總結了5 類多源數據行人重識別問題, 分別從方法、數據集兩個方面對現有工作做了歸納和分析. 與一般行人重識別技術相比, 多源數據行人重識別的優點是可以充分利用各類數據學習跨模態和類型的特征轉換. 最后, 本文討論了多源數據行人重識別未來的發展.

                    English Abstract

                    葉鈺, 王正, 梁超, 韓鎮, 陳軍, 胡瑞敏. 多源數據行人重識別研究綜述. 自動化學報, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    引用本文: 葉鈺, 王正, 梁超, 韓鎮, 陳軍, 胡瑞敏. 多源數據行人重識別研究綜述. 自動化學報, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    Ye Yu, Wang Zheng, Liang Chao, Han Zhen, Chen Jun, Hu Rui-Min. A survey on multi-source person re-identification. Acta Automatica Sinica, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    Citation: Ye Yu, Wang Zheng, Liang Chao, Han Zhen, Chen Jun, Hu Rui-Min. A survey on multi-source person re-identification. Acta Automatica Sinica, 2020, 46(9): 1869?1884. doi: 10.16383/j.aas.c190278
                    • 隨著視頻監控系統在城市中的廣泛應用, 利用攝像機拍攝的畫面判斷出現在不同圖像中的行人是否是同一個人, 并通過攝像機生成軌跡預測他們行為的技術已經廣泛應用于智能視頻監控、安保、刑偵等領域, 在日常調查中發揮著越來越重要的作用. 這種運用計算機視覺和機器學習等方法判斷某個攝像機中的特定行人是否出現在其他攝像機中的技術稱為行人重識別(Person re-identification, Re-ID), 如圖1所示. 行人重識別不僅具有非常迫切的應用需求, 還具有非常重要的研究價值, 近年來, 行人重識別引起了學術界和工業界的廣泛關注, 是計算機視覺領域的一個研究熱點. 經過10多年的發展, 國內外相繼提出了大量行人重識別模型, 在限定的仿真條件下已經取得了非常高的準確率[1-3], 在Market-1501數據集上達到了94.0 %, 在CUHK03 數據集上則為96.1 %, 這一準確率甚至超過了人類視覺的能力.

                      圖  1  行人重識別示意圖

                      Figure 1.  An example illustrating person re-identification

                      行人重識別研究是基于監控視頻檢索, 具有其特殊性, 在實際城市視頻監控中, 行人對象的畫面質量較差、分辨率較低, 而且還存在明顯的視角、光照變化[4]. 因此, 相對于通用圖像檢索, 行人重識別仍面臨以下問題: 1) 在不同監控攝像機中, 行人與攝像機的距離不同, 導致不同攝像機視域下的行人圖像分辨率、光照和視角不同, 同一個行人對象的不同圖像視覺特征會產生明顯的變化; 2)同一行人在不同攝像機視域拍攝的畫面中受背景和其他因素導致的遮擋程度不同, 大量的行人遮擋問題導致完整的行人圖像比較少; 3)由于受行人姿勢及攝像機角度變化影響, 在不同監控攝像機中, 不同行人圖像之間的視覺特征差異可能比較小. 此外, 一些特定的問題也沒有受到足夠的重視, 比如大規??焖贆z索問題、數據不足問題、實際環境中人員信息情況復雜跨多模態問題等[3], 這使得行人重識別問題比一般基于實例的圖像/視頻檢索更加困難.

                    • 現有的行人重識別工作多使用一般可見光攝像機所獲取的同一類型數據, 然而實際生活中攝像機采集到的圖像質量參差不齊, 僅利用可見光攝像機采集的圖像取得的識別效果可能并不盡人意, 往往還需要結合其他類型的數據信息才能取得良好的效果, 如圖像數據與視頻數據[5]、可見光圖像數據與其他圖像數據、圖像數據與文本數據等. 如果將同一數據特性下的行人重識別問題認為是一般的行人重識別, 則與之相對應, 我們總結了使用多種數據進行行人重識別的方法, 稱之為多源數據行人重識別(圖2). 由于數據來源和數據類型并不一致, 其成像原理和圖像質量也不一致, 因此多源數據行人重識別除了需要克服一般行人重識別面臨的問題外, 還需要著重解決跨模態的特征匹配這一關鍵難題.

                      圖  2  多源數據行人重識別類型

                      Figure 2.  Scope of multi-source data person re-identification studied in this survey

                      在實際的行人識別過程中可用信息來源較多, 但鑒于數據獲取和利用的難易程度, 本文所說的多源數據行人重識別主要考慮以下幾種交叉類型/模態的行人重識別問題: 1)使用不同的相機規格和設置, 如高分辨率與低分辨率圖像; 2) 使用不同的拍攝設備, 如可見光與紅外攝像機, 可見光與深度傳感器; 3) 根據歷史文檔記錄或對行人的描述獲得的文本信息; 4)由專家或者數字傳感器自動獲得的圖像, 如刑偵系統使用的素描與數字照片.

                      低分辨率: 在當前社會的安全環境考慮下, 將低分辨率行人圖像與高分辨率行人圖像進行匹配是一個熱門挑戰. 而受到環境、成像條件等多方面因素的影響, 實際視頻偵查中得到的行人圖像分辨率多變, 且分辨率往往較低. 在這種數據特性更復雜的情況下, 傳統的基于單一高分辨率的行人重識別方法辨識能力顯著降低.

                      紅外: 紅外(Infra-red, IR)圖像是由紅外設備而非可見光設備拍攝的. 紅外設備可以在可見光不可控的環境下建立受控的拍攝條件, 但紅外設備的成像原理和方式與可見光設備完全不同, 多源數據行人重識別的挑戰在于將紅外圖像與可見光圖像進行匹配.

                      深度圖像: 深度圖像(Depth image)也稱為距離圖像(Range image), 是指將從攝像機到場景中各點的距離(深度)作為像素值的圖像, 它直接反映了被拍攝物體可見表面的幾何形狀, 在行人衣著發生改變或照明條件較差時常使用深度圖像進行行人身份識別.

                      文本: 大多數視頻監控系統都依賴于在不同攝像機視域下拍攝的視頻. 事實上, 在調查過程中, 除了監控視頻外, 調查人員還手工標注了一些注記, 這些注記雖然信息不完整, 但準確性高, 有助于識別行人身份. 文本-視覺匹配旨在測量文本描述與圖像之間的相似性.

                      素描: 素描行人重識別是根據手工或軟件繪制的行人全身素描圖像, 與照片數據庫中的行人圖像進行匹配的過程. 在無法獲取目標人物照片的情況下, 素描行人重識別能根據專業人員繪制的素描圖像自動搜索所有監控圖像, 迅速縮小目標人物的范圍, 具有重要的現實意義.

                    • 傳統的行人重識別方法從特征提取和度量學習兩個方向進行研究, 2014年, Li等[6]率先使用深度學習方法進行行人重識別研究, 此后越來越多的研究者嘗試將深度學習方法與行人重識別研究進行結合. 行人重識別的基本程序如下: 1) 根據行人特征提取方法從檢索圖片/視頻庫中提取特征; 2) 針對提取的特征利用相似性判別模型進行訓練, 獲得能夠描述和區分不同行人的特征表達向量, 度量計算特征表達向量之間的相似性; 3) 根據相似性大小對圖像進行排序, 將相似度最高的圖像作為最終的識別結果. 近年來, 一般行人重識別技術在公共行人識別數據集上獲得了很高的精確度, 但這些方法大多是基于一個關鍵的假設, 即所有人的圖像都是在白天用可見光相機拍攝的, 且具有統一和足夠高的分辨率. 而在實際應用過程中, 總是存在各種分辨率和尺度(包括低分辨率和小尺度)的圖像; 在照明條件較差的夜間或者室內通道等環境下, 則常常利用紅外設備或深度傳感器而不是可見光設備進行拍攝; 此外, 刑偵人員通常還需要依靠證人的描述和素描圖像來檢索系統中的人物圖像. 在這些情況下, 數據本質有很大的變化, 一般的行人重識別模型在勻質條件下的設計將失去其有效性.

                      多源數據行人重識別則針對每類數據使用一個特定于該類型的網絡來提取或構造特定信息并映射到同一個表達空間, 然后, 利用共享網絡在共享表達空間中生成特征, 這個通用的重識別網絡通過中心損失、三重損失等損失函數進行訓練并與普通網絡相連, 實現跨數據類型的行人重識別. 然而, 當對近6年ICCV、CVPR、AAAI等頂級國際會議關于一般行人重識別和多源數據行人重識別的論文數量匯總后發現(圖3(a)), 一般行人重識別問題是當前研究的熱點方向, 而針對跨數據類型的行人重識別研究屈指可數, 我們對5 種多源數據行人重識別方法取得的最好效果與一般行人重識別的最優效果進行對比發現(圖3(b)), 由于多源數據行人重識別涉及不同類型的信息, 加之行人本身諸多因素的影響, 導致其特征提取和匹配難度大, 準確率遠低于一般行人重識別, 如素描行人重識別目前最高的準確率僅為34 %, 紅外圖像行人重識別最高的識別率為46.4 %, 不到一般行人重識別準確率的一半. 與一般行人重識別問題相比, 多源數據行人重識別在非均勻條件下的研究雖然更加實際, 但也是一個更具挑戰性的問題(表1).

                      圖  3  一般行人重識別與多源數據行人重識別論文數量和最優效果對比

                      Figure 3.  The state-of-the-art performance and number of papers between general Re-ID and multi-source data Re-ID

                      注1.圖3 (b)分別選取了一般行人重識別和5種多源行人重識別在所有行人數據集上識別率最高的結果, 其中一般行人重識別識別率在Market-1501數據集上獲得, 低分辨率行人重識別識別率在MLR-VIPeR數據集上獲得, 紅外圖像行人重識別識別率在RegDB數據集上獲得, 深度圖像行人重識別識別率在BIWI RGBD-ID數據集上獲得, 文本行人重識別識別率在iLIDS-VID數據集上獲得, 素描行人重識別識別率在SKETCH Re-ID數據集上獲得.

                    • 目前國內外學者已經對多源數據行人重識別進行了一些初步研究, 本節將介紹基于5種不同數據類型的行人重識別學習框架和算法.

                      表 1  一般行人重識別與多源數據行人重識別的對比

                      Table 1.  Comparison of general Re-ID and multi-source data Re-ID

                      一般行人重識別 多源數據行人重識別
                      定義 給定一個監控行人圖像, 檢索跨設備下的該行人圖像的技術 給定一個監控行人的跨類型或模態信息/圖像, 檢索跨設備跨模態下的該行人圖像的技術
                      數據類型 單一類型的圖像 多類型的圖像/視頻、文本、語言、素描等數據信息
                      方法 針對輸入圖像提取穩定、魯棒且能描述和區分不同行人的特征信息, 計算特征相似性, 根據相似性大小排序 使用特定于類型/域的網絡提取該類型/域的特征信息, 通過共享網絡生成特征, 使用合適的損失函數進行訓練并與普通網絡相連確保重識別工作的有效性
                      數據集 單一的可見光圖像、二分類屬性數據集 多種圖像、多種信息、多屬性數據集
                      解決重點和難點 低分辨率、視角和姿勢變化、光照變化、遮擋和視覺模糊性問題 模態變化以及一般行人重識別需要克服的問題
                    • 城市視頻監控系統的成本高昂, 通常只在主要街道上布設高分辨率攝像機, 因此現實生活中由公共監控攝像機拍攝的行人圖像仍多為低分辨率圖像, 且不同攝像機拍攝的圖像尺度不一, 導致分辨率不匹配的問題, 對行人重識別工作產生十分不利的影響. 現有的重識別方法要么選擇忽略這個問題, 要么直接進行簡單的圖像縮放或將所有行人圖像標準化為統一的尺寸, 使低分辨率圖像中的行人信息損失嚴重, 不能真正有效地解決低分辨率行人重識別問題.

                      無論是在傳統方法還是深度學習方法中, 度量學習在行人重識別中都是一種非常有效的模型匹配技術. 2015年, Li等[7]首次提出了一種針對低分辨率行人重新識別問題的原則性解決方法, 他們設計了一種新的聯合多尺度判別框架JUDEA (Joint multi-scale discriminant component analysis). 該框架的關鍵組成部分是一種用于低維子空間中跨尺度圖像對齊的特征分布差異準則HCMD (Heterogeneous class mean discrepancy), 最小化這一準則能夠統一同一個行人對象在不同分辨率下的相似性判別信息. 通過這種跨尺度的圖像統一過程, 可以實現正常分辨率行人圖像和低分辨率行人圖像判別信息的共享, 將行人圖像在多個尺度上進行匹配. Wang等[8]發現改變圖像尺度距離時可以區分同一個人或不同的人的圖像對在不同尺度下產生的尺度距離函數(Scale-distance function, SDF), 在此基礎上提出了一個通過學習計算尺度距離函數進行重識別的多低分辨率行人重識別方法SALR-REID (Scale-adaptive low resolution person re-identification). 除了度量學習外, 還有一些方法利用字典學習匹配模型. Jing等[9]使用一種半耦合低秩判別字典學習方法SLD2L (Semi-coupled low-rank discriminant dictionary learning)從一對高?低分辨率圖像特征中學習一對字典和一個映射函數, 將低分辨率圖像特征轉換為高分辨率特征. 為保證經字典學習和映射轉換后的特征具有良好的判別能力, 還設計了一個用于半耦合字典學習的判別項, 使得轉換得到的高分辨率特征與同一個人在高分辨率圖庫中的特征更相似而區別于其他人的特征. 此外, 為了保證字典對能更好的描述高分辨率圖像和低分辨率圖像的潛在特征子空間, 還引入了有監督低秩學習. 在此基礎上, Jing等[10]還提出了一種多視圖SLD2L方法, 命名為MVSLD2L, 通過學習不同類型特征的不同映射, 將低分辨率圖像的特征更有效地轉化為高分辨率特征. 2018年, Li等[11]提出了一種半耦合投影字典學習框架DSPDL (Discriminative semi-coupled projective dictionary learning), 采用有效的投影技術, 與字典共同學習映射函數. 通過引入映射函數, 放松相同身份跨視圖圖像編碼之間嚴格的對應關系, 從而使字典具有更大的泛化能力, 最大限度的提高特征表示能力. 同時, 框架中還設計了一種具有魯棒性的無參數正則化器, 能顯著提高學習字典的判別能力, 從而有效區分正確的行人對和錯誤的行人對. 該方法與現有最優方法在三個公共數據集上進行比較都具有顯著優勢, 在VIPeR 數據集上DSPDL比基于特征學習的最佳方法CMAE[12]的匹配率高11 %. 比基于度量學習的最佳方法MLAPG[13]提高了6 %左右, 與現有的基于字典的學習方法相比也有顯著提高.

                      超分辨率技術可以從低分辨率圖像中重建出相應的高分辨率圖像, 是獲取低分辨率圖像信息的一種有效手段. 2018年, Jiao等[14]開發了一種超分辨率和行人身份識別聯合學習的新方法SING (Super-resolution and identity joint learning), 該方法設計了一個混合深層卷積神經網絡有效連接超分辨率網絡和身份識別模型, 通過增強低分辨率圖像中有利于身份識別的高頻外表信息來提高圖像超分辨率和行人重識別的整合容量, 從而解決分辨率不匹配導致的信息量差異問題, 并通過一種混合非對稱卷積神經網絡聯合身份識別損失和超分辨率重構損失函數來優化網絡結構.Wang 等[15]提出了一種統一的級聯超分辨率框架CSRGAN (Cascaded super-resolution generative adversarial network), 將多個SR-GAN串聯起來對低分辨率圖像使用尺度自適應超分辨率技術, 提高了尺度自適應超分辨率模塊與身份識別模塊的集成兼容性, 從而提高了超分辨率過程中高?低分辨率圖像對的相似性. 此外, 還在高?低分辨率圖像對內和對間分別創新性引入行人共性損失和行人個性損失, 使生成的高分辨率圖像看起來更像人, 同時行人圖像更容易被識別.

                      此外, 一些針對低分辨率行人重識別問題的其他方法也陸續被提出. 2018年, Wang等[16]在基礎的殘差網絡上(ResNet50)[17]進行了改進, 該模型在網絡的低層(高分辨率)和高層(多語義)上構建融合嵌入, 著重進行資源約束下的行人重識別, 有效平衡了計算準確性和計算量. 清華大學的Zhuang等[18]提出了一種深度對偶學習框架, 并首次提出了對比中心損失法(Contrastive center loss, CCL), 可以不受分辨率差異的干擾從不同分辨率圖像中學習, 這種框架普適性高, 在此基礎上, 普通的行人重識別網絡效果也能得到顯著提升.

                      現有的低分辨率行人重識別工作主要基于超分辨率和特征空間投影轉換技術, 如何提高識別輸入圖像有效特征的準確性并盡可能少地引入與行人重識別無關或不利的視覺結果是提高低分辨率行人重識別的關鍵. 而SING、CSRGAN等一系列具有尺度自適應能力的方法能有效利用低分辨率圖像中區分行人的高頻信息, 聯合優化圖像超分辨率和重識別問題, 為解決低分辨率行人重識別中不同分辨率圖像信息差異問題帶來了新思路.

                    • 在實際生活中, 可視攝像機可能無法拍攝到所有的外觀信息, 尤其是在條件較差的室內環境或光照不足的夜間. 紅外攝像機的優勢在于它不依賴于人體對可見光的反射, 因此, 在低照度環境下, 紅外攝像機拍攝的圖像可用于行人的再識別.

                      早在2010年Kai等[19]就提出了一種僅依賴局部圖像特征的紅外圖像行人身份識別方法, 將重識別與行人檢測和跟蹤方法相結合. 其中用于行人檢測的通用外觀碼本可作為重識別的索引結構, 而在跟蹤過程中收集到的局部特征則用于生成行人結構元素, 從而得到有效的匹配模型. M?gelmose等[20]提出了一種可見光圖像、深度信息和熱紅外圖像數據相結合的行人重識別方法, 該方法使用可見光數據對身體不同區域的顏色信息進行建模, 然后使用深度數據計算人體的軟生物特征(胸廓寬度和關節長度等), 再使用熱紅外數據提取局部結構信息[21], 最后將三種信息組合構成一個聯合分類器, 根據組合規則將首次出現的符合人物作為匹配結果.

                      Wu等[22]通過分析單流網絡、雙流網絡和非對稱的全連接網絡三種常用的跨模態網絡結構對可見光?紅外圖像行人重識別問題的有效性后, 發現雙流結構和全連接結構在特殊情況下都可以用單流網絡結構表示, 由此提出了一種采用深度零填充方法的單流網絡. 相對于另外兩種網絡結構來說, 采用深度零填充方法訓練的單流網絡不但一樣具有針對模態的結構和參數, 還具有更強的靈活性, 可以自動學習網絡的隱式結構, 對紅外行人圖像進行有效的重識別. 此外, Wu 還創建了一個紅外圖像行人重識別的基準數據集SYSU-MM01. Ye等[23]考慮到模態間和模態內的特征變化, 在2018年提出了一種具有雙向約束高階損失的雙流網絡學習可識別特征的表示, 該網絡不需要額外的度量學習步驟就可以直接進行端到端的特征學習. 在此基礎上, Ye等[24]結合特征損失和對比損失對雙流網絡進行了改進, 提出了一種分層跨模態學習方法HCML (Hierarchical cross-modality metric learning), 改進后的網絡通過學習可見光圖像和紅外圖像兩種跨模態不變(共享)的特征表示, 可以同時處理跨模態差異和跨視圖的變化以及類內的行人模態變化. Dai等[25] 針對可見光圖像和紅外圖像對同一行人識別信息不足的問題, 設計了一種跨模態生成對抗網絡, 該網絡包括一個深度卷積神經網絡作為學習圖像特征表示的生成器和一個模態分類器作為鑒別器, 從兩種不同圖像中學習身份識別特征的表示. 結合識別損失和跨模態損失最大化類間跨模態相似性的同時最小化類內模糊性, 其工作在SYSU-MM01數據集上的累積匹配特征曲線(Cumulative match characteristic curve, CMC)和平均精度(Mean average precision, mAP)比Wu等[22]的工作分別提高了12.17 %和11.85 %.

                      2019年的CVPR中, Wang等[26]首次利用GAN網絡將可見光圖像和紅外圖像兩種類型圖像合成多光譜圖像用于紅外條件下的行人重識別, 提出了一種雙級差異減少方法D2RL (Dual-level discrepancy reduction learning scheme). 該方法由一個圖像級差減子網絡 $ \varphi _M $ 和一個特征級差減子網絡 $ \varphi _A $ 組成, $ \varphi_M $ 通過將不同模態的圖像投影至統一的圖像空間來最小化模態差異, 并為 $ \varphi_A $ 提供更多可能的圖像組合, $ \varphi_A $ 則用于消除外觀差異并使 $ \varphi_M $ 生成更可靠的多光譜圖像, 二者相輔相成, 以端到端的方式進行聯合優化.

                      隨著攝影技術的發展及成本的降低, 紅外捕捉裝置已經逐漸成為日常監控攝像機的一部分, 結合可見光圖片進行行人匹配的潛力巨大, 引起了人們對基于紅外圖像的行人重識別問題越來越大的興趣. 目前紅外圖像行人重識別研究主要使用特征空間投影轉換等方法解決跨模態特征匹配的問題, 但由于紅外數據跨模態識別的獨特之處在于照明類型的變化, 與完全依賴機器學習或基于不變特征提取的方法相比, 基于物理知識的跨模態光度標準化建?;蛟S更有效.

                    • 相對于可見光圖像的視覺特征無法在照明較差的環境下識別的特性, 深度圖像與紅外圖像一樣不受光照條件影響, 其特有深度信息在極暗的光照條件下仍然保持不變. 此外, 深度圖像還包含了行人的身體形狀和骨架特征等信息, 這些信息不受行人的服裝變化影響. 因此, 在對不同時間段的同一行人進行匹配時, 基于深度圖像的行人重識別效果顯著.

                      2012年, Barbosa等[27] 首次基于深度圖像進行了行人重識別研究. 為解決重識別過程中行人服裝變化的問題, Barbosa等提取了一組3D軟生物識別特征代替視覺外觀特征, 此外, 他們還收集了一個深度信息行人數據集PAVIS. 之后, Mgelm-ose等[20]提出了一個結合可見光、深度和熱數據的聯合分類器, 首次將深度數據與可見光圖像、熱紅外數據三種信息結合起來用于行人重識別領域. Munaro等[28]使用基于點云跟蹤的自由移動人群重建3D 模型, 利用3D 模型實現目標行人匹配, 并收集了一個包含50 個不同行人生物特征的深度數據集BIWI RGBD-ID. Haque等[29]提出了一種基于注意力的行人重識別模型, 該模型通過卷積神經網絡和遞歸神經網絡組合而成, 在沒有RGB信息的情況下通過提取人體形狀和運動動力學的4D時空特征來識別指示行人身份的判別區域, 從而識別不同行人身份. Wu 等[30]提出了一種局部旋轉深度形狀不變描述符來描述行人的體型, 然后通過基于核的隱式特征轉移將深度特征與RGB視覺特征相結合. 2018 年, Hafner 等[31]受Gupta 等[32] 監督遷移工作的啟發, 提出了一種跨模態蒸餾的遷移學習方法, 首先訓練神經網絡進行單模態特征識別, 然后利用深度信息與可見光圖像的內在關系, 成功將該模態中學習到的特征轉移到另一模態, 實現深度信息和RGB 信息兩個模態特征之間的相互轉換.

                      總的來說, 當光照較差或者行人衣著發生改變的情況下, 利用深度信息及其與可見光圖像之間的關聯能獲得更好的識別效果. 然而當拍攝視角發生變化時, 所獲得的深度圖像中人體形狀和骨架信息并不能被有效區分, 且由于深度信息隨著行人和相機之間的距離增大而迅速減少, 實際生活中深度相機多用于室內, 而很少布設在室外場景, 因此在實際應用中, 基于深度圖像的行人識別問題仍未得到充分研究.

                    • 大多數視頻監控調查系統都依賴于在不同攝像機視域下拍攝的視頻圖像. 事實上, 在調查過程中, 除了圖像/視頻資料外, 還有調查人員手工標記的一些注記和來自他人的口頭描述的語義信息, 這些標記雖然不完整, 但準確性高, 基于文本數據的行人重識別即利用這些信息進行大型圖像數據庫搜索匹配, 在行人視頻監控應用中有著重要的作用, 而基于屬性匹配的行人重識別根據用戶對檢索對象的描述所獲得的屬性標簽在行人數據庫中準確快速地將某個符合描述的目標行人標識出來, 是文本行人重識別的一個重要研究方向.

                      近年來學者們提出了一系列基于屬性匹配的行人重識別方法, 如使用特定的屬性配置或支持向量機方法等提取細微屬性并從大量的監控視頻數據中搜索匹配該配置文件的圖片[33-34]. 2015年, Shi等[35]提出了一種可以從具有強/弱注釋的數據或混合數據中進行屬性學習的框架, 該框架具有強大的自適應能力, 對監督與非監督行人重識別都有十分顯著的效果. Wang等[36]發現手工標記的注釋雖然信息不全但是準確性很高, 對行人重識別工作具有重要意義, 并由此提出一個多步驟的融合算法. 該算法首先利用視覺特征和標記預測完整精確的屬性向量, 然后基于統計屬性和顯著性特征構建一種優勢顯著性匹配模型用于測量屬性向量之間的距離, 最后, 利用視覺特征和屬性向量對所有圖像進行相似性大小排序. 此外, 也相繼提出了一系列基于深度學習的方法, 2017年, Lin等[37]為了提高行人重識別網絡的整體精度, 提出了一種屬性?行人聯合識別網絡APR (Attribute-person recognition), 該網絡包含一個身份識別卷積神經網絡和一個屬性分類模型, 通過身份識別進行屬性預測, 同時又集成屬性學習用于改進識別網絡. Su等[38]提出了一種新的半監督深層屬性學習算法SSDAL (Semi-supervised deep attribute learning), 該網絡分為三個不同的階段: 首先在有標簽的行人屬性識別網絡上進行監督訓練以得到初始的屬性識別網絡; 鑒于同一個人的屬性識別結果更類似, 故使用三重損失函數提高初始網絡的識別能力; 然后用微調后的網絡預測一部分無標簽數據, 將這部分無標簽數據和原始有標簽的數據一起用于微調屬性識別網絡; 最后利用屬性之間的差距進行最終的再識別. 該方法不需要對目標數據集進行進一步的訓練, 但屬性檢測魯棒性仍然很強. 2018年, Su等[39]提出了一種基于低秩屬性嵌入的多任務學習方法MTL-LORAE (Multi-task learning with low rank attribute embedding), 將不同相機間的行人再識別視為相關的多任務, 在多任務學習框架中使用低層可視化特征和中層屬性特征作為行人身份特征. 在此基礎上還引入了低秩屬性嵌入, 利用每對屬性間的相關性將原始二值屬性映射到連續空間中, 提高特征描述的準確性.

                      但文本信息和目擊者的描述往往是一段自然的句子描述而并不是離散的屬性, 基于屬性匹配的方法并不能完全適用, 在實際應用中有較大的限制, 因此, Ye等[40]提出一種基于對偶的度量學習方法, 通過將不完整的文本描述轉換為屬性向量, 采用基于線性稀疏重構的方式補全屬性向量, 其效果顯著, 也是首個真正意義上基于文本信息的行人重識別方法. Li等[41]針對文本?視覺匹配問題提出了一種基于身份感知的兩階段框架, 該框架由卷積神經網絡(Convolutional neural networks, CNN)和長短期記憶(Long short term memory, LSTM)兩個深度神經網絡組成. 第1階段網絡引入跨模態交叉熵損失(Cross-modal cross-entropy loss, CMCE), 利用特征學習中的標識級注釋學習表示圖像和文本的可識別特征, 在減小交叉熵損失的同時最小化文本特征和圖像特征之間的距離, 同時也是第2階段網絡訓練的起始點; 第2階段網絡通過構建一種具有潛在共注意機制的線性譯碼器LSTM來共同學習潛在空間注意力和語義注意力, 并自動對齊不同的單詞和圖像區域, 最大限度減少句子結構變化造成的影響. 此外, Li等[42]還收集了一個包括不同來源的個人樣本和詳細的自然語言注釋的大型個人資料數據集, 稱為“CUHK個人資料集”(CUHK-pedes), 并提出了一種基于門控神經注意機制的遞歸神經網絡GNA-RNN (Recurrent neural network with gated neural attention mechanism), 可以根據查詢對象的文本描述利用搜索算法對數據庫中所有樣本進行排序, 檢索與描述最相關的樣本.

                      以往基于文本的行人重識別工作多被看成是行人屬性重識別問題, 但由于行人屬性的低維度特性導致識別結果往往不如人意. 將基于文本的行人重識別任務當做獨立的一類跨模態識別問題后, 通過學習兩個模態間共有的具有判別力的子空間能大大縮小模態間的差異性, 可以學習到判別能力更強的特征, 避免了直接預測屬性導致匹配誤差過大的問題.

                    • 行人重識別旨在匹配查詢照片與圖像數據庫中的人物. 但現實情況中通常較難取得目標人物的照片, 多數情況下只有專家根據目擊證人的描述繪制的人物素描, 人物素描對有關人員的執法行動具有重要的意義. 早期的一些人臉識別研究意識到了這問題并取得了一些成果[43-44], 但與傳統的面部素描人臉識別不同的是, 行人重識別領域的素描不僅僅局限于臉部, 而是對全身的素描. 此外, 素描行人重識別與文本行人重識別工作的源數據雖然都包括來自目擊證人的描述信息, 但二者仍存在較大的區別: 文本行人重識別更偏向于利用手工注記等語義信息, 這些信息雖然準確, 但往往不夠完整和細致; 素描行人重識別則需要素描專家或軟件根據更全面細致的描述生成行人素描圖像, 視覺上更加直觀. 同時, 素描專家和目擊證人還可以根據檢索到的相似照片交互式地改進素描圖像, 進一步提高匹配精度.

                      素描是一種抽象的描述, 與照片是兩個不同的范疇, 加之相機的視角、人的姿勢和拍攝范圍中的遮擋導致的行人在照片中的不確定性, 利用素描進行行人重識別十分具有挑戰性. Pang等[45]意識到這一問題并率先進行了研究, 他們提出的素描深度對抗學習框架通過過濾低級特征和保留高級語義特征來共同學習素描和照片中的身份特征、輪廓和紋理等跨模態不變特征, 實現了素描人物圖像和一般行人圖像的匹配, 并提出了一個包含200人的素描?照片跨領域數據集, 彌補了素描行人數據集的缺失. 此外, 該方法在CUFSF數據集[44]和QMUL-shoe數據集[46]兩個素描照片數據集上也表現出顯著的性能. 但Pang的方法丟失了部分有利于進行行人身份判別的模態特有信息, 沒有聯合優化素描和行人照片特征表達學習的優點. 另外, 由于使用的數據集規模較小, 素描與照片相似性較大, 因此并沒有有效反應真實識別情況, 基于素描的行人重識別研究雖然具有重要的現實意義, 但相關研究仍有待重視.

                    • 對目前的多源數據行人重識別工作進行總結后, 我們認為現有的工作主要基于三種方法(圖4): 1) 基于度量學習. 基于度量學習的多源數據行人重識別工作僅利用一般的度量學習方法來學習如何匹配屬于不同類型或模態的行人特征. 2) 基于統一的特征模型. 這類方法側重于學習兩個類型/模態間具有判別力的潛在子空間, 通過將不同類型/模態的信息投影到同一子空間學習更具有判別性的特征模型. 3) 基于統一的模態. 基于統一類型/模態的方法通過各種方式將其中一種類型/模態信息轉換成另一種類型/模態信息生成統一模態的特征模型.

                      圖  4  三類多源數據行人重識別方法描述

                      Figure 4.  Three types of methods for multi-source data re-ID

                      表2可以看出, 現有的多源數據行人重識別工作主要基于統一的特征模型和度量學習方法, 而統一模態的方法較少, 且主要集中在跨分辨率的行人重識別工作中. 對于跨文本和素描的行人重識別工作來說, 統一模態的方法目前仍較難實現, 但Wang等[26]和Hafner等[31]的工作首次實現了可見光圖像與紅外圖像、可見光圖像與深度圖像特征之間的轉換, 為將來統一模態的行人重識別工作提供了新的思路.

                      表 2  多源數據行人重識別工作中的代表性方法

                      Table 2.  A summary of representational methods in multi-source data Re-ID

                      方法 模態 年份 會議/期刊 方法類別 數據集 度量學習 特征模型 統一模態
                      JUDEA[7] 高?低分辨率圖像 2015 ICCV 度量學習 ⑩?? × ×
                      SLD2L[9] 2015 CVPR 字典學習 ??? × ×
                      SALR-REID[8] 2016 IJCAI 子空間學習 ⑩?? ×
                      SING[14] 2018 AAAI 超分辨率 ??? ×
                      CSR-GAN[15] 2018 IJCAI 超分辨率 ⑩?? ×
                      DSPDL[11] 2018 AAAI 字典學習 ??? × ×
                      Zhuang[18] 2018 CVPR 深度對偶學習 ??? ×
                      Wu[22] 紅外?可見光圖像 2017 ICCV 深度零填充 ? × ×
                      TONE[24] 2018 AAAI 度量學習 ? ×
                      Ye[23] 2018 IJCAI 特征學習 ?? ×
                      cmGAN[25] 2018 IJCAI 特征嵌入 ? × ×
                      D2RL[26] 2019 CVPR 圖像生成 ?? ×
                      Barbosa[27] 深度?可見光圖像 2012 ECCV 度量學習 ? × ×
                      Wu[30] 2017 TIP 子空間學習 ??? ×
                      Hafner[31] 2018 CVPR 模態轉移 ?? ×
                      Ye[40] 文本?可見光圖像 2015 ACM 度量學習 ①④? × ×
                      Shi[35] 2015 CVPR 屬性識別 ①⑤? × ×
                      APR[37] 2017 CVPR 屬性識別 ⑦⑧ × ×
                      GNA-RNN[42] 2017 CVPR 密切關系學習 ? × ×
                      CNN-LSTM[41] 2017 ICCV 特征學習 ? × ×
                      MTL-LORAE[39] 2018 PAMI 特征學習 ①③④⑨ ×
                      Pang[45] 素描?可見光圖像 2018 ACM MM 特征學習 ? × ×
                    • 目前已經公布了許多用于行人重識別的數據集, 如常用的VIPeR[47]、CUHK01[48]、Market-1501[49]和iLIDS[50]等, 但包含多源數據的跨模態行人數據集卻很少, 我們總結了一些常用的一般行人重識別數據集和跨模態行人數據集的對比情況如表3.

                      表 3  常用的一般行人重識別數據集與跨模態行人重識別數據集

                      Table 3.  A summary of general Re-ID dataset and multi-source data Re-ID datase

                      類別 數據集名稱 發布時間 數據集類型 人數 相機數量 數據集大小
                      一般行人數據集 ①VIPeR[51] 2008 真實數據集 632 2 1 264幅 RGB 圖像
                      ②3DPES[52] 2011 192 8 1 011 幅 RGB 圖像
                      ③i-LIDS[50] 2009 119 2 476 幅 RGB 圖像
                      ④PRID2011[53] 2011 934 2 1 134 幅 RGB 圖像
                      ⑤CUHK01[48] 2012 971 2 3 884幅 RGB 圖像
                      ⑥CUHK03[6] 2014 1 467 10 13 164幅 RGB 圖像
                      ⑦Market-1501[54] 2015 1 501 6 32 217 幅 RGB 圖像
                      ⑧DukeMT MC-REID[55] 2017 1 812 8 36 441 幅 RGB 圖像
                      ⑨SAIVT-SoftBio[56] 2012 152 8 64 472 幅 RGB 圖像
                      低分辨率行人數據集 ⑩CAVIAR[57] 2011 真實數據集 72 2 720 幅高分辨率圖像
                      500 幅低分辨率圖像
                      ?LR-VIPeR[7, 9-11] 2015 模擬數據集 632 2 1 264 幅 RGB 圖像
                      ?LR-3DPES[7] 2015 192 8 1 011 幅 RGB 圖像
                      ?LR-PRID2011[9, 15] 2015 100 2 200 幅 RGB 圖像
                      ?LR-i-LDIS[9, 11] 2015 119 2 238 幅 RGB 圖像
                      ?SALR-VIPeR[8, 15] 2016 632 2 1 264 幅 RGB 圖像
                      ?SALR-PRID[8, 15] 2016 450 2 900 幅 RGB 圖像
                      ?MLR-VIPeR[14] 2018 632 2 1 264 幅 RGB 圖像
                      ?MLR-SYSU[14] 2018 502 2 3 012 幅 RGB 圖像
                      ?MLR-CUHK03[14] 2018 1 467 2 14 000 幅 RGB 圖像
                      ?LR-CUHK01[11] 2018 971 2 1 942 幅 RGB 圖像
                      ?LR-CUHK03[18] 2018 1 467 10 13 164 幅 RGB 圖像
                      ?LR-Market-1501[18] 2018 1 501 6 32 217 幅 RGB 圖像
                      ?LR-DukeMTMC-REID[18] 2018 1 812 8 36 441 幅 RGB 圖像
                      紅外行人數據集 ?SYSU-MM01[22] 2017 真實數據集 491 6 287 628 幅 RGB 圖像
                      15 792幅紅外圖像
                      ?RegDB[58] 2017 412 2 4 120 幅 RGB 圖像
                      4 120 幅紅外圖像
                      深度圖像行人數據集 ?PAVIS[27] 2012 真實數據集 79 ? 316 組視頻序列
                      ?BIWI RGBD-ID[28] 2014 50 ? 22 038 幅 RGB-D 圖像
                      ?IAS-Lab RGBD-ID[28] 2014 11 ? 33 個視頻序列
                      ?Kinect REID[59] 2016 71 ? 483 個視頻序列
                      ?RobotPKU RGBD-ID[60] 2017 90 ? 16 512 幅 RGB-D 圖像
                      文本行人數據集 ?PETA[34] 2014 真實數據集 8 705 ? 19 000 幅圖像
                      66 類文字標簽
                      ?CUHK-PEDES[42] 2017 13 003 ? 40 206 幅圖像
                      80 412 個句子描述
                      素描行人數據集 ?Sketch Re-ID[45] 2018 真實數據集 200 2 400 幅 RGB 圖像
                      200 幅素描

                      1)低分辨率行人數據集

                      CAVIAR數據集[57]由里斯本一家室內購物中心的兩個攝像機記錄, 雖然數據集規模較小, 但是這兩個攝像機的距離設置剛好一近一遠, 它包含72個不同行人的1 220幅照片, 其中有50人同時出現在兩個攝像機中, 另外22人只有高分辨率圖像(由距離近的攝像機拍攝), 圖像分辨率從17像素×39像素到72像素×144像素不等, 是首個適合低分辨率行人重識別的真實數據集.

                      2)紅外行人數據集

                      早在2013年, Mφgelmose等[20]就收集了一個小規模紅外行人數據集, 該數據集由35對RGB?紅外行人圖像組成, 每幅圖像均為640像素×480像素, 除了包含RGB和紅外數據之外, 還包含行人的深度數據, 這是行人重識別領域的首個跨三模態的數據集. 2017 年公開的SYSU-MM01數據集[22]最大的特點是包含了由4個可見光攝像機和2個紅外攝像機采集的兩種圖像, 采集環境也包括室內和室外兩種情況, 該數據集包含491個不同身份行人的 287 628幅可見光圖像和15 792 幅紅外圖像. RegDB數據集[58]于2017年3月份發布, 該數據集使用可見光和紅外雙攝像機同時拍攝, 不存在時間差. 為了模擬監控系統的正常工作狀態, 雙攝像機被安放在距地面垂直距離約6 m的建筑物頂部, 拍攝所有行人的自然走動狀態. RegDB數據集包括412人, 其中女性254人, 男性158人, 正視圖包含156人, 后視圖包含256人. 每人分別對應10幅可見光圖像和10幅紅外圖像. 由于所有圖像都是在人體運動時拍攝的, 所以每個人對應的10幅圖像中人體姿勢、拍攝距離和照明條件都存在差異, 但同一個人的10幅圖像拍攝時的天氣狀況、相機視角和拍攝的視圖(前/后視圖)是一致的.

                      3)深度圖像行人數據集

                      PAVIS數據集[27]由四組不同的數據組成, 第1組“協同小組”分別記錄了79個人的正面視圖、緩慢行走、避開障礙和伸展手臂視圖, 第2組(行走)和第3組(行走2)記錄了這79個人正常進入工作區域的正面視圖和行走畫面, 第4組(后視)記錄了他們離開工作區域時的后視圖畫面. 每個人離攝像機至少2 m, 由于拍攝時間不同, 因此每個人的服裝也不一致, 除此之外, 該數據集還包含利用每個人的骨架和測地信息提取的10個軟生物特征.

                      BIWI RGBD-ID數據集[28]由Microsoft Kinect SDK傳感器收集的50個不同人員在不同的地點和時間的運動視頻序列組成, 其中包括RGB圖像(1 280像素×960像素)、深度圖像、行人分割圖、骨骼數據以及地平面坐標. 此外, 還收集了其中28人的靜止和行走序列作為測試集, 這些視頻以大約8~10 幀/s的速度拍攝, 每個對象的拍攝時間約為1 min, 在拍攝行走視頻中, 每個人面對傳感器正面行走兩次, 對角行走兩次. 由于視頻拍攝時間和地點不一致, 因此同一行人的服裝也不相同.

                      由于Microsoft Kinect SDK提供的算法不能對人物進行非正面的骨骼估計, 因此Munaro等還收集了IAS-Lab RGBD-ID數據集[28], 該數據集共包含11個不同身份的行人, 由OpenNI SDK和NITE傳感器收集的33個序列組成, 分為一個訓練集和兩個測試集, 其中訓練集和測試集A中的人員所穿服裝不同, 而訓練集與測試集B中的人員服裝一致但拍攝環境不一致.

                      4)文本行人數據集

                      PETA數據集[34]由從CUHK、VIPeR、PRID等10個小規模數據集中挑選的19 000幅圖像組成, 像素分辨率從17像素×39像素到169像素×365像素不等. 每幅圖像都包含61個二值屬性和4個多類屬性. 其中二值屬性包括人口統計學信息(如性別和年齡范圍)、外觀(如發型)、上下半身服裝風格(如休閑或正式)和配飾等特征信息, 4個多類屬性中包含11種分別用于鞋類、頭發、上半身服裝和下半身服裝基本顏色名[61]. 與一般行人屬性數據集相比, PETA數據集有三個顯著的特征: a)數據集更大. PETA數據集有API和VIPeR數據集的5倍和15倍之大. b)多樣性強. 為了盡可能地使數據集更豐富, Deng 等[34]特意選擇從不同的場景和不同條件下采集的小規模數據集中挑選圖像, 因此PETA數據集中的圖像在照明條件、攝像機視角、圖像分辨率、背景復雜性和室內/室外環境等各方面都具有很大的差異. c)豐富的注釋. 與現有的數據集相比, PETA數據集包含更豐富的注釋, 如VIPeR, 只有15 個二值屬性, API[62]有11個二值屬性和2個多類屬性, 而PETA數據集包括61個二值屬性和4個多類屬性, 特別是這些二值屬性中還包括英國內政部和英國警方建議的在跟蹤和刑事鑒定方面最有價值的15個屬性. 另一個使用自然語言描述行人外觀的大型語言數據集是CUHK-PEDES[42], 包括13 003人的40 206幅圖像, 每幅圖像由兩名不相干的AMT工人用兩句話進行描述, 其中包含豐富的詞匯、短語、句子模式和結構, 該數據集共有1 893 118個單詞, 其中包含9 408個特有單詞. 每個句子最少有15個單詞, 最長的句子有96個單詞, 平均單詞長度為23.5, 大多數句子有20到40個單詞.

                      5)素描行人數據集

                      Pang等[45]在2018年收集了一個素描行人數據集Sketch Re-ID, 該數據集包含200人, 每個人對應2幅照片和1幅素描, 這兩幅照片由兩個交叉視域相機在白天拍攝, 而所有素描圖像則由5位風格各不相同的專家共同繪出. 此外, 所有的照片和素描都有與之對應的ID標簽, 同一個人的照片和素描圖像其ID是一致的, 這也是目前為止首個用于行人重識別的素描數據集. 表4列出了多源數據行人重識別問題中幾種具有代表性的方法在常用的一般行人數據集和跨模態行人數據集上的識別結果.

                      表 4  幾種多源數據行人重識別方法在常用的行人數據集上的識別結果

                      Table 4.  Comparison of state-of-the-art methods on infra-red person re-identification dataset

                      數據集 算法 年份 Rank1 (%) Rank5 (%) Rank10 (%)
                      低分辨率 VIPeR SLD2L[9] 2015 16.86 41.22 58.06
                      MVSLD2L[10] 2017 20.79 45.08 61.24
                      DSPDL[11] 2018 28.51 61.08 76.11
                      CAVIAR JUDEA[7] 2015 22.12 59.56 80.48
                      SLD2L[9] 2015 18.40 44.80 61.20
                      SING[14] 2018 33.50 72.70 89
                      紅外 SYSU-MM01 Wu等[22] 2017 24.43 ? 75.86
                      Ye等[23] 2018 17.01 ? 55.43
                      CMGAN[25] 2018 37.00 ? 80.94
                      RegDB Ye等[23] 2018 33.47 ? 58.42
                      TONE[24] 2018 16.87 ? 34.03
                      深度圖像 BIWI RGBD-ID Wu等[30] 2017 39.38 72.13 ?
                      Hafner[31] 2018 36.29 77.77 94.44
                      PAVIS Wu等[30] 2017 71.74 88.46 ?
                      Ren等[63] 2017 76.70 87.50 96.10
                      素描 SKETCH Re-ID Pang等[45] 2018 34 56.30 72.50
                      文本 VIPeR Shi等[35] 2015 41.60 71.90 86.20
                      SSDAL[38] 2016 43.50 71.80 81.50
                      MTL-LORAE[39] 2018 42.30 42.30 81.6
                      PRID SSDAL[38] 2016 22.60 48.70 57.80
                      MTL-LORAE[39] 2018 18 37.40 50.10
                      Top1 Top10
                      文本 CUHK-PEDES CNN-LSTM[41] 2017 25.94 60.48
                      GNA-RNN[42] 2017 19.05 53.64
                    • 由于低分辨率行人數據集較少且規模較小, 因此大部分低分辨率行人重識別工作的做法仍然是使用VIPeR、CAVIAR、CUHK-01等基準行人數據集或模擬數據集, 這在很大程度上限制了跨分辨率行人重識別的發展. 而素描數據集Sketch Re-ID中的素描圖像由專業人員嚴格按照行人照片進行描繪, 素描圖像與真實照片相似度大, 直接消除了現實場景中由目擊者口頭描述帶來的噪聲和錯誤信息, 這與實際情況并不符合, 研究結果與實際應用效果有較大的出入. 總的來說, 目前用于多源數據行人重識別的跨模態數據集較少, 這些數據集多數只有幾千幅甚至幾百幅圖片, 嚴重阻礙了多源數據行人重識別工作的發展, 構建大規模且貼合實際的真實跨模態多源數據集是當前多源數據行人重識別研究最重要的工作之一.

                    • 行人重識別的目標是實現對行人的跨視域定位和追蹤, 是當今計算機視覺領域的關鍵技術, 具有重大的理論意義和應用前景, 而多源數據行人重識別更是行人重識別技術需要攻克的核心和難點問題, 具有重要的現實意義. 雖然目前關于行人重識別的研究層出不窮, 也取得了一定的研究成果, 但針對多源數據的跨模態和跨類型行人重識別研究尚處于初步探索階段. 在對目前主要的多源數據行人重識別工作與數據集進行比較和總結后, 我們認為當前的多源數據行人重識別研究還需要著重解決以下問題:

                      1)真實跨模態多源行人數據集較少, 規模較小. 雖然多源數據行人重識別能夠更充分利用各類有效信息, 但由于跨模態和類型的非線性映射比低維空間的簡單映射更加復雜, 因此深度學習過程中所需要的訓練數據也更多, 但當前存在的跨模態多源數據集屈指可數, 這些數據集多數只有幾千幅或幾百幅圖片, 可選擇的余地非常有限, 很多低分辨率行人重識別工作甚至直接使用一般的數據集或模擬數據集, 這些問題大大限制了多源數據行人匹配的效果. 在今后的發展中, 收集規模更大屬性更全的真實跨模態和跨類型多源行人數據集是研究者們亟需解決的重點問題.

                      2)篩選有效的數據信息. 由于多源數據行人重識別的特殊性, 在行人匹配過程中提供了比一般行人重識別更多類型的數據和信息, 與此同時帶來的信息冗余情況也更嚴重. 目前的多源數據行人重識別研究中, 如跨文本、素描等模態時仍有很多工作需要人工參與, 但人工參與過程是帶有主觀意識的, 針對同一任務不同的人可能會得到不同的信息, 這些信息通常又是不全面的, 因此, 在利用深度學習網絡進行多源數據行人重識別工作時, 如何針對特定的數據類型設計并選擇合適的網絡過濾無效信息, 挖掘整合有效信息變得十分重要.

                      3)基于統一模態的研究. 現有的多源數據行人重識別工作主要基于統一的特征模型和度量學習方法. 在低分辨率行人重識別中Jiao等[14-15, 18]的工作使用超分辨率技術成功將低分辨率圖像轉換成高分辨率圖像, 成功實現了跨分辨率行人重識別的模態統一, 但對于跨文本和素描的行人重識別問題來說, 目前還沒有基于統一模態方法的研究成果, 而Wang等[26]的工作通過使用Cycle-GAN首次實現了可見光圖像與紅外圖像的模態統一, Hafner等[31]提出的跨模態蒸餾的遷移學習方法成功實現了深度信息和RGB信息兩種模態特征之間的相互轉換, 這些都為將來基于統一模態的多源數據行人重識別研究提供了新的思路.

                      4)集成跨多類型數據行人重識別工作. 目前的多源數據行人重識別研究主要針對跨兩種或三種類型和模態的行人匹配問題, 但事實上整合多類型和多模態信息進行特征提取不僅可以獲得更多有效的身份識別信息, 而且更貼合實際應用情況. 因此, 在同一行人重識別過程中使用多種數據和信息進行行人匹配將是未來多源數據行人重識別研究的一個重要方向.

                      本文首先分別介紹了一般行人重識別和多源數據行人重識別方法及其區別, 然后總結了基于低分辨率、紅外圖像、深度圖像、文本以及素描的5種不同類型數據行人重識別方法和數據集情況, 并分析和展望了當前多源數據行人重識別技術面臨的挑戰和未來的發展方向, 可以看出, 多源數據行人重識別具有重要的現實意義和巨大的發展空間.

                    參考文獻 (63)

                    目錄

                      /

                      返回文章
                      返回