2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    唇讀研究進展與展望

                    盛常沖 陳小鼎 匡綱要 劉麗

                    盛常沖, 陳小鼎, 匡綱要, 劉麗. 唇讀研究進展與展望. 自動化學報, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    引用本文: 盛常沖, 陳小鼎, 匡綱要, 劉麗. 唇讀研究進展與展望. 自動化學報, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    Citation: Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531

                    唇讀研究進展與展望


                    DOI: 10.16383/j.aas.c190531
                    詳細信息
                      作者簡介:

                      國防科技大學電子科學學院博士研究生. 主要研究方向為計算機視覺, 模式識別. E-mail: sheng_cc@nudt.edu.cn

                      國防科技大學系統工程學院碩士研究生. 主要研究方向為計算機視覺與模式識別. E-mail: chenxiaoding14@nudt.edu.cn

                      國防科技大學電子科學學院教授、博士生導師. 主要研究方向為遙感圖像處理, 目標識別. E-mail: kuanggangyao@nudt.edu.cn

                      國防科技大學系統工程學院副教授. 主要研究方向為圖像理解, 計算機視覺, 模式識別. 本文通信作者. E-mail: liuli_nudt@nudt.edu.cn

                    • 基金項目:  國家自然科學基金(61872379)資助

                    The State of the Art and Prospects of Lip Reading

                    More Information
                    • Fund Project:  Supported by National Natural Science Foundation of China (61872379)
                    • 摘要: 唇讀, 也稱視覺語言識別, 旨在通過說話者嘴唇運動的視覺信息, 解碼出其所說文本內容. 唇讀是計算機視覺和模式識別領域的一個重要問題, 在公共安防、醫療、國防軍事和影視娛樂等領域有著廣泛的應用價值. 近年來, 深度學習技術極大地推動了唇讀研究進展. 本文首先闡述了唇讀研究的內容和意義, 并深入剖析了唇讀研究面臨的難點與挑戰; 然后介紹了目前唇讀研究的現狀與發展水平, 對近期主流唇讀方法進行了梳理、歸類和評述, 包括傳統方法和近期的基于深度學習的方法; 最后, 探討唇讀研究潛在的問題和可能的研究方向. 以期引起大家對唇讀問題的關注與興趣, 并推動與此相關問題的研究進展.
                    • 圖  1  唇讀示意圖

                      Fig.  1  Illustration of the lip reading task

                      圖  2  唇讀難點示例. (a)第一行為單詞place的實例, 第二行為單詞please的實例, 唇形變化難以區分, 圖片來自GRID數據集; (b)上下兩行分別為單詞wind在不同上下文環境下的不同讀法/wind/與/waind/實例, 唇形變化差異較大; (c)上下兩行分別為兩位說話人說同一個單詞after的實例, 唇形變化存在差異, 圖片來自LRS3-TED數據集; (d)說話人在說話過程中頭部姿態實時變化實例. 上述對比實例均采用相同的視頻時長和采樣間隔.

                      Fig.  2  Challenging examples of lip reading. (a) The upper line is an instance of the word place, the lower line is an instance of the word please; (b) The upper and lower lines are respectively different pronunciation of word wind in different contexts; (c) The upper and lower lines respectively tell the same word after, with big difference in lip motion; (d) an example of a real-time change in the head posture of the speaker during the speech. The above comparison examples all use the same video duration and sampling interval.

                      圖  3  唇讀方法一般流程

                      Fig.  3  The general process of lip reading

                      圖  4  唇讀研究過程中代表性方法. 傳統特征提取方法: 主動形狀模型ASM[67], 主動表觀模型AAM[69], HiLDA[25], LBP-TOP[36], 局部判別圖模型[46], 圖嵌入方法[39], 隨機森林流行對齊RFMA[48], 隱變量方法[47]; 深度學習方法: DBN/CNN+HMM混合模型[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

                      Fig.  4  Representative methods in the process of lip reading research. Traditional feature extraction methods:ASM[67], AAM[69], HiLDA[25], LBP-TOP[36], LDG[46], Graph Embedding[39], RFMA[48], Hidden variable method[47]; Deep learning based methods: DBN/CNN+HMM hybrid model[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

                      圖  5  線性變換特征提取方法一般流程

                      Fig.  5  The workflow of linear transformation feature extraction method

                      圖  6  連續幀曲線映射

                      Fig.  6  Continuous frame curve mapping

                      圖  7  ${\rm LBP}_{8,1}$算子

                      Fig.  7  ${\rm LBP}_{8,1}$ operator

                      圖  8  分塊LBP-TOP特征提取

                      Fig.  8  Block LBP-TOP feature extraction

                      圖  9  語音產生的發音特征

                      Fig.  9  Articulatory features

                      圖  10  唇部輪廓ASM模型

                      Fig.  10  ASM model of lip profile

                      圖  11  典型CNN結構示例圖

                      Fig.  11  A typical CNN structure example

                      圖  12  RNN及LSTM、GRU結構示例圖

                      Fig.  12  The structure of RNN, LSTM and GRU

                      圖  13  CNN-RNN基本框架

                      Fig.  13  The network structure of CN-RNN

                      圖  14  LipNet構架

                      Fig.  14  The network architecture of LipNet

                      圖  15  WAS構架

                      Fig.  15  The network architecture of WAS

                      圖  16  三種唇讀網絡模型

                      Fig.  16  Three lip reading network models

                      圖  17  不同類型數據集變化趨勢

                      Fig.  17  The trends of different types of datasets

                      圖  18  各類數據集示例

                      Fig.  18  Some examples of different datasets

                      表  1  傳統時空特征提取算法優缺點總結

                      Table  1  A summary of advantages and disadvantages of traditional spatiotemporal feature extraction methods

                      時空特征提取方法代表性方法優勢不足
                      基于表觀的全局圖像線性變換[25-30],
                      圖嵌入與流形[38-39, 46-48],
                      LBP-TOP[35-36], HOG[49], 光流[11, 205]···
                      ①特征提取速度快;
                      ②無需復雜的人工建模.
                      ①對唇部區域提取精度要求高;
                      ②對環境變化、姿態變化、噪聲敏感;
                      ③不同講話者之間泛化性能較差.
                      基于形狀的輪廓描述[40-43],
                      AFs[72], 形狀模型[65, 66]···
                      ①具有良好的可解釋性;
                      ②不同講話者之間泛化性能較好;
                      ③能有效去除冗余信息.
                      ①會造成部分有用信息丟失;
                      ②需要大量的人工標注;
                      ③對于姿態變化非常敏感.
                      形狀表觀融合的形狀+表觀特征串聯[56, 62],
                      形狀表觀模型[69]···
                      ①特征表達能力較強;
                      ②不同講話者之間泛化性能較好.
                      ①模型復雜,運算量大;
                      ②需要大量的人工標注.
                      下載: 導出CSV

                      表  3  單詞、短語和語句識別數據集, 其中(s)代表不同語句的數量. 下載地址為: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

                      Table  3  Word, phrase and sentence lip reading datasets and their download link: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

                      數據集語種識別 任務詞匯量話語 數目說話人 數目姿態分辨率谷歌 引用發布 年份
                      IBMViaVoice英語語句10 50024 3252900704 × 480 30 fps2992000
                      VIDTIMIT英語語句346(s)430430512 × 384 25 fps512002
                      AVICAR英語語句1 31710 000100?15$\sim$15720 × 480 30 fps1702004
                      AV-TIMIT英語語句450 (s)4 6602330720 × 480 30 fps1272004
                      GRID英語短語5134 000340720 × 576 25 fps7002006
                      IV2法語語句15(s)4 5003000,90780 × 576 25 fps192008
                      UWB-07 -ICAV捷克語語句7 550 (s)10 000500720 × 576 50 fps162008
                      OuluVS英語短語10(s)1 000200720 × 576 25 fps2112009
                      WAPUSK20英語短語522 000200640 × 480 32 fps162010
                      LILiR英語語句1 0002 400120,30,45, 60,90720 × 576 25 fps672010
                      BL法語語句238 (s)4 046170,90720 × 576 25 fps122011
                      UNMC-VIER英語語句11 (s)4 5511230,90708 × 640 25 fps82011
                      MOBIO英語語句30 1861520640 × 480 16 fps1752012
                      MIRACL-VC英語單詞101 500150640 × 480 15 fps222014
                      短語10 (s)1 500
                      Austalk英語單詞966966 0001 0000640 × 480112014
                      語句59 (s)59 000
                      MODALITY英語單詞182(s)2313501 920 × 1 080 100 fps232015
                      RM-3000英語語句1 0003 00010360 × 640 60 fps72015
                      IBM AV-ASR英語語句10 4002620704 × 480 30 fps1032015
                      TCD-TIMIT英語語句5 954 (s)6 913620,301920 × 1080 30 fps592015
                      OuluVS2英語短語101 590530,30,45, 60,901920 × 1080 30 fps462015
                      語句530 (s)530
                      LRW英語單詞500550 0001 000+0$\sim$30256 × 256 25 fps1152016
                      HAVRUS俄語語句1 530 (s)4 000200640 × 480 200 fps132016
                      LRS2-BBC英語語句62 769144 4821 000+0$\sim$30160 × 160 25 fps1722017
                      VLRF西班牙語語句1 37410 200a2401 280 × 720 50 fps62017
                      LRS3-TED英語語句70 000151 8191 000+?90$\sim$90224 × 224 25 fps22018
                      LRW-1000中文單詞1 000745 1872 000+?90$\sim$901 920 × 1 080 25 fps02018
                      LSVSR英語語句127 0552 934 8991 000+?30$\sim$30128 × 128 23-30 fps162018
                      下載: 導出CSV

                      表  2  字母、數字識別數據集. 下載地址為: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

                      Table  2  Alphabet and digit lip reading datasets and their download link: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

                      數據集語種識別任務類別數目話語數目說話人數姿態分辨率谷歌引用發布年份
                      AVLetters英語字母26780100376 × 288 25 fps5071998
                      XM2VTS英語數字108852950720 × 576 25 fps1 6171999
                      BANCA多語種數字1029 9522080720 × 576 25 fps5302003
                      AVICAR英語字母2626 000100?15$\sim$15720 × 480 30 fps1702004
                      數字1323 000
                      CUAVE英語數字107 000+36?90,0,90720 × 480 30 fps2922004
                      VALID英語數字105301060720 × 576 25 fps382005
                      AVLetters2英語字母26910501 920 × 1 080 50 fps622008
                      IBMSR英語數字101 66138?90,0,90368 × 240 30 fps172008
                      CENSREC -1-AV日語數字105 197930720 × 480 30 fps252010
                      QuLips英語數字103 6002?90$\sim$90720 × 576 25 fps212010
                      Austalk英語數字1024 0001 0000640 × 480112014
                      OuluVS2英語數字10159530$\sim$901 920 × 1 080 30 fps462015
                      下載: 導出CSV

                      表  4  不同數據集下代表性方法比較

                      Table  4  Comparison of representative methods under different datasets

                      數據集識別 任務參考 文獻模型主要實驗條件識別率
                      前端特征 提取后端分 類器音頻 信號講話 者依 賴外部 語言 模型最小 識別 單元
                      AVLetters字母[48]RFMA××字母69.60 %
                      [92]RTMRBMSVM×字母66.00 %
                      [86]ST-PCAAutoencoder×××字母64.40 %
                      [36]LBP-TOPSVM××字母62.80 %
                      ××43.50 %
                      [55]DBNF+DCTLSTM××字母58.10 %
                      CUAVE數字[126]AAMHMM××數字83.00 %
                      [50]HOG+MBHSVM×××數字70.10 %
                      ×90.00 %
                      [37]DBNFDNN-HMM×××音素64.90 %
                      [26]DCTHMM××數字60.40 %
                      LRW單詞[101]3D-CNN+ResNetBiLSTM×××單詞83.00 %
                      [103]3D-CNN+ResNetBiGRU×××單詞82.00 %
                      ×98.00 %
                      [107]CNNLSTM+Attention×××單詞76.20 %
                      [93]CNN×××單詞61.10 %
                      GRID短語[109]3D-CNN+highwayBiGRU+Attention××字符97.10 %
                      [107]CNNLSTM+Attention××單詞97.00 %
                      [113]Feed-forwardLSTM××單詞84.70 %
                      95.90 %
                      [98]3D-CNNBiGRU×××字符93.40 %
                      [51]HOGSVM××單詞71.20 %
                      LRS3-TED語句[162]3D-CNN+ResNetTransformer+seq2seq××字符41.10 %
                      Transformer +CTC33.70 %
                      [163]3DCNNBiLSTM+CTC××音素44.90 %
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Mcgurk H, Macdonald J. Hearing lips and seeing voices. Nature, 1976, 264(5588): 746?748 doi:  10.1038/264746a0
                      [2] 2 Potamianos G, Neti C, Luettin J, Matthews I. Audio–visual automatic speech recognition: an overview. Issues in Visual and Audio–Visual Speech Processing, 2004, 22(1): 22?23
                      [3] 3 Potamianos G, Neti C, Gravier G, Garg A, Senior A. Recent advances in the automatic recognition of audiovisual speech. Proceedings of the IEEE, 2003, 91(9): 1306?1326 doi:  10.1109/JPROC.2003.817150
                      [4] 4 Zhou Z, Zhao G, Hong X, Pietikainen M. A review of recent advances in visual speech decoding. Image and Vision Computing, 2014, 32(9): 590?605 doi:  10.1016/j.imavis.2014.06.004
                      [5] 5 Fernandez–Lopez A, Sukno F. Survey on automatic lip–reading in the era of deep learning. Image and Vision Computing, 2018, 78(1): 53?72
                      [6] 姚鴻勛, 高文, 王瑞, 郎咸波. 視覺語言—-唇讀綜述. 電子學報, 2001, 29(2): 239?246 doi:  10.3321/j.issn:0372-2112.2001.02.025

                      6 Yao Hong–Xun, Gao Wen, Wang Rui, Lang Xian–bo. A survey of lipreading—-one of visual languages. Chinese Journal of Electronics, 2001, 29(2): 239?246 doi:  10.3321/j.issn:0372-2112.2001.02.025
                      [7] 7 Calvert A, Bullmore T, Brammer J, Campbell R, Williams C R, McGuire K, et al. Activation of auditory cortex during silent lipreading. Science, 1997, 276(5312): 593?596 doi:  10.1126/science.276.5312.593
                      [8] 8 Twaddell W F. On defining the phoneme. Language, 1935, 11(1): 5?62
                      [9] 9 Woodward M F, Barber C G. Phoneme perception in lipreading. Journal of Speech and Hearing Research, 1960, 3(3): 212?222 doi:  10.1044/jshr.0303.212
                      [10] 10 Fisher C G. Confusions among visually perceived consonants. Journal of Speech and Hearing Research, 1968, 11(4): 796?804 doi:  10.1044/jshr.1104.796
                      [11] Cappelletta L, Harte N. Viseme definitions comparison for visual–only speech recognition. In: Proceedings of 19th European Signal Processing Conference. Catalonia, Spain: IEEE, 2011. 2109−2113
                      [12] 12 Moll K L, Daniloff R G. Investigation of the timing of velar movements during speech. The Journal of the Acoustical Society of America, 1971, 50(2B): 678?684 doi:  10.1121/1.1912683
                      [13] Cox S J, Harvey R W, Lan Y, Newman J L, Theobald B J. The challenge of multispeaker lip–reading. In: International Conference on Auditory-Visual Speech Processing. Queensland, Australia: Citeseer, 2008. 179−184
                      [14] 14 Wu Y, Ji Q. Facial landmark detection: a literature survey. International Journal of Computer Vision, 2019, 127(2): 115?142 doi:  10.1007/s11263-018-1097-z
                      [15] 15 Chrysos G G, Antonakos E, Snape P, Asthana A, Zafeiriou S. A comprehensive performance evaluation of deformable face tracking " in–the–wild”. International Journal of Computer Vision, 2018, 126(2-4): 198?232 doi:  10.1007/s11263-017-0999-5
                      [16] Koumparoulis A, Potamianos G, Mroueh Y, Rennie S J. Exploring ROI size in deep learning based lipreading. In: Proceedings of 14th International Conferece on Auditory–Visual Speech Processing. Stockholm, Sweden: Citeseer, 2017. 64−69
                      [17] 17 Orozco J, Martinez B, Pantic M. Empirical analysis of cascade deformable models for multi–view face detection. Image and Vision Computing, 2015, 42(1): 47?61
                      [18] 18 Orozco J, Rudovic O, Gonzàlez J, Pantic M. Hierarchical on–line appearance–based tracking for 3d head pose, eyebrows, lips, eyelids and irises. Image and Vision Computing, 2013, 31(4): 322?340 doi:  10.1016/j.imavis.2013.02.001
                      [19] Asthana A, Zafeiriou S, Cheng S, Pantic M. Robust discriminative response map fitting with constrained local models. In: Proceedings of 26th IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 3444−3451.
                      [20] 20 Yu X, Huang J, Zhang S, Metaxas D N. Face landmark fitting via optimized part mixtures and cascaded deformable model. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(11): 2212?2226
                      [21] 21 Tzimiropoulos G, Pantic M. Fast algorithms for fitting active appearance models to unconstrained images. International Journal of Computer Vision, 2017, 122(1): 17?33 doi:  10.1007/s11263-016-0950-1
                      [22] 22 Wu Y, Hassner T, Kim K G, Medioni G, Natarajan P. Facial landmark detection with tweaked convolutional neural networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(12): 3067?3074
                      [23] 23 Yan S, Xu D, Zhang B, Zhang H J, Yang Q, Lin S. Graph embedding and extensions: a general framework for dimensionality reduction. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 29(1): 40?51
                      [24] Rao, C R, Rao C R, Statistiker M, Rao C R, Rao C R. Linear Statistical Inference and Its Applications. New York, USA: Wiley, 1973.
                      [25] Potamianos G, Graf H P, Cosatto E. An image transform approach for HMM based automatic lipreading. In: Proceedings 1998 International Conference on Image Processing. Chicago, USA: IEEE, 1998. 173−177.
                      [26] 26 Estellers V, Gurban M, Thiran J P. On dynamic stream weighting for audio–visual speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 20(4): 1145?1157
                      [27] 27 Potamianos G, Neti C, Iyengar G, Senior A W, Verma A. A cascade visual front end for speaker independent automatic speechreading. International Journal of Speech Technology, 2001, 4(3-4): 193?208
                      [28] Lucey P J, Potamianos G, Sridharan S. A unified approach to multi–pose audio–visual ASR. 2007.
                      [29] Lucey P J, Sridharan S, Dean D B. Continuous pose–invariant lipreading. 2008.
                      [30] Lucey P J, Potamianos G, Sridharan S. Patch–based analysis of visual speech from multiple views. 2008.
                      [31] 31 Seymour R, Stewart D, Ming J. Comparison of image transform–based features for visual speech recognition in clean and corrupted videos. Journal on Image and Video Processing, 2008, 2008(1): 14
                      [32] Hong X, Yao H, Wan Y and Chen R. A PCA based visual DCT feature extraction method for lip–reading. In: Proceedings of the 2006 International Conference on Intelligent Information Hiding and Multimedia. Pasadena, USA: IEEE, 2006. 321−326.
                      [33] 33 Ojala T, Pietik?inen M, Harwood D. A comparative study of texture measures with classification based on featured distributions. Pattern Recognition, 1996, 29(1): 51?59 doi:  10.1016/0031-3203(95)00067-4
                      [34] 34 Ojala T, Pietik?inen M, M?enp?? T. Multiresolution gray–scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 2002(7): 971?987
                      [35] 35 Zhao G and Pietik?inen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 2007(6): 915?928
                      [36] 36 Zhao G, Barnard M and Pietik?inen M. Lipreading with local spatiotemporal descriptors. IEEE Transactions on Multimedia, 2009, 11(7): 1254?1265 doi:  10.1109/TMM.2009.2030637
                      [37] Rahmani M H, Almasganj F. Lip–reading via a DNN–HMM hybrid system using combination of the image–based and model–based features. In: Proceedings 2017 3rd International Conference on Pattern Recognition and Image Analysis. Shahrekord, Iran: IEEE, 2017. 195−199.
                      [38] Zhou Z, Zhao G, Pietik?inen M. Lipreading: a graph embedding approach. In: Proceedings of 2010 20th International Conference on Pattern Recognition. Istanbul, Turkey: IEEE, 2010. 523−526.
                      [39] Zhou Z, Zhao G, Pietik?inen M. Towards a practical lipreading system. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA: IEEE, 2011. 137−144.
                      [40] 40 Aleksic P S, Williams, J J, Wu Z, Katsaggelos A K. Audio–visual speech recognition using MPEG–4 compliant visual features. EURASIP Journal on Applied Signal Processing, 2002, 2002(1): 1213?1227
                      [41] Brooke N M. Using the visual component in automatic speech recognition. In: Proceedings of 4th International Conference on Spoken Language Processing. Philadelphia, USA: IEEE, 1996. 1656−1659.
                      [42] 42 Cetingul H E, Yemez Y, Erzin E, Tekalp A M. Discriminative analysis of lip motion features for speaker identification and speech–reading. IEEE Transactions on Image Processing, 2006, 15(10): 2879?2891 doi:  10.1109/TIP.2006.877528
                      [43] 43 Nefian A V, Liang L, Pi X, Liu X and Murphy K. Dynamic Bayesian networks for audio–visual speech recognition. EURASIP Journal on Advances in Signal Processing, 2002, 2002(11): 783042 doi:  10.1155/S1110865702206083
                      [44] 44 Roweis S, Sau L. Nonlinear dimensionality reduction by locally linear embedding. Science, 2000, 290(5500): 2323?2326 doi:  10.1126/science.290.5500.2323
                      [45] 45 Tenenbaum J, Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction. Science, 2000, 290(5500): 2319?2323 doi:  10.1126/science.290.5500.2319
                      [46] Fu Y, Zhou X, Liu M, Hasegawa–Johnson M, Huang T S. Lipreading by locality discriminant graph. In: Proceedings 2007 IEEE International Conference on Image Processing. San Antonio, USA: IEEE, 2007. 325−328
                      [47] 47 Zhou Z, Hong X, Zhao G, Pietik?inen M. A compact representation of visual speech data using latent variables. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 36(1): 1?1
                      [48] Pei Y, Kim T, Zha H. Unsupervised random forest manifold alignment for lipreading. In: Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013. 129−136
                      [49] Dalal N, Triggs B. Histograms of oriented gradients for human detection. In: Proceedings of International Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2005. 886−893
                      [50] 50 Rekik A, Ben–Hamadou A, Mahdi W. An adaptive approach for lip–reading using image and depth data. Multimedia Tools and Applications, 2016, 75(14): 8609?8636 doi:  10.1007/s11042-015-2774-3
                      [51] Wand M, Koutník J, Schmidhuber J. Lipreading with long short–term memory. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 6115−6119
                      [52] 52 Horn B K P, Schunck B G. Determining optical flow. Artificial Intelligence, 1981, 17(1-3): 185?203 doi:  10.1016/0004-3702(81)90024-2
                      [53] 53 Bouguet J Y. Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm. Intel Corporation, 2001, 5(1-10): 4
                      [54] Lucas B D, Kanade T. An iterative image registration technique with an application to stereo vision. 1981.
                      [55] Petridis S, Pantic M. Deep complementary bottleneck features for visual speech recognition. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2304−2308
                      [56] 56 Dupont S, Luettin J. Audio–visual speech modeling for continuous speech recognition. IEEE Transactions on Multimedia, 2000, 2(3): 141?151 doi:  10.1109/6046.865479
                      [57] Neti C, Potamianos G, Luettin J, et al. Audio visual speech recognition. IDIAP, 2000.
                      [58] Hazen T J, Saenko K, La C, Glass J R. A segment–based audio–visual speech recognizer: Data collection, development, and initial experiments. In: Proceedings of the 6th International Conference on Multimodal Interfaces. State College, PA, USA: ACM, 2004. 235−242
                      [59] 59 Bozkurt E, Erdem C E, Erzin E, Erdem T, Ozkan M. Comparison of phoneme and viseme based acoustic units for speech driven realistic lip animation. 2007 3DTV Conference. IEEE, 2007: 1?4
                      [60] Gagne M, Ofek Y. Data processing method and apparatus for enabling independent access to replicated data, U. S. Patent 6581143, 2003–6–17
                      [61] Lan Y, Harvey R, Theobald B, Ong E, Bowden R. Comparing visual features for lipreading. In: Proceedings of International Conference on Auditory–Visual Speech Processing. Norwich, UK: 2009. 102−106
                      [62] Chan M T. HMM–based audio–visual speech recognition integrating geometric–and appearance–based visual features. In: Proceedings of IEEE 4th Workshop on Multimedia Signal Processing. IEEE. 2001. 9−14
                      [63] 63 King S, Frankel J, Livescu K, McDermott E, Richmond K, Wester M. Speech production knowledge in automatic speech recognition. The Journal of the Acoustical Society of America, 2007, 121(2): 723?742 doi:  10.1121/1.2404622
                      [64] 64 Kirchhoff K, Fink G A, Sagerer G. Combining acoustic and articulatory feature information for robust speech recognition. Speech Communication, 2002, 37(3-4): 303?319 doi:  10.1016/S0167-6393(01)00020-6
                      [65] 65 Cootes T F, Taylor C J, Cooper D H, Graham J. Active shape models–their training and application. Computer Vision and Image Understanding, 1995, 61(1): 38?59 doi:  10.1006/cviu.1995.1004
                      [66] Luettin J, Thacker N A, Beet S W. Speechreading using shape and intensity information. In: Proceeding of 4th International Conference on Spoken Language Processing. Philadelphia, USA: IEEE, 1996. 58−61
                      [67] 67 Luettin J, Thacker N A. Speechreading using probabilistic models. Computer Vision and Image Understanding, 1997, 65(2): 163?178 doi:  10.1006/cviu.1996.0570
                      [68] Matthews I, Potamianos G, Neti C, Luettin J. A comparison of model and transform–based visual features for audio–visual LVCSR. IEEE International Conference on Multimedia and Expo. Tokyo, Japan: IEEE, 2001. 825−828
                      [69] 69 Cootes T F, Edwards G J, Taylor C J. Active appearance models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 2001(6): 681?685
                      [70] 70 Fu Y, Yan S, Huang T S. Classification and feature extraction by simplexization. IEEE Transactions on Information Forensics and Security, 2008, 3(1): 91?100 doi:  10.1109/TIFS.2007.916280
                      [71] Livescu K, Cetin O, Hasegawa–Johnson M, King S, Bartels C, Borges N, et al. Articulatory feature–based methods for acoustic and audio–visual speech recognition: summary from the 2006 JHU summer workshop. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Honolulu, USA: IEEE. 2007. IV−621
                      [72] Kirchhoff K. Robust speech recognition using articulatory information. 1999.
                      [73] Saenko K, Livescu K, Glass J, Darrell T. Production domain modeling of pronunciation for visual speech recognition. In: Proceeding of IEEE International Conference on Acoustics, Speech, and Signal Processing. Philadelphia, USA: IEEE. 2005. V−473
                      [74] 74 Saenko K, Livescu K, Glass J, Darrell T. Multistream articulatory feature–based models for visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(9): 1700?1707 doi:  10.1109/TPAMI.2008.303
                      [75] Saenko K, Livescu K, Siracusa M, Wilson K, Glass J, Darrell T. Visual speech recognition with loosely synchronized feature streams. In: Proceeding of the 10th IEEE International Conference on Computer Vision. Beijing, China: IEEE. 2005. 1424−1431
                      [76] 76 Papcun G, Hochberg J, Thomas T R, Laroche F, Zacks J, Levy S. Inferring articulation and recognizing gestures from acoustics with a neural network trained on x–ray microbeam data. The Journal of the Acoustical Society of America, 1992, 92(2): 688?700 doi:  10.1121/1.403994
                      [77] Proakis J, Deller J R, Hansen J H L. Discrete–time processing of speech signals. New York, Macrnillan Pub. Co, 1993
                      [78] Rabiner L R, Juang B H, Rutledge J C. Fundamentals of speech recognition. Englewood Cliffs: PTR Prentice Hall, 1993
                      [79] 79 Young S, Evermann G, Gales M, Hain T, Kershaw D, Liu X, et al. The HTK book. Cambridge University Engineering Department, 2002, 2002(3): 175
                      [80] Povey D, Ghoshal A, Boulianne G, Burget L, Glembek O, Goel N, et al. The kaldi speech recognition toolkit. IEEE 2011 Workshop on Automatic Speech Recognition and Understanding. IEEE Signal Processing Society. 2011
                      [81] 81 Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504?507 doi:  10.1126/science.1127647
                      [82] 劉麗, 趙凌君, 郭承玉, 王亮, 湯俊. 圖像紋理分類方法研究進展和展望. 自動化學報, 2018, 44(4): 584?607

                      82 Liu Li, Zhao Ling–Jun, Guo Cheng–Yu, Wang Liang, Tang Jun. Texture classification: state–of–the–art methods and prospects. Acta Automatica Sinica, 2018, 44(4): 584?607
                      [83] 83 Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012: 1097?1105
                      [84] Gers F A, Schmidhuber J, Cummins F. Learning to forget: Continual prediction with LSTM. 1999.
                      [85] Chung J, Gulcehre C, Cho K, Bengio Y. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555, 2014
                      [86] Ngiam J, Khosla A, Kim M, Nam J, Lee H, Ng A Y. Multimodal deep learning. In: Proceeding of the 28th International Conference on Machine Learning. Washington, USA: ACM, 2011. 689−696
                      [87] Salakhutdinov R, Mnih A, Hinton G. Restricted Boltzmann machines for collaborative filtering. In: Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA: ACM, 2007. 791−798
                      [88] Huang J, Kingsbury B. Audio–visual deep learning for noise robust speech recognition. In: Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013. 7596−7599
                      [89] Ninomiya H, Kitaoka N, Tamura S, Iribe Y, Takeda K. Integration of deep bottleneck features for audio–visual speech recognition. In: the 16th Annual Conference of the International Speech Communication Association. 2015
                      [90] Sui C, Bennamoun M, Togneri R. Listening with your eyes: Towards a practical visual speech recognition system using deep boltzmann machines. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 154−162
                      [91] 91 Noda K, Yamaguchi Y, Nakadai K, Okuno H G, Ogata T. Audio–visual speech recognition using deep learning. Applied Intelligence, 2015, 42(4): 722?737 doi:  10.1007/s10489-014-0629-7
                      [92] Hu D, Li X. Temporal multimodal learning in audiovisual speech recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 3574−3582
                      [93] Chung J S, Zisserman A. Lip reading in the wild. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 87−103
                      [94] Chung J S, Zisserman A. Out of time: automated lip sync in the wild. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 251−263
                      [95] Chen L, Li Z, K Maddox R, Duan Z, Xu C. Lip Movements Generation at a Glance. In: Proceedings of the European Conference on Computer Vision. Munich, Germany: IEEE, 2018. 520−535
                      [96] Garg A, Noyola J, Bagadia S. Lip reading using CNN and LSTM. Technical report, Stanford University, CS231n Project Report, 2016
                      [97] Lee D, Lee J, Kim K E. Multi–view automatic lip–reading using neural network. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 290−302
                      [98] Assael Y M, Shillingford B, Whiteson S, De F N. Lipnet: end–to–end sentence–level lipreading. arXiv preprint arXiv:1611.01599, 2016
                      [99] 99 Le Cornu T, Milner B. Generating intelligible audio speech from visual speech. IEEE ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(9): 1751?1761
                      [100] Graves A, Fernández S, Gomez F, Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In: Proceedings of the 23rd International Conference on Machine Learning. Pennsylvania, USA: ACM, 2006. 369−376
                      [101] Stafylakis T, Tzimiropoulos G. Combining residual networks with LSTMs for lipreading. arXiv preprint arXiv:1703.04105, 2017
                      [102] He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and Pattern Recognition. Las Vegas, USA: 2016. 770−778
                      [103] Petridis S, Stafylakis T, Ma P, Cai F, Tzimiropoulos G, Pantic M. End–to–end audiovisual speech recognition. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 6548−6552
                      [104] Fung I, Mak B. End–To–End Low–Resource Lip–Reading with Maxout Cnn and Lstm. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 2511−2515
                      [105] 105 Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 2014: 3104?3112
                      [106] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014
                      [107] Chung J S, Senior A, Vinyals O, Zisserman A. Lip reading sentences in the wild. In: Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 3444−3453
                      [108] Chung J S, Zisserman A. Lip reading in profile. 2017
                      [109] Xu K, Li D, Cassimatis N, Wang X. LCANet: end–to–end lipreading with cascaded attention–CTC. 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition. Xi’an, China: IEEE, 2018. 548−555
                      [110] 110 Srivastava R K, Greff K, Schmidhuber J. Training very deep networks. Advances in Neural Information Processing Systems, 2015: 2377?2385
                      [111] 黃雅婷, 石晶, 許家銘, 徐波. 雞尾酒會問題與相關聽覺模型的研究現狀與展望. 自動化學報, 2019, 45(2): 234?251

                      111 Huang Ya–Ting, Shi Jing, Xu Jia–Ming, Xu Bo. Research advances and perspectives on the cocktail party problem and related auditory models. Acta Automatica Sinica, 2019, 45(2): 234?251
                      [112] Wand M, Schmidhuber J. Improving speaker–independent lipreading with domain–adversarial training. arXiv preprint arXiv:1708.01565, 2017
                      [113] Wand M, Schmidhuber J, Vu N T. Investigations on End–to–End Audiovisual Fusion. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 3041−3045
                      [114] Saitoh T, Zhou Z, Zhao G, Pietik?inen, M. Concatenated frame image based cnn for visual speech recognition. In: Proceedings of Asian Conference on Computer Vision. Taiwan, China: Springer, 2016. 277−289
                      [115] Petridis S, Li Z, Pantic M. End–to–end visual speech recognition with LSTMs. In: Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans, USA: IEEE, 2017. 2592−2596
                      [116] Petridis S, Wang Y, Li Z, Pantic M. End–to–end audiovisual fusion with LSTMS. arXiv preprint arXiv:1709.04343, 2017
                      [117] Petridis S, Wang Y, Li Z, Pantic M. End–to–end multi–view lipreading. arXiv preprint arXiv:1709.00443, 2017
                      [118] Petridis S, Shen J, Cetin D, Pantic M. Visual–Only Recognition of Normal, Whispered and Silent Speech. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 6219−6223
                      [119] Lin M, Chen Q, Yan S. Network in network. arXiv preprint arXiv:1312.4400, 2013
                      [120] 120 Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 2012: 1097?1105
                      [121] Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 1−9
                      [122] Moon S, Kim S, Wang H. Multimodal transfer deep learning with applications in audio–visual recognition. arXiv preprint arXiv:1412.3121, 2014
                      [123] Afouras T, Chung J S, Zisserman A. Deep lip reading: a comparison of models and an online application. arXiv preprint arXiv:1806.06053, 2018
                      [124] Chollet F. Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 1251−1258
                      [125] 125 Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017: 5998?6008
                      [126] 126 Papandreou G, Katsamanis A, Pitsikalis V, Maragos P. Adaptive multimodal fusion by uncertainty compensation with application to audiovisual speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(3): 423?435 doi:  10.1109/TASL.2008.2011515
                      [127] Hilder S, Harvey R W, Theobald B J. Comparison of human and machine–based lip–reading. In: Proceedings of International Conference on Auditory-Visual Speech Processing. Norwich, UK: 2009. 86−89
                      [128] Lan Y, Theobald B J, Harvey R. View independent computer lip–reading. In: Proceedings of 2012 IEEE International Conference on Multimedia and Expo. Melbourne, Australia: IEEE, 2012. 432−437
                      [129] Lan Y, Harvey R, Theobald B J. Insights into machine lip reading. In: Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan: IEEE, 2012. 4825−4828
                      [130] Bear H L, Harvey R. Decoding visemes: improving machine lip–reading. In: Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2009−2013
                      [131] 131 Matthews I, Cootes T F, Bangham J A, Cox S, Harvey R. Extraction of visual features for lipreading. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(2): 198?213 doi:  10.1109/34.982900
                      [132] Ortega A, Sukno F, Lleida E, Frangi A F, Miguel A, Buera L, et al. AV@CAR: a spanish multichannel multimodal corpus for in–vehicle automatic audio–visual speech recognition. In: the 4th International Conference On Language Resources and Evaluation. Lisbon, Portugal: Researchgate, 2004
                      [133] Lee B, Hasegawa–Johnson M, Goudeseune C, Kamdar S, Borys S, Liu M, et al. AVICAR: audio–visual speech corpus in a car environment. In: the 8th International Conference on Spoken Language Processing. Jeju Island, South Korea: Speech, 2004
                      [134] Messer K, Matas J, Kittler J, et al. XM2VTSDB: The extended M2VTS database. In: Proceedings of the 2nd International Conference on Audio and Video–Based Biometric Person Authentication. 1999. 964−966
                      [135] Bailly–Bailliére E, Bengio S, Bimbot F, Hamouz M, Kittler J, Mariéthoz J, et al. The BANCA database and evaluation protocol. In: Proceedings of International Conference on Audio and Video–Based Biometric Person Authentication. Berlin, Germany: Springer, 2003. 625−638
                      [136] Patterson E K, Gurbuz S, Tufekci Z, Gowdy J N. In: Proceedings of 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florida, USA: IEEE, 2002, II−2017
                      [137] Fox N A, O’Mullane B A, Reilly R B. VALID: A new practical audio–visual database, and comparative results. In: Proceedings of International Conference on Audio–and Video–Based Biometric Person Authentication. Berlin, Germany: Springer, 2005. 777−786
                      [138] Anina I, Zhou Z, Zhao G, Pietik?inen, M. OuluVS2: A multi–view audiovisual database for non–rigid mouth motion analysis. In: Proceedings of the 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Ljubljana, Slovenia: IEEE, 2015. 1??5
                      [139] Goecke R, Millar J B. The audio–video Australian English speech data corpus AVOZES. In: Proceedings of the 8th International Conference on Spoken Language Processing. Germany: 2004. 2525−2528
                      [140] Estival D, Cassidy S, Cox F, Burnham D. AusTalk: an audio–visual corpus of Australian English. 2014
                      [141] 141 Igras M, Zió?ko B, Jadczyk T. Audiovisual database of Polish speech recordings. Studia Informatica, 2012, 33(2B): 163?172
                      [142] Tamura S, Miyajima C, Kitaoka N. CENSREC–1–AV: an audio–visual corpus for noisy bimodal speech recognition. Auditory–Visual Speech Processing. 2010
                      [143] 143 Huang J, Potamianos G, Connell J, Neti C. Audio–visual speech recognition using an infrared headset. Speech Communication, 2004, 44(1-4): 83?96 doi:  10.1016/j.specom.2004.10.007
                      [144] Pass A, Zhang J, Stewart D. An investigation into features for multi–view lipreading. In: Proceedings of 2010 IEEE International Conference on Image Processing. Hong Kong, China: IEEE, 2417−2420
                      [145] Chitu A G, Driel K, Rothkrantz L J M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings. In: Proceedings of International Conference on Text, Speech and Dialogue. Berlin, Germany: Springer, 2010. 259−266
                      [146] 146 Baltru?aitis T, Ahuja C, Morency L P. Multimodal machine learning: a survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423?443 doi:  10.1109/TPAMI.2018.2798607
                      [147] 147 Sanderson C, Paliwal K K. The vidtimit database. Idiap Communication, 2002: 02?06
                      [148] Miao Y, Gowayyed M, Metze F. EESEN: End–to–end speech recognition using deep RNN models and WFST–based decoding. In: Proceedings of 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Arizona, USA: IEEE, 2015. 167−174
                      [149] Lan Y, Theobald B J, Harvey R, Ong E J, Bowden R. Auditory–Visual Speech Processing, 2010
                      [150] Rekik A, Ben–Hamadou A, Mahdi W. A new visual speech recognition approach for RGB–D cameras. In: Proceedings of International Conference Image Analysis and Recognition. Algarve, Portugal: Springer, 2014. 21−28
                      [151] McCool C, Marcel S, Hadid A, Pietik?inen M, Matejka P, Cernock`y J, et al. Bi–modal person recognition on a mobile phone: using mobile phone data. In: Proceedings of 2012 IEEE International Conference on Multimedia and Expo Workshops. Melbourne, Australia: IEEE, 2012. 635−640
                      [152] Howell D. Confusion modelling for lip–reading. University of East Anglia, 2015
                      [153] 153 Harte N, Gillen E. TCD–TIMIT: An audio–visual corpus of continuous speech. IEEE Transactions on Multimedia, 2015, 17(5): 603?615 doi:  10.1109/TMM.2015.2407694
                      [154] Verkhodanova V, Ronzhin A, Kipyatkova I. HAVRUS corpus: high–speed recordings of audio–visual Russian speech. In: Proceedings of International Conference on Speech and Computer. Budapest, Hungary: Springer, 2016. 338−345
                      [155] Mroueh Y, Marcheret E, Goel V. Deep multimodal learning for audio–visual speech recognition. In: Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. Queensland, Australia: IEEE, 2015. 2130−2134
                      [156] Fernandez–Lopez A, Martinez O, Sukno F M. Towards estimating the upper bound of visual–speech recognition: The visual lip–reading feasibility database. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition. Washington, USA: IEEE, 2017. 208−215
                      [157] 157 Cooke M, Barker J, Cunningham S, Shao X. An audio–visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America, 2006, 120(5): 2421?2424 doi:  10.1121/1.2229005
                      [158] Vorwerk A, Wang X, Kolossa D. WAPUSK20–A Database for Robust Audiovisual Speech Recognition. In: Proceedings of 7th international conference on Language Resources and Evaluation. 2010
                      [159] 159 Czyzewski A, Kostek B, Bratoszewski P, Kotus J, Szykulski M. An audio–visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, 2017, 49(2): 167?192 doi:  10.1007/s10844-016-0438-z
                      [160] Afouras T, Chung J S, Zisserman A. LRS3–TED: a large–scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496, 2018
                      [161] Yang S, Zhang Y, Feng D, Yang M, Wang C, Xiao J, et al. LRW–1000: A Naturally–Distributed Large–Scale Benchmark for Lip Reading in the Wild. 2019 14th IEEE International Conference on Automatic Face and Gesture Recognition. Lille, France: IEEE, 2019. 1−8
                      [162] Afouras T, Chung J S, Senior A, Vinyals O, Zisserman A. Deep audio–visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018
                      [163] Shillingford B, Assael Y, Hoffman M W, Paine T, Hughes C, Prabhu U, et al. Large–scale visual speech recognition. arXiv preprint arXiv:1807.05162, 2018
                      [164] http://www2.cmp.uea.ac.uk/ bjt/avletters/
                      [165] http://avatcar.atspace.eu/
                      [166] http://www.isle.illinois.edu/sst/AVICAR/information
                      [167] http://www.ee.surrey.ac.uk/CVSSP/xm2vtsdb/
                      [168] http://www.ee.surrey.ac.uk/CVSSP/banca/
                      [169] http://users.cecs.anu.edu.au/roland/avozes.html
                      [170] http://people.csail.mit.edu/siracusa/avdata/
                      [171] https://mmspg.epfl.ch/downloads/valid/
                      [172] http://research.nii.ac.jp/src/en/data.html
                      [173] https://austalk.edu.au/about/corpus/
                      [174] http://www.ee.oulu.fi/research/imag/OuluVS2/
                      [175] https://ibug–avs.eu/
                      [176] https://sites.google.com/site/achrafbenhamadou/–datasets/miracl–vc1
                      [177] http://www.robots.ox.ac.uk/
                      [178] http://vipl.ict.ac.cn/view??database.phpid=14
                      [179] http://spandh.dcs.shef.ac.uk/gridcorpus/
                      [180] https://www.oulu.fi/cmvs/node/41315
                      [181] http://conradsanderson.id.au/vidtimit/downloads
                      [182] http://www.ee.surrey.ac.uk/Projects/LILiR/datasets.html
                      [183] https://www.idiap.ch/dataset/mobio
                      [184] https://sigmedia.tcd.ie/TCDTIMIT/
                      [185] http://www.robots.ox.ac.uk/
                      [186] http://fsukno.atspace.eu/Data.htmVLRF
                      [187] 187 Tye–Murray N, Sommers M S, Spehar B. Audiovisual integration and lipreading abilities of older adults with normal and impaired hearing. Ear and Hearing, 2007, 28(5): 656?668 doi:  10.1097/AUD.0b013e31812f7185
                      [188] 188 Akhtar Z, Micheloni C, Foresti G L. Biometric liveness detection: Challenges and research opportunities. IEEE Security and Privacy, 2015, 13(5): 63?72 doi:  10.1109/MSP.2015.116
                      [189] Rekik A, Ben–Hamadou A, Mahdi W. Human machine interaction via visual speech spotting. In: Proceedings of International Conference on Advanced Concepts for Intelligent Vision Systems. Catania, Italy: Springer, 2015. 566−574
                      [190] 190 Suwajanakorn, S, Seitz S M, Kemelmacher–Shlizerman I. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics, 2017, 36(4): 95
                      [191] Gabbay A, Shamir A, Peleg S. Visual speech enhancement. arXiv preprint arXiv:1711.08789, 2017
                      [192] http://vipl.ict.ac.cn/homepage/mavsr/index.html
                      [193] 193 Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2. Advances in Neural Information Processing Systems, 2008: 873?880
                      [194] Noda K, Yamaguchi Y, Nakadai K. Lipreading using convolutional neural network. In: Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore: Speech, 2014
                      [195] 195 Ji S, Xu W, Yang M. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(1): 221?231
                      [196] Thangthai K, Harvey R W, Cox S J, Theobald B J. Improving lip–reading performance for robust audiovisual speech recognition using DNN. In: Proceedings of The International Conference on Auditory-Visual Speech Processing. Vienna, Austria: Speech, 2015. 127−131
                      [197] Almajai I, Cox S, Harvey R, Lan Y. Improved speaker independent lip reading using speaker adaptive training and deep neural networks. In: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China: IEEE, 2016. 2722−2726
                      [198] 198 Herath S, Harandi M, Porikli F. Going deeper into action recognition: A survey. Image and Vision Computing, 2017, 60(1): 4?21
                      [199] Chaudhari S, Polatkan G, Ramanath R, Mithal V. An attentive survey of attention models. arXiv preprint arXiv:1904.02874, 2019
                      [200] Wang F, Tax D M J. Survey on the attention based RNN model and its applications in computer vision. arXiv preprint arXiv:1601.06823, 2016
                      [201] 201 Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015, 115(3): 211?252 doi:  10.1007/s11263-015-0816-y
                      [202] Simonyan K, Zisserman A. Very deep convolutional networks for large–scale image recognition. arXiv preprint arXiv:1409.1556, 2014
                      [203] Huang G, Liu Z, Van Der Maaten L, Weinberger K Q. Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 4700−4708
                      [204] Hu J, Shen L, Sun G. Squeeze–and–excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Utah, USA: IEEE, 2018. 7132−7141
                      [205] 205 Mase K, Pentland A. Automatic lipreading by opticalflow analysis. Systems and Computers in Japan, 1991, 22(6): 67?76 doi:  10.1002/scj.4690220607
                      [206] Pietik?inen M, Hadid A, Zhao G, Ahonen T. Computer vision using local binary patterns. Springer Science and Business Media, 2011
                      [207] 207 Liu L, Chen J, Fieguth P, Zhao G, Chellappa R, Pietik?inen M. From BoW to CNN: two decades of texture representation for texture classification. International Journal of Computer Vision, 2019, 127(1): 74?109 doi:  10.1007/s11263-018-1125-z
                      [208] 劉麗, 謝毓湘, 魏迎梅, 老松楊. ”局部二進制模式方法綜述. ” 中國圖象圖形學報, 2014, 19(12): 1696?1720

                      208 Liu L, Xie Y X, Wei Y M, Lao S Y. Survey of Local Binary pattern method. Joumal of Image and Graphics, 2014, 19(12): 1696?1720
                      [209] Shaikh A A, Kumar D K, Yau W C, Azemin M C, Gubbi J. Lip reading using optical flow and support vector machines. In: Proceedings of the 3rd International Congress on Image and Signal Processing. Yantai, China: IEEE, 2010. 327−330
                      [210] Goldschen A J, Garcia O N, Petajan E. Continuous optical automatic speech recognition by lipreading. In: Proceedings of the 28th Asilomar Conference on Signals, Systems and Computers. IEEE, 1994. 572−577
                      [211] Dosovitskiy A, Fischer P, Ilg E, Hausser P, Hazirbas C, Golkov V, et al. Flownet: Learning optical flow with convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015. 2758−2766
                      [212] Ilg E, Mayer N, Saikia T, Keuper M, Dosovitskiy A, Brox T. Flownet 2.0: Evolution of optical flow estimation with deep networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, USA: IEEE, 2017. 2462−2470
                      [213] 213 Simonyan K, Zisserman A. Two–stream convolutional networks for action recognition in videos. Advances in Neural Information Processing Systems, 2014: 568?576
                      [214] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two–stream network fusion for video action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016. 1933−1941
                      [215] 215 Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks. Advances in Neural Information Processing Systems, 2015: 2017?2025
                      [216] Bhagavatula C, Zhu C, Luu K, Savvides M. Faster than real–time facial alignment: a 3d spatial transformer network approach in unconstrained poses. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 3980−3989
                      [217] Loizou P C. Speech enhancement: theory and practice. CRC press, 2013
                      [218] Hou J C, Wang S S, Lai Y H, Tsao Y, Chang H W, Wang, H M. Audio–visual speech enhancement based on multimodal deep convolutional neural network. arXiv preprint arXiv:1703.10893, 2017
                      [219] Ephrat A, Halperin T, Peleg S. Improved speech reconstruction from silent video. In: Proceedings of International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 455−462
                      [220] Gabbay A, Shamir A, Peleg S. Visual speech enhancement. In: Proceedings of Interspeech. Hyderabad, India: Interspeech, 2018. 1170−1174
                      [221] https://www.who.int/news–room/fact–sheets/detail/deafness–and–hearing–loss
                      [222] Jankowski C, Kalyanswamy A, Basson S, Spitz J. NTIMIT: a phonetically balanced, continuous speech, telephone bandwidth speech database. In: Proceedings of International Conference on Acoustics, Speech, and Signal Processing. New Mexico, USA: IEEE, 1990. 109−112
                      [223] Akbari H, Arora H, Cao L, Mesgarani N. Lip2AudSpec: speech reconstruction from silent lip movements video. In: Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018. 2516−2520
                      [224] Liu L, Ouyang W, Wang X, Fieguth P, Chen J, Liu X, Pietik?inen M. Deep learning for generic object detection: A survey. arXiv preprint arXiv:1809.02165, 2018
                      [225] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015. 3431−3440
                      [226] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks. In: Proceedings of 2013 IEEE international Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013. 6645−6649
                      [227] 227 LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436 doi:  10.1038/nature14539
                    • [1] 吳高昌, 劉強, 柴天佑, 秦泗釗. 基于時序圖像深度學習的電熔鎂爐異常工況診斷[J]. 自動化學報, doi: 10.16383/j.aas.c180453
                      [2] 陳加, 張玉麒, 宋鵬, 魏艷濤, 王煜. 深度學習在基于單幅圖像的物體三維重建中的應用[J]. 自動化學報, doi: 10.16383/j.aas.2018.c180236
                      [3] 羅浩, 姜偉, 范星, 張思朋. 基于深度學習的行人重識別研究進展[J]. 自動化學報, doi: 10.16383/j.aas.c180154
                      [4] 李文英, 曹斌, 曹春水, 黃永禎. 一種基于深度學習的青銅器銘文識別方法[J]. 自動化學報, doi: 10.16383/j.aas.2018.c180152
                      [5] 劉麗, 趙凌君, 郭承玉, 王亮, 湯俊. 圖像紋理分類方法研究進展和展望[J]. 自動化學報, doi: 10.16383/j.aas.2018.c160452
                      [6] 胡長勝, 詹曙, 吳從中. 基于深度特征學習的圖像超分辨率重建[J]. 自動化學報, doi: 10.16383/j.aas.2017.c150634
                      [7] 陳偉宏, 安吉堯, 李仁發, 李萬里. 深度學習認知計算綜述[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160690
                      [8] 羅建豪, 吳建鑫. 基于深度卷積特征的細粒度圖像分類研究綜述[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160425
                      [9] 張慧, 王坤峰, 王飛躍. 深度學習在目標視覺檢測中的應用進展與展望[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160822
                      [10] 尹宏鵬, 陳波, 柴毅, 劉兆棟. 基于視覺的目標檢測與跟蹤綜述[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150823
                      [11] 唐朝輝, 朱清新, 洪朝群, 祝峰. 基于自編碼器及超圖學習的多標簽特征提取[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150736
                      [12] 金連文, 鐘卓耀, 楊釗, 楊維信, 謝澤澄, 孫俊. 深度學習在手寫漢字識別中的應用綜述[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150725
                      [13] 朱煜, 趙江坤, 王逸寧, 鄭兵兵. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150710
                      [14] 奚雪峰, 周國棟. 面向自然語言處理的深度學習研究[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150682
                      [15] 侯志強, 韓崇昭. 視覺跟蹤技術綜述[J]. 自動化學報
                      [16] 胡斌, 何克忠. 計算機視覺在室外移動機器人中的應用[J]. 自動化學報
                      [17] 邱茂林, 馬頌德, 李毅. 計算機視覺中攝像機定標綜述[J]. 自動化學報
                      [18] 徐守義, 齊容剛, 于東剛, 劉軍, 王承訓. 計算機視覺控制系統在顯象管燈絲二次繞線機中的應用[J]. 自動化學報
                      [19] 吳成柯, 鄧世偉, 陸心如. 計算機視覺中三維位置信息的誤差估計[J]. 自動化學報
                      [20] 徐文立. 計算機視覺的PNP問題的最優解[J]. 自動化學報
                    • 加載中
                    計量
                    • 文章訪問數:  1310
                    • HTML全文瀏覽量:  1157
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-07-16
                    • 錄用日期:  2019-11-16
                    • 網絡出版日期:  2019-12-19

                    唇讀研究進展與展望

                    doi: 10.16383/j.aas.c190531
                      基金項目:  國家自然科學基金(61872379)資助
                      作者簡介:

                      國防科技大學電子科學學院博士研究生. 主要研究方向為計算機視覺, 模式識別. E-mail: sheng_cc@nudt.edu.cn

                      國防科技大學系統工程學院碩士研究生. 主要研究方向為計算機視覺與模式識別. E-mail: chenxiaoding14@nudt.edu.cn

                      國防科技大學電子科學學院教授、博士生導師. 主要研究方向為遙感圖像處理, 目標識別. E-mail: kuanggangyao@nudt.edu.cn

                      國防科技大學系統工程學院副教授. 主要研究方向為圖像理解, 計算機視覺, 模式識別. 本文通信作者. E-mail: liuli_nudt@nudt.edu.cn

                    摘要: 唇讀, 也稱視覺語言識別, 旨在通過說話者嘴唇運動的視覺信息, 解碼出其所說文本內容. 唇讀是計算機視覺和模式識別領域的一個重要問題, 在公共安防、醫療、國防軍事和影視娛樂等領域有著廣泛的應用價值. 近年來, 深度學習技術極大地推動了唇讀研究進展. 本文首先闡述了唇讀研究的內容和意義, 并深入剖析了唇讀研究面臨的難點與挑戰; 然后介紹了目前唇讀研究的現狀與發展水平, 對近期主流唇讀方法進行了梳理、歸類和評述, 包括傳統方法和近期的基于深度學習的方法; 最后, 探討唇讀研究潛在的問題和可能的研究方向. 以期引起大家對唇讀問題的關注與興趣, 并推動與此相關問題的研究進展.

                    English Abstract

                    盛常沖, 陳小鼎, 匡綱要, 劉麗. 唇讀研究進展與展望. 自動化學報, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    引用本文: 盛常沖, 陳小鼎, 匡綱要, 劉麗. 唇讀研究進展與展望. 自動化學報, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    Citation: Sheng Chang-Chong, Chen Xiao-Ding, Kuang Gang-Yao, Liu Li. The state of the art and prospects of lip reading. Acta Automatica Sinica, 2019, 45(x): 1?27. doi: 10.16383/j.aas.c190531
                    • 語言是人類溝通交流的主要方式, 麥格克效應[1]表明, 人類在感知語言信息的過程中會受到聽覺和視覺的雙重作用, 即音頻和視頻同時包含著語言信息. 因此, 根據信號源的不同可以將語言感知任務分為語音識別(Audio Speech Recognition, ASR)、視覺語言識別(Visual Speech Recognition, VSR) 以及音 ? 視雙模態融合識別(Audio-Visual Speech Recognition, AVSR). 其中, 視覺語言識別又稱為唇讀(Automatic Lip Reading, ALR). 如圖1所示, 是指根據說話者的嘴唇運動的視覺信息解碼出其所說文本內容的任務. 雖然對語言感知任務來說, 音頻信息包含的信息量更為豐富, 但Potamianos等[3]的研究表明, 利用視覺信息能夠增強語音識別的精確度和魯棒性. 此外, 當音頻信息受損或者音頻信息不可用的情況下, 高效利用視覺信息進行語言識別就變得至關重要[1, 7]. 唇讀技術在諸多領域具有廣泛的應用. 在語音識別領域, 唇讀技術可以用于輔助語音識別系統, 提高其在嘈雜環境等不利情況下的識別性能; 在健康醫療領域, 據世界衛生組織最新數據[221]顯示, 全世界有聽力障礙相關疾病的人數近幾年有明顯的上升趨勢, 借助唇讀技術能夠有效輔助患有聽力障礙的病人解決溝通交流問題[187]; 在公共安全領域, 引入唇讀技術生成唇語密碼, 借助其難復制性和高動態特性有助于活體檢測[188], 配合其他靜態生物特征(指紋、人臉、虹膜等)識別技術能夠進一步提高安防系統的安全性和可靠性; 在智能人機交互領域, 唇讀技術能夠提高交互的多樣性和魯棒性等[189]; 在視覺合成領域, 利用唇讀技術可以生成特定人物高分辨率講話場景的視頻[190], 或者用于合成高真實感的虛擬人物動畫等. 此外, 唇讀技術在軍事情報、安全監控等領域也具有潛在的應用價值.

                      圖  1  唇讀示意圖

                      Figure 1.  Illustration of the lip reading task

                      自從1976年麥格克效應被發現之后, 國內外大量的學者展開了對唇讀方法的研究. 在近40年的研究過程中, 各種唇讀方法層出不窮. 但不可避免的是, 由于早期視覺語言數據集限定條件多、規模較小, 且唇讀任務的影響因素較多難度較大, 這些方法在面向大規模識別任務時的正確率較低. 近幾年, 深度學習技術發展給計算機視覺、語音識別和自然語言處理領域的諸多問題都帶來突破性的進展. 同樣地, 深度學習技術也為唇讀研究注入了新的活力, 開始吸引研究者的關注, 出現了一些基于深度學習的唇讀新方法, 唇讀問題也取得較大的進展, 逐漸從限定條件的實驗環境數據(限定詞匯量、限定說話人、限定姿態等)走向現在的非限定環境唇讀研究, 即Automatic Lip Reading in the Wild[93, 107]. 并且出現了很多新的研究和應用, 比如基于語音的跨模態唇動視頻生成[95], 借助唇動視覺信息進行語音增強[191]、語音分離[111]、語音合成[223]等. 在實際的唇讀任務中, 由于視覺信號存在影響因素多、時間分辨率低等問題, 目前的唇讀方法暫未取得令人滿意的結果. 以當前規模最大的視覺語言數據集LSVSR[163]為例, 目前在該數據集上的識別性能最佳的唇讀方法V2P[163], 其單詞識別率也僅有59.1 %, 遠未達到實際應用需求. 但其識別能力遠超人類唇讀專家(單詞識別率13.6 %), 充分表明自動唇讀方法研究的重要性. 但不可否認的是, 該領域仍然存在許多困難和挑戰未得到很好的解決, 唇讀方法距離實際應用仍然存在很大的差距.

                      鑒于自動唇讀研究潛在的研究價值和應用價值, 以及深度學習技術在唇讀問題上的顯著進展, 近期國內外研究者對唇讀問題的關注呈上升趨勢. 國外比較具有代表性的研究單位主要有牛津大學、帝國理工學院、東安格利亞大學、Google Deepmind研究團隊、芬蘭奧盧大學、瑞士Dalle Molle人工智能研究所、三星美國研究院、亞利桑那州立大學等. 國內研究單位包括中科院計算所、哈爾濱工業大學、大連理工大學等. 近期, 中科院聯合牛津大學、三星美國研究院以及帝國理工學院舉辦了第一屆普通話的唇讀競賽[192].

                      國內外已有不少學者對于唇讀方法進行了綜述, 其中代表性的工作有: 2004年, Potamianos等[2]分別對唇部視覺前端特征提取方法、語音和視覺后端特征融合方法進行了綜述. 2014年, Zhou等[4]總結了視覺特征提取的三大問題, 即講話者依賴性問題、頭部姿態變化問題以及時序特征提取問題, 以問題為導向總結整合了視覺特征提取的主流方法, 同時也總結了語音和視覺特征動態融合方法. 2018年, Adriana等[5]以識別任務為導向對視覺語言數據集進行了總結, 同時也介紹了唇讀領域的傳統方法和基于深度學習的方法. 但是其側重點更多在于已有的各種數據集, 以及各數據集下不同識別任務采用方法的分析和總結, 對不同唇讀方法之間的比較和分析還不夠深入, 且他們的總結的方法大多數是2018年以前的. 國內關于唇讀方法的綜述總結還是比較早期的綜述, 例如2001年姚鴻勛等[6]的工作, 對于近幾年內的方法, 特別是基于深度學習的唇讀方法, 國內目前還沒有系統全面的總結. 為了促進唇讀及其相關拓展領域的研究發展, 鼓勵更多感興趣的學者參與到該領域的研究, 我們有必要對近期唇讀相關研究成果進行歸納和總結. 為此, 本文系統地對唇讀研究進行了綜述, 對唇讀問題存在的困難和挑戰進行了分析, 對近期唇讀研究進展進行了梳理、歸納、分析和總結, 在此基礎上對唇讀未來的研究方向進行了探討.

                      本文剩余章節內容安排如下. 1.1小節從唇讀問題的定義出發, 對目前唇讀研究存在的困難與挑戰進行了分析和總結. 第2章節首先介紹了唇讀方法的通用框架結構, 然后分別從傳統方法和深度學習方法兩方面對唇讀的主流特征提取及分類方法的發展現狀進行了梳理和歸類總結, 詳細闡述了不同框架下代表性方法的動機、原理、優勢與不足, 揭示了各種方法之間的區別與聯系. 第3章節對當前視覺語音數據集以及不同數據集下方法性能的結果對比進行了全面梳理和總結. 最后, 在第4章節中探討了唇讀及其相關拓展領域的未來發展方向.

                      • 唇讀, 是指根據說話者的嘴唇運動的視覺信息解碼出其所說文本內容的任務. 在任務性質上, 唇讀與音頻語音識別具有相似性, 但更具挑戰性. 二者的主要差別在于視頻和音頻數據源時空特性差異, 視覺信號的時間分辨率一般較低, 同時視覺信號的空間二維特性導致其特征空間的冗余, 相關特征提取的難度較大. 綜上所述, 唇讀的影響因素較多, 很具挑戰性, 其主要難點與挑戰總結如下.

                        1) 視覺歧義. 視覺歧義的實質是在發音過程中語言內容在其視覺表現上的歧義性. 如圖2(a)(b)所示, 視覺歧義主要有以下兩種表現形式: ①不同發音具有相似甚至相同的視覺特性. 比如英語中輔音音素/p/和/b/(漢語中聲母音素/p/和/b/) 視覺特性幾乎相同, 因此在不考慮上下文的前提下, 二者幾乎難以區分. ②相同單詞在不同上下文條件下發音不同導致的視覺特性上的差異. 此外, 英語中的弱讀、連讀等發音規則也會導致視覺特性上的差異. 因此, 如何提升對于視覺歧義的魯棒性是唇讀技術面臨的重要的難點之一.

                        圖  2  唇讀難點示例. (a)第一行為單詞place的實例, 第二行為單詞please的實例, 唇形變化難以區分, 圖片來自GRID數據集; (b)上下兩行分別為單詞wind在不同上下文環境下的不同讀法/wind/與/waind/實例, 唇形變化差異較大; (c)上下兩行分別為兩位說話人說同一個單詞after的實例, 唇形變化存在差異, 圖片來自LRS3-TED數據集; (d)說話人在說話過程中頭部姿態實時變化實例. 上述對比實例均采用相同的視頻時長和采樣間隔.

                        Figure 2.  Challenging examples of lip reading. (a) The upper line is an instance of the word place, the lower line is an instance of the word please; (b) The upper and lower lines are respectively different pronunciation of word wind in different contexts; (c) The upper and lower lines respectively tell the same word after, with big difference in lip motion; (d) an example of a real-time change in the head posture of the speaker during the speech. The above comparison examples all use the same video duration and sampling interval.

                        2) 講話者依賴. 當前的唇讀系統主要面向有限數目講話者的識別, 而在實際應用中識別對象可能是未知講話者. 如圖2(c)所示, 不同講話者發音習慣、唇部區域圖像特征存在很大的差異, 圖像區域內包含大量依賴于講話者自身的信息, 這些信息對于唇讀任務來說是無用的[13]. 在視覺特征提取階段如何提取不依賴于講話者的視覺特征是唇讀的一個挑戰.

                        3) 姿態變化. 如圖2(d)所示, 在實際情況下, 講話者可能是側面朝向相機, 甚至講話者也有可能在講話過程姿態實時變化, 而講話者的姿態變化會導致圖像上唇部區域的明顯變化. 這一變化會對視覺特征提取產生很大的影響. 因此, 設計對于姿態變化具有魯棒性的特征提取方法也是不可或缺的.

                        4) 大規模連續唇語識別. 早期的唇讀系統對于可識別的詞匯規模進行了嚴格的限制(數字、字母或有限數量的單詞), 這不可避免的也限制了唇讀系統的可用性. 而當下的任務需求主要是面向大規模詞匯量的連續語句識別, 相對于早期的識別任務來說難度顯著提升, 開放性的詞匯規模給唇讀解碼帶來了巨大的挑戰.

                        除了上述的難點與挑戰外, 解碼的實時性問題、說話者面部表情、語速、視頻幀率、視頻時長、圖像分辨率、環境條件如光照條件、背景條件、圖像噪聲等因素對于唇讀也有很大的影響.

                      • 唇讀按照識別任務的不同, 總體上可以分為兩類: ①有限類別(數字、字母、單詞或短語)的孤立識別任務, 其輸入與輸出是多對一的關系, 這類任務在唇讀發展的早期比較普遍, 一方面是用于降低唇讀問題的難度, 便于早期的唇讀方法的研究; 另一方面其本身也有一定的應用背景, 如說話人身份驗證[167, 168]、人機交互的簡單指令識別(如車輛自動控制[165, 166])等; ②基于最小識別單元(音素[8]、視素[9-11]、字符或單詞)的連續識別任務. 輸入與輸出是多對多的關系, 這類任務更符合唇讀的實際應用需求, 也是當前的研究重點.

                        唇讀算法的通用框架結構如圖3所示, 主要包括以下四個步驟.

                        圖  3  唇讀方法一般流程

                        Figure 3.  The general process of lip reading

                        人臉關鍵點檢測與跟蹤: 這一步驟主要目的是為了獲得人臉關鍵特征點(眼角、鼻尖、唇角等)在序列圖像中的精確定位, 以便于后續精確的提取唇部區域圖像, 關鍵點檢測的精度直接影響到后續唇部區域提取的準確性. 當前, 人臉關鍵點檢測與跟蹤同樣是計算機視覺領域的一大研究熱點, 關于人臉關鍵點檢測與跟蹤的研究進展由Wu等[14]和Chrysos等[15]進行了詳細的總結和梳理, 本文中不再進行詳細說明.

                        唇部區域提取: 上文中我們提到, 唇讀是通過對唇動視覺信息進行解碼的任務, 所以只需要關注唇部區域的視覺信息, 這一步驟的主要目的是提取出每一幀圖像的唇部區域獲得唇動視頻. 基于上一步人臉關鍵點檢測的基礎上, 利用唇部輪廓的關鍵點所在的位置信息, 進行唇部區域提取. 但是目前如何定義與唇讀任務相關的唇部區域具體尺寸仍是一個開放性的問題, Koumparoulis等[16]在實驗中證明, 不同的唇部區域的選擇會對最終的識別結果產生影響, 但仍無法確定最優的唇部區域選擇方案. 事實上, 當前大部分唇讀研究工作僅將人臉關鍵點檢測和唇部區域提取兩個步驟當作數據預處理過程.

                        時空特征提取: 這一部分屬于唇讀的核心研究內容, 也是決定唇讀性能的關鍵所在. 其目的是從唇動視頻中提取出緊致有效的特征向量, 以便于后續的解碼識別. 本文在后續2.2節和2.3節中按照傳統方法和深度學習方法兩類對代表性的時空特征提取方法進行了詳細的歸類、分析和總結.

                        分類與解碼: 面向唇讀任務的分類與解碼方法的選擇依托于任務需求以及視覺特征提取的形式, 前文中提到唇讀任務可以分為孤立的識別任務和連續的識別任務. 前者一般將輸入唇動視頻序列作為整體進行特征提取, 利用支持向量機(Support Vector Machine, SVM)、模板匹配、最大后驗概率(Maximum a Posteriori, MAP)、正則判別分析(Regularized Discriminant Analysis, RDA) 等模式識別領域傳統方法作為分類器; 而后者則主要以隱馬爾科夫模型(Hidden Markov Model, HMM)作為解碼器. HMM能夠有效地對連續序列的產生過程進行建模, HMM與高斯混合模型(Gaussian Mixture Model, GMM)在基于音頻的語音識別領域應用已經非常成熟, 該方法能夠較容易的遷移到唇讀領域中, 因此本文中不再對其進行詳細介紹, 感興趣的讀者可以參考音頻語音識別領域的相關文獻[77-80].

                        對于唇讀方法的研究最早可追溯到上世紀七十年代, 早期的唇讀研究由于缺乏公開數據集的支持, 方法的有效性難以得到很好的驗證. 在上世紀90年代末期, 第一個公開可用的視覺語言數據集AVLetters[131]被創建, 之后越來越多的公開數據集面世, 這些數據集為唇讀方法研究奠定了良好的基礎. 本節我們對近期的唇讀方法進行了簡單梳理和歸類總結, 著重闡述了其中代表性的工作, 并揭示了不同方法之間的區別和聯系.

                        縱觀唇讀研究的歷史進程, 從最早的唇部輪廓寬度、高度、寬高比等簡單的幾何特征到如今基于深度學習的高層抽象特征, 各種時空特征提取方法層出不窮. 在深度學習算法廣泛應用到該領域之前, 也有很多唇讀特征提取和分類方法, 本文中我們將這些方法統稱為傳統方法. 傳統方法的特征提取以數據降維理論和依賴于專家知識的人工特征提取為主, 可以分為基于表觀的、基于形狀的和基于表觀形狀融合的特征提取三大類. 傳統的唇讀特征提取方法大多是面向理想環境下的唇讀問題, 對于很多現實環境中唇讀所面臨的難點與挑戰(參見前文總結的唇讀任務的難點與挑戰)進行了不同程度的約束, 并未系統全面的去考慮這些挑戰對于特征提取的影響, 因此傳統特征提取方法的實用性是比較有限的.

                        相對于傳統特征提取方法而言, 深度學習具有強大的特征學習和表達能力, 能夠自動的從原始數據中學習得到強大的層次化的特征表達. 深度學習方法避免了傳統方法中復雜的人工特征提取過程, 且在大規模數據的支持下, 其模型的表達能力能夠得到進一步增強. 圖4總結了唇讀方法近二十年最具代表性的方法. 在2015年以前, Potamianos等提出的HiLDA[25]方法和Cootes等提出的AAM[69]模型是早期應用最為廣泛最具代表性的傳統視覺特征提取方法. 此外, LDG[46]、RFMA[48]等基于圖嵌入的特征提取方法也受到廣泛關注. 在2015年以后, 基于深度學習的特征提取方法逐漸成為主流, 出現了一些基于深度學習的特征提取和傳統分類器結合的方法[86-92]. 然而傳統分類器很快也被基于深度學習的分類器模型所替代, 這種傳統與深度學習融合的方法也逐漸向端到端的深度學習方法轉變, LipNet[98]、WLAS[107]、Transformer[123]、V2P[163]等各種基于深度學習的端到端唇讀網絡結構先后被提出, 端到端的唇讀網絡模型的識別性能相比于其他模型有明顯的優勢, 也是當前唇讀關注的熱點.

                        圖  4  唇讀研究過程中代表性方法. 傳統特征提取方法: 主動形狀模型ASM[67], 主動表觀模型AAM[69], HiLDA[25], LBP-TOP[36], 局部判別圖模型[46], 圖嵌入方法[39], 隨機森林流行對齊RFMA[48], 隱變量方法[47]; 深度學習方法: DBN/CNN+HMM混合模型[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

                        Figure 4.  Representative methods in the process of lip reading research. Traditional feature extraction methods:ASM[67], AAM[69], HiLDA[25], LBP-TOP[36], LDG[46], Graph Embedding[39], RFMA[48], Hidden variable method[47]; Deep learning based methods: DBN/CNN+HMM hybrid model[86-92], SyncNet[94], LipNet[98], WLAS[107], Transformer[123], LCANet[109], V2P[163].

                      • 對于唇讀任務來說, 圖像序列本身可以看成一個高維的特征空間, 包含大量與唇讀任務無關的冗余信息(如姿態、環境光照、說話人膚色等), 而真正與唇讀任務相關的是唇動信息, 如何有效的濾除冗余信息, 同時最大限度的保留唇動信息是時空特征提取關鍵所在. 時空特征提取旨在從高維的動態圖像序列中提取緊致有效的特征, 以進行唇語預測. 便于總結, 我們將已有的傳統時空視覺特征提取算法分為三類[2]: 基于表觀的, 基于形狀的以及二者結合的. 表1總結了這三類時空特征提取方法的代表性的算法以及其優缺點.

                        表 1  傳統時空特征提取算法優缺點總結

                        Table 1.  A summary of advantages and disadvantages of traditional spatiotemporal feature extraction methods

                        時空特征提取方法代表性方法優勢不足
                        基于表觀的全局圖像線性變換[25-30],
                        圖嵌入與流形[38-39, 46-48],
                        LBP-TOP[35-36], HOG[49], 光流[11, 205]···
                        ①特征提取速度快;
                        ②無需復雜的人工建模.
                        ①對唇部區域提取精度要求高;
                        ②對環境變化、姿態變化、噪聲敏感;
                        ③不同講話者之間泛化性能較差.
                        基于形狀的輪廓描述[40-43],
                        AFs[72], 形狀模型[65, 66]···
                        ①具有良好的可解釋性;
                        ②不同講話者之間泛化性能較好;
                        ③能有效去除冗余信息.
                        ①會造成部分有用信息丟失;
                        ②需要大量的人工標注;
                        ③對于姿態變化非常敏感.
                        形狀表觀融合的形狀+表觀特征串聯[56, 62],
                        形狀表觀模型[69]···
                        ①特征表達能力較強;
                        ②不同講話者之間泛化性能較好.
                        ①模型復雜,運算量大;
                        ②需要大量的人工標注.
                      • 該類方法假設唇部區域內所有像素點都包含視覺語言相關的信息[2], 基于唇部區域的原始像素進行時空特征提取. 這類算法以唇部區域的像素值作為原始的特征空間, 通過不同的方式實現對原始像素特征的降維以獲得緊致有效的特征向量.

                        1) 全局圖像線性變換方法

                        在經過人臉關鍵點檢測與跟蹤以及唇部區域提取的過程后, 將唇部區域歸一化到相同尺寸, 基于原始像素強度的特征表達, 存在信息冗余、特征維度高等局限性(以64×64大小的ROI為例, 每一幀圖像的特征向量為4 096維), 不利于后續識別. 因此, 需要對原始特征空間進行變換/降維以獲取緊致、鑒別力強的特征表達. 常用的線性降維方法包括主成分分析方法(Principal Component Analysis, PCA)[13]、離散余弦變換(Discrete Cosine Transform, DCT)[28]等無監督線性降維方法, 以及線性判別分析(Linear Discriminant Analysis, LDA)[28]、最大似然線性變換(Maximum Likelihood Linear Transformation, MLLT)[197]等有監督線性降維方法. Seymour等[31]比較了采用上述不同的圖像變換方法(PCA、DCT、LDA) 的唇讀系統在不同的圖像退化條件下的魯棒性以及識別精度, 實驗證明不同的圖像變換方法最優性能表現是相近的.

                        在深度學習方法廣泛應用之前, 基于圖像線性變換的特征提取方法是最為常用的傳統特征提取方法, 一般由多級線性變換組合得到. 線性變換可以分為幀內線性變換和幀間線性變換, 其一般流程如圖5所示. 第一種線性變換本質上是提取單幅圖像上視覺語言相關信息, 第二種特征變換旨在提取視頻幀之間動態信息, 這種線性變換的組合能夠有效的表示時空特征.

                        圖  5  線性變換特征提取方法一般流程

                        Figure 5.  The workflow of linear transformation feature extraction method

                        基于該框架最具代表性的算法為“HiLDA”, 由Potamianos等[25-29]提出, 應用于音-視融合的語音識別任務中作為視覺前端特征提取器, 并被廣泛應用于各種唇讀系統. 基于相同的框架, Lucey和Potamianos[30]在此基礎上進一步考慮了局部特征, 將此框架同時應用于全局的特征提取與基于圖像塊(Patch-Based)的局部特征提取, 融合全局特征與局部特征, 進一步提高了識別精度. 線性變換方法實質上是從數據本身出發, 并非依賴于人工設計特征提取方法, 能夠很好的與其他特征提取方法結合進一步實現特征降維. 如Lan等[149]使用主動表觀模型(Active Appearance Model, AAM)[69]特征代替幀內線性變換, 之后將連續幀的AAM特征歸一化后連接起來進行幀間線性變換提取時空特征.

                        全局圖像線性變換方法將時空特征提取過程分為兩步進行, 第一步提取圖像的空間特征, 第二步提取視頻序列的時序動態特征, 兩步均采用基于線性變換的降維方法. 對于線性空間中的數據, PCA和LDA都可以很好地得到高維數據的內在結構. 但就唇讀任務本質上來說, 其時空特征是不滿足線性空間分布的, 線性變換提取的特征表示能力有限, 因此基于全局圖像線性變換的方法是有局限性的, 限制了識別精度的提升. 此外, 全局的圖像變換方法直接對圖像原始像素值進行特征提取, 導致特征對于環境光照變化、噪聲等比較敏感, 對于唇部區域提取的精度要求較高, 且對于不同講話者之間的泛化性能較差.

                        2) 流形學習與圖嵌入方法

                        前文中提到圖像線性變換方法應用于唇讀時空特征提取存在的局限性問題, 流形(Manifold)[44, 45]學習和圖嵌入(Graph Embedding) [23]方法在一定程度上能夠緩解線性變換的表達能力不足的問題.

                        流形是線性子空間的一種非線性推廣, 流形學習假設所處理的數據點分布在嵌入于外維歐式空間的一個潛在的流形體上, 其本質是從高維數據中恢復數據的低維流形結構, 并找出相應的嵌入映射關系. 而基于圖嵌入的學習算法把問題定義為一個圖, 每個樣本數據表示為圖的頂點, 邊的權值反映頂點間的相似程度, 圖嵌入方法也被廣泛應用于數據降維[23], LDA變換以及經典的流形學習算法局部線性嵌入(Locally Linear Embedding, LLE)本質上來說也屬于圖嵌入方法的一種線性表示.

                        Fu等[46, 70]首次將流形學習與圖嵌入的方法引入到唇讀領域, 提出局部判別圖模型(Locality Discriminant Graph, LDG), 類似于LLE算法, 利用K-NN方法分別求出每個樣本點的同類最近鄰和不同類最近鄰, 并以此建立權值矩陣. 在保持投影后同類樣本點距離的前提下, 最大化投影后不同類樣本點的距離, 并依此求出投影矩陣P. 將此方法應用到連續數字的唇讀任務中, 在AVICAR數據集上取得了37.46 %的識別率, 是該數據集下當時最優的識別結果. 但此方法缺陷在于訓練視頻序列每一幀相當于一個樣本需要進行類別標注, 這對視頻預處理階段的精度要求較高, 且需要大量的人工干預. 同樣, Yan等 [23]提出一種基于圖嵌入的高維數據降維框架, Zhou等[38, 39, 47]將此框架應用于有限句子識別的唇讀任務. 在文獻[38]中, 作者對每一類句子對應的視頻序列構建圖和權值矩陣, 并依據上述圖嵌入降維框架將每一幀圖像降至20維. 作者發現每類圖像序列降維后的特征在某一些維度上呈現正弦特性, 他們稱之為主導維度, 在主導維度上進行傅里葉變換計算在該維度上的頻率峰值. 測試階段, 測試樣本對每一類進行投影變換, 之后利用主導維度上的頻率峰值匹配來進行整體的句子分類. 作者在文獻[39]中指出該方法在說話者依賴的唇讀系統中的性能較好, 但面向說話者獨立的唇讀任務時性能會顯著下降.

                        文獻[39, 47]中將一段視頻序列依據圖嵌入模型映射到低維空間中的一段由三角函數定義的連續曲線中, 如圖6所示, 作者稱之為路徑圖. 為解決說話者依賴的問題, 作者分別采用了視頻序列歸一化策略和隱變量模型, 測試階段分別利用曲線匹配和互相關性進行測試樣本分類, 該方法在OuluVS數據集上針對有限的短句識別問題取得了較好的識別結果. Pei等[48]提出隨機森林流形對齊(Random Forest Manifold Alignment, RFMA)的唇讀框架, 用一系列的圖像塊軌跡特征以及圖像塊的LBP和HOG特征來表示視頻幀序列的原始時空特征, 并在嵌入空間中將其映射為單一的運動模式, 最終通過基于流形對齊的運動模式匹配來實現短句識別, RFMA方法當時在AVLetters、AVLetters2以及OuluVS數據集上都達到最優識別性能.

                        圖  6  連續幀曲線映射

                        Figure 6.  Continuous frame curve mapping

                        3) LBP-TOP方法

                        前文中提到, 直接對原始像素值進行變換提取特征, 會導致特征對于環境光照變化、噪聲等比較敏感, 不同說話者之間的泛化性能較差的問題. 引入像素點的局部特征表達能有效的改善這些問題. 局部二值模式(Local Binary Patterns, LBP)是當前最具代表性的像素局部特征表達方法之一, LBP最早由Ojala等[33, 34]提出, 是一種用來描述圖像局部紋理信息的特征. 由于其具有灰度不變性、計算復雜度低和較好的特征表達力等優點, LBP方法在紋理分析和人臉識別領域得到非常成功的應用[82, 206, 207].

                        圖7所示, 采用圓形鄰域系統的LBP方法定義在某中心像素點及其周圍半徑為R的圓形鄰域等間隔分布的P個像素點上. 其公式描述如下:

                        圖  7  ${\rm LBP}_{8,1}$算子

                        Figure 7.  ${\rm LBP}_{8,1}$ operator

                        $${\rm{LB}}{{\rm{P}}_{P,R}} = \sum\limits_{p = 0}^{P - 1} s ({g_p} - {g_c}){2^p},s(x) = \left\{ {\begin{aligned} &1&{x \ge {\rm{0}}}\\ &0&{x < {\rm{0}}} \end{aligned}} \right.$$ (1)

                        其中$ R $表示圓形鄰域的半徑, $ g_c $表示中心像素的灰度值, $ g_p $表示中心像素點圓形鄰域上第$ p $個采樣像素點的灰度值, $ s(x) $是符號函數. 經過LBP算子計算后, 常采用直方圖統計不同的LBP模式出現的頻率作為LBP特征. 對于含有$ P $個采樣點的LBP模式總共有 $ 2^P $種. 通過改變參數對$ (P,R) $的值, 可以獲得不同尺度上的LBP模式. 然而全局LBP直方圖矢量的維數隨著P的增加而成指數增長, 很快就受到計算和存儲的限制. 為了解決這個問題, Ojala地提出了均勻(Uniform) LBP模式[34], LBP均勻模式數量總共為$ P(P-1)+2 $種, 而其余所有的非均勻模式將被統計一種. 故$ LBP_(P,R) $特征的直方圖維數為$ P(P-1)+3 $, 這種方式具有更高的計算效率和魯棒性[208].

                        Zhao等[35]將LBP方法擴展到視頻, 提出LBP-TOP(Local Binary Patterns from Three Orthogonal Planes)方法來提取時空信息, 同時考慮了視頻每個體像素周圍的三個正交平面內的局部二值特征, 從而獲取到時間序列上的動態特征, 類似于LBP特征, 基于直方圖統計及均勻模式描述, LBP-TOP特征向量的維度為$ 3\times [P(P-1)+3] $. LBP方法很好的捕獲了圖像局部紋理信息, 具有較好的表達力.

                        直接應用LBP-TOP直方圖統計特征作為視頻的特征表示存在一個比較明顯的問題, 即直方圖信息只能體現全局的LBP-TOP模式出現的頻率, 而無法反映出LBP-TOP模式出現的空間和時間位置信息. 比如, 在排除其他干擾因素的前提下, “you see”與“see you”這兩句話其視頻的LBP-TOP直方圖統計特征幾乎是一樣的. 為了解決這個問題, Zhao等[36]提出分塊LBP-TOP直方圖統計特征, 如圖8所示, 同時在時間和空間上分塊進行特征提取, 然后串聯每一塊的LBP-TOP直方圖統計特征組成新的特征向量. 這種分塊方法在提高了對時空特征的描述能力, 但同時也帶來了特征向量維度幾何倍數增加的問題. 此外, 該方法需要輸入的視頻序列足夠長以保證其特征提取的有效性[39], 且該方法只在孤立唇讀識別任務中得到測評, 在OuluVS數據集上的短語識別任務上取得了62.4 %的單詞識別率.

                        圖  8  分塊LBP-TOP特征提取

                        Figure 8.  Block LBP-TOP feature extraction

                        除上述方法外, 許多學者也將諸多傳統圖像分類、目標檢測等領域的基于表觀的特征提取算法應用到唇讀領域中, 其中代表性的特征提取算法包括方向梯度直方圖(HOG)[49], 光流法[52-54]等. 其中, HOG類似于LBP, 二者都屬于對像素的局部特征描述, HOG在唇讀方法中的應用主要是作為圖像的特征提取器, 與其他時序動態特征提取方法結合[48, 50]. 光流法早期在唇讀領域的應用也很廣泛[11, 205, 209, 210], 光流場能夠明確的反映出相鄰圖像幀之間的運動特性. 但就唇讀任務而言, 基于光流法的時空特征提取對于光流計算的精度要求較高, 且光流法本身存在計算量大、對噪聲很敏感等問題, 且現實環境下說話人姿態變化、環境光照變化等因素也在一定程度上影響光流計算的精度, 導致近期基于光流法的唇讀特征提取的研究越來越少.

                        本小節較為全面的總結了基于表觀的視覺時空特征提取方法, 詳細比較了不同方法的優勢和不足. 總體來說, 基于表觀的特征提取算法的優勢在于直接對原圖像序列進行處理, 特征提取速度較快, 無需復雜的專家知識和人工建模; 不足在于這類特征普遍對唇部區域提取的精度、背景環境變化以及噪聲污染等因素敏感, 缺乏魯棒性.

                      • 基于形狀的特征提取方法, 主要基于唇部區域的形狀(嘴唇, 下巴以及面頰等)進行特征提取. 這種特征提取方法可以分為兩類: 輪廓相關屬性方法和形狀模型方法.

                        1) 輪廓相關屬性方法

                        在給定唇部輪廓的情況下, 我們能夠輕易地提取出有意義的高級特征, 比如輪廓高度、寬度、周長以及輪廓內部區域的各種幾何屬性, 或采用傅里葉輪廓描述子進行輪廓描述. 這類方法直接在早期的唇讀算法文獻[40-43]中應用較為廣泛.

                        此外, 發音關節特征(Articulatory Features, AFs)[63-64, 71-75]也被用于唇讀語音識別. 如圖9所示, 發音關節, 顧名思義是指與人類發音相關的器官. AFs典型的發音關節特征包括嘴唇張開程度、唇齒特征等, 利用一系列可觀測的AFs來實現唇讀識別. Papcun等[76]在文獻中證明AFs在一定程度上與說話者是無關的, 因此AFs在不同說話者之間的泛化能力較強, 常用于解決說話者依賴問題. 雖然AFs具有很好的可解釋性, 但由于這一類特征過于簡單, 表示能力極其有限, 難以很好的區分相似視素, 一般應用于小規模的短語識別任務[75].

                        圖  9  語音產生的發音特征

                        Figure 9.  Articulatory features

                        (2) 形狀模型方法

                        主動形狀模型(Active Shape Model, ASM)[65-66]是一種基于點分布模型的算法. 外形相似的物體, 例如人臉、嘴唇等的幾何形狀可以通過若干關鍵特征點(Landmarks)的坐標依次串聯形成一個形狀向量來表示. ASM算法需要通過預先對訓練集進行人工特征點標注, 之后經過訓練獲得形狀模型, 再通過特征點的匹配實現特定物體的識別.

                        Luettin等[67]首先將ASM模型應用于唇讀, 用一組特征點來描述內唇或外唇輪廓[68]. 如圖10所示, 該方法具體步驟如下: 首先對所有的訓練圖像利用K個輪廓點進行標記, 將每張圖像表示為一個由標記點坐標組成的向量: $ {\pmb s} = [x_1,y_1,x_2,y_2,\cdots, $$x_K,y_K]^{\rm T} $, 之后依據基準樣本將所有訓練樣本進行對齊, 對齊后計算平均形狀向量$ {\pmb s_0} $, 之后利用主成分分析方法計算前$ m $個最大特征值對應的特征向量, 則大部分形狀可用以下公式近似表示:

                        圖  10  唇部輪廓ASM模型

                        Figure 10.  ASM model of lip profile

                        $${\pmb s} \approx {{\pmb s}_0} + \sum\limits_{i = 1}^m {{{\pmb s}_i}} {{\pmb p}_i}$$ (2)

                        其中, $ {\pmb s_i} $表示訓練樣本的協方差矩陣對應的第$ i $個特征向量, $ {\pmb p_i} $是第$ i $個特征向量對應的權值, 即形狀參數. 最終, $ {\pmb p} = [p_1,p_2,\cdots,p_m]^{\rm T} $即為所求的ASM特征向量. 基于形狀模型的特征提取方法相對于基于表觀的特征提取方法來說, 其優勢在于特征具有良好的可控性和可解釋性, 特征點選取越多則模型精度越高, 表示能力越強. 但形狀模型也有缺陷: ①形狀模型假設與視覺語音相關的信息大部分處于特征點表示的輪廓上, 不可避免的會造成信息丟失; ②形狀模型需要對大量的訓練樣本進行人工特征點標注, 且特征點標注的精度對模型好壞有很大的影響; ③形狀模型對于姿態變化很敏感, 姿態變化較大的情況下形狀模型缺乏有效性.

                      • 基于表觀和基于形狀的視覺特征在性質上是完全不同的, 從某種意義上來說, 二者分別是關于說話者的唇部區域的低級特征和高級特征, 直觀上, 二者融合可以提升性能. 大多數情況下, 二者的融合只是簡單的特征串聯. 例如, Chan[62]將唇部幾何輪廓特征與唇部區域的圖像PCA特征相結合作為視覺特征, Dupont和Luettin[56]將ASM特征與圖像PCA特征相結合等. 還有一類融合方式是將形狀模型與表觀模型融合到到單一模型框架, 其中最具代表性的方法為主動表觀模型(Active Appearance Model, AAM). 考慮到ASM模型[67]存在的問題, Cootes [69]提出AAM模型, AAM實質上是對ASM模型的改進, 在形狀模型的基礎上融入表觀模型, 使得模型的表示能力進一步提高. AAM模型分為兩個成分, 即形狀成分和表觀成分, 其形狀成分即為ASM模型. 表觀成分由目標表觀$ A(X) $來定義, $ A(X) $可以是所有位于目標輪廓內部的所有像素點[2], 也可以是ASM模型特征點對應的局部紋理[56]. 類似于ASM的基本定義, AAM模型中表觀成分公式定義如下:

                        $$A(X) = {A_0}(X) + \sum\limits_{i = 1}^l {{\lambda _i}} {A_i}(X)$$ (3)

                        同樣, $ A_0(X) $表示歸一化形狀后的平均表觀, $ A_i(X) $表示特征向量, $ \lambda_i $表示表觀參數, 最終的AAM特征為形狀參數向量與表觀參數向量的串聯 $ {\pmb v} = [p_1,p_2,\cdots,p_m,\lambda_1,\lambda_2,\cdots,\lambda_l]^{\rm T} $. 其中, $ [p_1,p_2,\cdots, $$p_m]^{\rm T} $為形狀特征, $ [\lambda_1,\lambda_2,\cdots,\lambda_l]^{\rm T} $為表觀特征.

                        AAM模型雖然早在2000年就已提出, AAM模型結合了形狀和表觀的優點, 其強大的特征表示能力使得它在唇讀領域的應用依舊非常廣泛[126-130]. 但AAM模型只是針對ASM模型缺乏表觀建模能力的一種改進, AAM模型同樣也會有對人工標注的精度要求高、對姿態變化敏感等問題.

                      • 基于傳統方法的唇讀系統往往需要豐富的領域知識來設計特征提取方法, 將原始圖像序列數據處理成適當的特征向量序列, 然后利用合適的分類器基于該特征向量序列進行分類. 深度學習[227]是近年來出現的一種具有里程碑意義的數據表示與學習技術[81]. 與傳統人工設計特征的重要區別在于, 深度學習的本質是通過多層非線性變換從大數據中以有監督或者無監督的方式學習層次化的特征表達, 對圖像進行從底層到高層的描述[82]. 基于深度學習的唇讀方法在早期主要是利用深度神經網絡所提取的深層抽象特征[86-92]代替傳統特征, 或者與傳統特征結合進一步提高特征的表達能力[90]. 2011年, Ngiam等人[86]基于深度自編碼器[81]和受限玻爾茲曼機(Restricted Boltzmann Machines, RBMs)[193]提出視覺語音多模態融合特征表達框架, 首次將基于深度學習方法的視覺特征提取方法引入了多模態語音識別領域, 這項工作為之后基于深度學習的唇讀研究奠定了基礎.

                        此后, 2012年, Hinton[83]采用卷積神經網絡(Convolutional Neural Network, CNN)在圖像分類任務上取得大幅度性能提升, 在隨后的幾年時間內, 對于CNN構架的研究逐漸深入, AlexNet[83], VGG[202], GoogleNet[121], ResNet[102], DenseNet[203], SENet[204]等CNN構架相繼問世, CNN的特征學習和表達能力逐步增強. 典型CNN的基本結構如圖11所示, 由多個卷積層、池化層和全連接層堆疊而成, 以學習多層次的數據表示. CNN模型在目標識別[224]、圖像分類[83]、語義分割[225]以及語音識別[226]等諸多領域都取得了飛躍性的進展. 同樣的, CNN模型在唇讀領域的應用近幾年也取得了較大的進展. 2014年, Noda等人[91, 194]將CNN模型作為視覺特征提取器用于孤立的日語單詞識別任務, 并在實驗中證明了CNN特征相對于傳統PCA特征的性能更優. 由于傳統CNN對時序特征建模的能力有限, 2016年以后越來越多的工作將3DCNN[195]引入唇讀作為時空特征提取器, 3DCNN將傳統CNN卷積核在時間維度上進行拓展, 使得網絡能夠同時從時間和空間維度上提取有用信息, 有效的改善了傳統CNN對于時序特征學習能力不足的問題. 3DCNN能夠高效的學習視頻特征, 在視頻分類、行為識別[198]等領域有廣泛的應用.

                        圖  11  典型CNN結構示例圖

                        Figure 11.  A typical CNN structure example

                        在2.1節中我們提到, 傳統的唇讀系統分類器的選擇依托于任務需求. 對于孤立的數字、單詞、短語等識別任務, 一般采用SVM、序列匹配等分類器. 在深度學習方法廣泛應用于唇讀后, 基于多層前饋神經網絡的分類器逐漸取代了傳統的分類器[155, 196-197]. 而對于大規模連續語句的識別任務, 傳統方法一般采用基于GMM-HMM的解碼模型. 在基于深度學習的唇讀方法發展的早期, 大量的研究工作利用深度神經網絡作為特征提取器, 結合GMM-HMM模型來解決大規模連續語句的唇讀識別任務[89-91, 194]. 在深度學習模型中, 循環神經網絡(Recurrent Neural Network, RNN)是一種典型的用來對序列數據進行建模學習的網絡結構. 典型的RNN結構如圖12所示, 其基本結構與HMM類似, 都是通過隱狀態序列的轉換來刻畫觀測狀態序列間的依賴關系. 但RNN相對于HMM主要有以下兩點優勢: ①HMM的隱狀態是one-hot的表示形式, 而RNN是連續的向量表示, 在面對高維度的隱狀態情況下, RNN的表示效率更高; ②HMM的隱狀態轉換是線性的, 而RNN的隱狀態轉換是高度非線性的, RNN的表達能力更強; 不過原始RNN模型過于簡單, 在訓練過程容易陷入梯度消失和梯度爆炸的問題, 穩定性遠不如HMM模型. 但隨著長短時記憶網絡 (Long Short-Term Memory, LSTM)[84]、門控循環單元(Gated Recurrent Unit, GRU)[85]等高效的循環神經網絡變體結構的成功應用, 梯度消失和梯度爆炸的問題能夠得到有效的解決, 因此HMM模型也逐漸被LSTM、GRU所取代, 唇讀系統也逐漸向端到端深度學習網絡結構轉變.

                        圖  12  RNN及LSTM、GRU結構示例圖

                        Figure 12.  The structure of RNN, LSTM and GRU

                        截至目前, 基于深度學習的端到端唇讀系統在性能上已經普遍超過傳統方法. 端到端的模型結構類似于傳統方法, 區別在于利用深度網絡替代傳統方法中的特征提取器和分類器, 一般來說, 模型前端屬于特征提取網絡, 后端屬于分類解碼網絡. 下面將分框架詳細介紹近幾年內最具代表性的端到端唇讀網絡模型.

                      • 在CNN-RNN模型框架中, CNN提取的圖像特征具有強大的表示能力, 而RNN對于序列數據具有良好的建模能力, 因此CNN作為前端特征提取器, RNN作為后端序列分類器的唇讀網絡結構是當前最具代表性的. 其基本結構如圖13所示.

                        圖  13  CNN-RNN基本框架

                        Figure 13.  The network structure of CN-RNN

                        Chung[93, 94], Wand[51], Garg[96]以及Stafylakis[101] 等基于此框架設計了孤立的單詞或短語識別網絡. 其中Chung[93]針對傳統CNN時序動態特征提取能力不足的問題, 分別設計了Early Fusion和Multiple Towers兩種CNN結構, 探討了這兩種優化結構對于動態特征建模能力的提升效果. 此外, 文獻[94]提出的SyncNet結構, 原本用于語音與唇動視頻同步對齊任務, 采用類似于VGG-M[202]的網絡結構學習同步的視頻與語音的聯合特征表示. 作者在實驗中證明在已經學習好的SyncNet基礎上, 在網絡后端加入一層LSTM結構能夠直接遷移到唇讀任務, 該網絡在OuluVS2數據集(將在后文介紹)上實現了94.1 %的單詞識別率. Wand[51]、Garg[96]以及Stafylakis[101]提出的模型結構上也類似于SyneNet+LSTM, 主要區別在于前端卷積網絡選擇的不同.

                        2016年, Assael等[98]引入連接主義時間分類(Connectionist Temporal Classification, CTC)損失[100], 將上述CNN-RNN框架拓展到連續的唇讀任務, 文中提出的LipNet結構首次實現了端到端語句級別的連續唇語識別. 其模型結構如圖14所示, 以字符作為最小識別單元, 利用時空卷積神經網絡(Spatiotemporal Convolutional Neural Networks, STCNNs)作為前端卷積網絡, 雙向門控循環單元(Bidirectional Gated Recurrent Unit, BiGRU)作為后端連續序列識別網絡. 利用CTC損失來進行網絡訓練能夠解決視頻序列與文本標簽未進行時序對齊的問題, 實現了連續語句的唇讀識別任務, 并在GRID數據集上實現95.2 %的單詞識別率. 2018年, Shillingford和Assael[163]針對當前數據集存在的可識別詞匯量較小的問題, 創建了LSVSR視覺語言數據集, 并提出了V2P(Vision to Phoneme)網絡結構, 其結構類似于LipNet, 主要區別在于該網絡結構的最小識別單元為音素而不是字符, 在解碼階段利用有限狀態轉換器(Finite State Transducers, FSTs)模型[148]將音素序列轉換為單詞序列. V2P結構在LSVSR上的單詞識別率為59.1 %, 而LipNet在該數據集上的單詞識別率僅為27.3 %.

                        圖  14  LipNet構架

                        Figure 14.  The network architecture of LipNet

                        同樣的, 文獻[103-104, 112-113]也都采用了類似于LipNet的網絡構架. 但是CTC損失具有內在的條件獨立性, 即每個輸出單元是單獨預測一個特定標簽的概率[109], 因此CTC損失會著重考慮臨近幀的局部信息, 不適合預測需要更長的上下文信息來辨別的幀標簽.

                        Xu等[109]考慮到CTC損失函數存在的問題, 提出了LCANet, 其網絡編碼器部分包含三個主要模塊: 3DCNN模塊、Highway[110]網絡模塊以及BiGRU模塊. LCANet將3個連續幀輸入到3DCNN中以編碼局部時空信息. 然后作者在3DCNN的頂部堆疊兩層Highway網絡, 使編碼器捕獲更豐富的語義特征. 之后加入BiGRU網絡以編碼長期時空信息. 為了從更長的上下文中明確地捕獲信息, LCANet將編碼的時空特征饋送到級聯注意力CTC解碼器中, 引入注意機制一定程度上消除了隱藏神經層內CTC條件獨立假設的缺陷, 改善了唇讀問題的建模能力, 并且對于視覺上相似度很高的視素單元的識別能力更強. LCANet在GRID數據集上的單詞識別率達到97.1 %, 是GRID數據集上最佳結果.

                      • 編解碼(Encoder-Decoder)模型, 又名Sequence-to-Sequence (Seq2seq) 模型, 是一種基于神經網絡的序列到序列的學習模型[105]. 一般的CNN、RNN等深度學習模型雖然具有強大的特征表達和學習能力, 但是無法處理不定長的序列到序列的學習問題, 而編解碼模型能夠較好對不定長的序列到序列的學習問題進行建模[105]. 但由于RNN模型本身的限制, 原始的編碼解碼模型對于較長的輸入序列編碼能力較差[106], 引入注意力機制[106]能夠進一步完善該模型. 深度學習中的注意力機制從本質上講和人類的選擇性視覺注意力機制類似, 核心目標也是從眾多信息中選擇出對當前任務目標更關鍵的信息(例如在唇讀領域, 可以根據前一時刻的解碼結果從長視頻中選擇出與當前時刻相對應的唇動信息的視頻片段, 這可以明顯提高解碼的準確率). 注意力機制在編解碼框架中的應用非常廣泛, 關于注意力機制的研究和應用在文獻[199, 200]中進行了詳細的總結和梳理, 本文中不再進行詳細說明.

                        基于注意力機制的編碼解碼框架在唇讀領域最具代表性的方法是由Chung等[107, 108]提出的WAS(Watch, Attend and Spell)模型, 我們借助該模型對基于注意力機制的編碼解碼框架在唇讀領域的應用原理進行詳細的闡釋. 如圖15所示, WAS模型包含“Watch”和“Spell”兩個模塊, 以及注意力機制“Attend”. 其中, “Watch”實質上是視頻編碼模塊, 其輸入是連續五幀灰度圖像的通道串聯, 包含五個卷積層、一個全連接層以及三個LSTM層; “Spell”為解碼模塊, 包含三個LSTM層, 注意力機制以及一個全連接和Softmax的輸出層. 為進一步闡明該模型, 我們將其各模塊的功能實現進行公式化的描述如下:

                        圖  15  WAS構架

                        Figure 15.  The network architecture of WAS

                        $$ \left\{ \begin{aligned}& {\pmb f_i} = {\rm CNN}({\pmb x_i})\\ &{\pmb o_i} = {\rm LSTM}({\pmb f_i}, {\pmb o_{i+1}})\\& {\pmb s} = {\pmb o_1} \end{aligned} \right. $$ (4)

                        上式概括了“Watch”編碼模塊的功能, 其中$ {\pmb x_i} $表示第$ i $個時刻的連續五幀灰度圖像輸入, $ {\pmb f_i} $$ {\pmb x_i} $經過卷積層和全連接層后的特征向量表示, $ {\pmb o_1} $表示第$ i $個時刻編碼器LSTM層輸出的語義編碼向量(文中視頻序列是倒序輸入的), $ {\pmb s} $是編碼器最終時刻的語義編碼向量. “Spell”模塊的公式化描述如下:

                        $$ \left\{ \begin{aligned}& {\pmb h_k^d} = {\rm LSTM}({\pmb h_{k-1}^d},y_{k-1},{\pmb c_{k-1}})\\& {\pmb c_k} = {\pmb o}\cdot {\rm Attention}({\pmb h_k^d}, {\pmb o})\\& P(y_k| x, y_{<k}) = {\rm softmax({\rm MLP({\pmb h_k^d},{\pmb c_k})})} \end{aligned} \right. $$ (5)

                        其中, $ {\pmb h_k^d} $表示解碼階段第$ k $個時刻解碼器LSTM層的輸出, $ y_k $代表第$ k $個時刻的解碼器的預測輸出結果, $ {\pmb c_k} $表示第$ k $個時刻根據注意力生成的加權語義編碼向量. 在解碼過程中, 根據當前時刻的解碼器LSTM的輸出$ {\pmb h_k^d} $, 采用軟注意力(Soft Attention)機制[201]對所有的語義編碼向量進行選擇性加權生成當前時刻的語義編碼向量$ {\pmb c_k} $, 最終將經過注意力選擇的語義編碼向量$ {\pmb c_k} $和LSTM的輸出$ {\pmb h_k^d} $通過全連接層和Softmax層解碼出當前時刻的預測結果$ y_k $.

                        作者在文中用實驗證明了注意力機制的重要性, 如果去掉注意力機制, 網絡對早期的輸入記憶能力很弱, 導致產生的輸出字符在前幾個單詞上與輸入完全不一致. Chung等[107]在WAS模型的基礎上進一步引入“Listen”模塊提出WLAS模型, 負責編碼語音輸入, 實際上是一種完全端到端的多模態(音頻和視頻)語音識別網絡結構, 同時由于音頻和視頻的處理過程完全獨立, 也可以用于單模態的唇讀識別任務或者音頻語音識別任務. 此后, Chung等[108]更進一步提出MV-WAS網絡, 面向多視角的唇讀任務, 訓練數據集中增加了多視角的視頻數據, 提高了網絡泛化能力.

                      • 除上述兩種框架外, 許多學者也提出許多其他端到端唇讀網絡框架. Saitoh等[114]提出了一種用于非連續的有限語句識別的端到端唇讀網絡結構, 該網絡模型不是逐幀處理視頻序列, 而是通過連接整個唇部視頻序列構造圖像, 文中稱為連接幀圖像(Concatenated Frame Image, CFI). 后續分別采用NIN[119]、AlexNet[83]以及GoogleNet[121]三種網絡進行實驗對比已驗證不同卷積網絡構架對于識別結果的影響, 實驗證明三種網絡的實驗結果差別較小.

                        Petridis等[115-118]提出一個雙數據流管線的端到端網絡結構, 第一道數據流管線從靜態圖像中提取特征, 第二道數據流管線從相鄰幀的差分圖像中提取局部時空特征. 兩條管線都遵循瓶頸架構, 具有三個隱藏層和一個線性層. 在瓶頸架構的最后, 計算其一階和二階差分并將其附加到瓶頸層. 然后, 每條管線的瓶頸網絡輸出到LSTM層. 最后, 連接兩條管線的LSTM輸出并輸入到BiLSTM以進行特征融合. 輸出層是softmax層, 編碼完成后, 就使用BiLSTM輸出的最后一個時間步進行識別分類.

                        Moon等[122]將跨模態遷移表示的深度學習框架用于字母識別的唇讀任務. 該模型使用標準DBN獨立地學習音頻和視覺信息的抽象特征表示, 學習音頻模態和視頻模態之間的語義級別特征遷移. 用于音頻和視覺信息的兩個DBN都使用相同數量的中間層構建, 然后為每個中間層學習跨模態嵌入. 然后利用不同中間層之間的映射關系用來微調視頻模態的網絡參數.

                        Afouras在文獻[123]中提出了三種不同構架的連續語句識別的唇讀網絡結構, 如圖16所示, 這三種構架的前端視覺特征提取網絡是相同的, 由一層3DCNN層和ResNet組成, 結構與文獻[101]中的前端網絡相同. 三種模型主要區別在于后端序列分類網絡, 其中第一種模型的構架類似于LipNet, 同樣采用CTC損失進行訓練. 解碼階段利用外部語言模型采用集束搜索(Beam Search)算法進行后處理優化; 第二種模型采用深度可分離的全卷積模型[124], 包括沿每個通道的時間維度的單獨卷積, 然后是沿通道維度的投影. 該網絡包含15個卷積層, 也是采用CTC損失進行訓練以及集束搜索算法解碼. 第三種是Transformer模型, 基于多頭注意力層(Multi-head Attention)[125]的自注意力編碼解碼框架, 通過交叉熵損失進行網絡訓練, 該模型摒棄了傳統編碼解碼框架中的RNN結構, 同時解決了RNN結構難以快速收斂和并行訓練的問題, 大大加快了訓練速度. Afouras在文獻[162]中基于Transformer模型構建音-視融合語音識別網絡, 進一步比較了基于CTC損失的網絡模型和Seq2seq損失的網絡模型性能差異, 文中實驗證明在無音頻信號的情況下, Seq2seq模型性能更優, 但CTC模型對于環境噪聲的魯棒性強于Seq2seq模型.

                        圖  16  三種唇讀網絡模型

                        Figure 16.  Three lip reading network models

                      • 同其他視覺識別問題一樣[201], 數據集在唇讀研究中也起著非常重要的作用. 一方面, 基準數據集便于讓研究者公平地進行算法方面的比較; 另一方面, 數據集也推動相應領域內越來越復雜、越來越難的問題逐漸得到關注和解決. 近年來, 深度學習技術在視覺識別領域取得巨大成功, 大規模數據集就起到非常重要的作用. 隨著深度學習技術在唇讀方面的應用越來越深入, 也推動視覺語言數據集由實驗室環境向著大規模、接近實際應用方向發展.

                        唇讀任務難度較大, 早期唇讀的研究重點還主要是識別字母和數字的簡單任務, 可應用于說話人身份驗證或者簡單的唇語指令識別, 因此視覺語言數據集也都是一些簡單的字母和數字構成. 這些數據集是在可控實驗室環境下采集的, 靠多次重復相同語料表達來增加數據量. 但是這些數字/字母數據集太過簡單, 與實際唇讀應用需求還有較大的差距. 隨后, 研究者們更多的關注于構建單詞和連續語句數據集. 如圖17所示, 我們統計了2009年之前以及2009年至2019年不同類型視覺語言數據集的數量變化趨勢. 總體而言, 視覺語言數據集逐漸由小規模向大規模、字母或數字識別向單詞或句子識別轉變.

                        圖  17  不同類型數據集變化趨勢

                        Figure 17.  The trends of different types of datasets

                        下面, 我們對常用的視覺語言數據集進行介紹和總結, 包括數據集語言、類別數目、話語數目、說話人數目、分辨率等方面.

                      • 與一般問題研究規律相符合, 唇讀研究也是由簡到難. 早期的唇讀研究大多是識別字母和數字, 相對于單詞、短語和句子來說, 字母和數字識別比較簡單, 因為其識別類別較少, 且不需要考慮語言模型的影響, 所以早期數據集基本上是以字母和數字數據集為主.

                        對于字母識別, 最早的視覺語言數據集是1998年發布的AVLetters[131]數據集, 該數據集包含10名說話人(男女各5人), 在受控的實驗室條件下重復每個孤立字母3次, 總共780個話語數據, 視頻分辨率為$ 376\times 288 $像素, 同時說話人被要求在每個字母發音開始和結束時閉合嘴唇. 此后手動定位每張圖片中唇部區域, 并提取出$ 80\times 60 $的唇部區域圖像, 形成最終的數據集. 2004年, AVICAR[133]數據集發布, 是在車內進行拍攝采集的, 由安裝在汽車擋風板上的四個攝像頭拍攝而得到, 故視頻中包含四個近似正臉角度的人圖像; 同時由于汽車行駛的原因, 光照條件會發生變化, 音頻數據中也存在一定程度的噪音, 使用此類數據集進行訓練能有效提高唇讀系統的魯棒性. AVICAR數據集改進了AVLetters說話人較少的問題, 將說話人的數目增加至100個(男女各50名), 同時字母話語數量也達到了26000個. 2008年發布的AVLetters2[13]數據集是AVLetters數據集的高清版本, 圖片分辨率提高至$ 1\;920\times 1\;080 $像素, 但是說話人減少到5個.

                        對于數字識別任務, 最早用來進行研究的是1999年在M2VTS(個人身份驗證系統)項目中采集的XM2VTS[134]數據集, 該數據集在實驗室條件下采集拍攝得到, 視頻分辨率為$ 720\times 576 $像素. 共有295名志愿者參加了該數據集的記錄, 每個志愿者以正常語速讀兩個數字序列兩遍, 同時該數據集中也包含說話人僅頭部旋轉但未說話的圖片用以研究頭部姿勢變化對于唇讀識別任務的影響. 2003年發布的BANCA[135]數據集和XM2VTS數據集是在同一個項目中收集的, 不同的是BANCA數據集分別在controlled, degraded和adverse三種環境下拍攝數據, 并且話語中包含四種不同的語言(英語、法語、意大利語、西班牙語). 該數據集總共包含208名說話人, 將近5 000個數字序列話語數據. 在數字數據集中, 應用最為廣泛的是2004年發布的CUAVE[136]數據集, 盡管說話人比XM2VTS等數據集要少很多. CUAVE數據集有兩個重大特點: 其一是視頻拍攝時允許說話人隨意走動, 得到的視頻中人臉位置是實時變化的. 二是其包含多個說話人同時說話的數據, 更貼近現實情況. 該數據集的建立使得唇讀對于說話人運動魯棒性的研究邁上新臺階. 2005年發布的VALID[137]數據集是在嘈雜的真實環境中獲得的, 沒有對照明或聲學噪聲的控制, 包含了由106位說話人在五個不同場景下記錄的530個數字話語. 2015年發布的數據集OuluVS2[138]旨在為唇讀研究領域創建一個包含大量多視角數據的高質量數據集. 該數據集包含53名說話人, 采集了159個數字話語. 該數據集視頻分辨率達到$ 1\;920\times 1\;080 $像素.

                        此外, 還有一些處理數字識別任務的數據集, 如AusTalk數據集[140]和用日語記錄的CENSREC-1-AV[142]數據集, 這些數據集都至少包含90個說話人. 其他數據集, 如IBMSR[30]數據集和QuLips[144]數據集類似于AVICAR, 都是為了解決特定環境下的識別任務而創建.

                      • 字母和數字數據集在早期應用廣泛, 一是因為這些數據集大多是在受控的實驗室條件下采集的, 這使得研究者們可以很好地分析算法的有效性; 二是因為字母和數字的識別任務比較簡單. 隨著唇讀研究的不斷推進, 在字母和數字數據集上的識別率越來越高. 然而, 唇讀系統的最終目標是處理在任意條件下的任意長度的視頻序列, 研究者們把目光投向了難度更高的單詞、短語和語句識別. 單詞識別難度大是因為需要識別的單詞數量多, 而短語和語句識別除了要考慮單詞數量之外, 還要考慮單詞之間的聯系, 即上下文的語義信息, 這無疑比字母和數字識別難度更大. 與此同時, 相應的包含單詞、短語和語句的視覺語言數據集也應運而生. 表3詳細給出了相應數據集的各類信息.

                        表 3  單詞、短語和語句識別數據集, 其中(s)代表不同語句的數量. 下載地址為: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

                        Table 3.  Word, phrase and sentence lip reading datasets and their download link: MIRACL-VC[176], LRW[177], LRW-1000[178], GRID[179], OuluVS[180], VIDTIMIT[181], LILiR[182], MOBIO[183], TCD-TIMIT[184], LRS[185], VLRF[186]

                        數據集語種識別 任務詞匯量話語 數目說話人 數目姿態分辨率谷歌 引用發布 年份
                        IBMViaVoice英語語句10 50024 3252900704 × 480 30 fps2992000
                        VIDTIMIT英語語句346(s)430430512 × 384 25 fps512002
                        AVICAR英語語句1 31710 000100?15$\sim$15720 × 480 30 fps1702004
                        AV-TIMIT英語語句450 (s)4 6602330720 × 480 30 fps1272004
                        GRID英語短語5134 000340720 × 576 25 fps7002006
                        IV2法語語句15(s)4 5003000,90780 × 576 25 fps192008
                        UWB-07 -ICAV捷克語語句7 550 (s)10 000500720 × 576 50 fps162008
                        OuluVS英語短語10(s)1 000200720 × 576 25 fps2112009
                        WAPUSK20英語短語522 000200640 × 480 32 fps162010
                        LILiR英語語句1 0002 400120,30,45, 60,90720 × 576 25 fps672010
                        BL法語語句238 (s)4 046170,90720 × 576 25 fps122011
                        UNMC-VIER英語語句11 (s)4 5511230,90708 × 640 25 fps82011
                        MOBIO英語語句30 1861520640 × 480 16 fps1752012
                        MIRACL-VC英語單詞101 500150640 × 480 15 fps222014
                        短語10 (s)1 500
                        Austalk英語單詞966966 0001 0000640 × 480112014
                        語句59 (s)59 000
                        MODALITY英語單詞182(s)2313501 920 × 1 080 100 fps232015
                        RM-3000英語語句1 0003 00010360 × 640 60 fps72015
                        IBM AV-ASR英語語句10 4002620704 × 480 30 fps1032015
                        TCD-TIMIT英語語句5 954 (s)6 913620,301920 × 1080 30 fps592015
                        OuluVS2英語短語101 590530,30,45, 60,901920 × 1080 30 fps462015
                        語句530 (s)530
                        LRW英語單詞500550 0001 000+0$\sim$30256 × 256 25 fps1152016
                        HAVRUS俄語語句1 530 (s)4 000200640 × 480 200 fps132016
                        LRS2-BBC英語語句62 769144 4821 000+0$\sim$30160 × 160 25 fps1722017
                        VLRF西班牙語語句1 37410 200a2401 280 × 720 50 fps62017
                        LRS3-TED英語語句70 000151 8191 000+?90$\sim$90224 × 224 25 fps22018
                        LRW-1000中文單詞1 000745 1872 000+?90$\sim$901 920 × 1 080 25 fps02018
                        LSVSR英語語句127 0552 934 8991 000+?30$\sim$30128 × 128 23-30 fps162018

                        最早包含語句的數據集是IBMViaVioce[57], 包含290個志愿者的24 325個語句, 這些語句包含的主要單詞大約有10 500個, 遺憾的是該數據集目前不公開. 在公開的數據集中, 最早的數據集是VIDTIMIT[147], 包含由43名說話人, 每人陳述10個語句, 一共430個話語. 值得一提的是, 該數據集中的語句是從NTIMIT[222]語料庫中選取的, 因此該數據集中的語句幾乎全是語音平衡的語句. 與此類似, 2004年發布的AV-TIMIT[58]數據集同樣來自與語音平衡的語料庫, 該數據集是為了訓練基于分段的視聽語音識別器而創建, 其數據有四個顯著特性: 連續的語音平衡的語句, 包含多個說話人, 采集條件是受控的實驗環境和采集到的數據是高分辨率的視頻. 在上一部分介紹的數字和字母數據集中也有部分數據集包含了語句, 例如AVICAR包含10 000個語句話語, 主要單詞有1 317個.

                        在2008年到2014年創建的數據集中, 大部分語種為英語. 其中, 2009年發布的OuluVS[36]數據集是使用最為廣泛的短語數據集之一, 該數據集包含20個說話人, 每名說話人陳述10個日常問候短語5次, 一共1 000個話語. LILiR[149]是完全公開的數據集, 有12名說話人, 單詞總量大約有1 000個. MIRACL-VC[150]數據集包含15名說話人一共3 000個話語數據, 并且該數據集采用RGBD相機進行收集, 同時提供了圖片的深度信息. 在英文數據集中, MOBIO[151]數據集比較特別, 該數據集基本上全部由記錄者手持手機進行拍攝記錄, 旨在對手機上人臉語音自動識別系統進行評估, 改進在移動設備上應用生物識別技術的研究. 該數據集是在不受控的條件下拍攝的, 因為拍攝設備在記錄人自己手中而不是固定在某一個特定的位置, 記錄者頭部位置、背景、光照等因素都在發生變化. 有150人參加了數據集構建, 得到將近31 000個話語. 此外, 其他語種的數據集包括捷克語數據集UWB-07-ICAV、法語數據集IV2和BL, 這些數據集都為唇讀系統的訓練提供了大量材料, 對唇讀領域的發展起到了一定的推動作用.圖18給出了各類數據集的樣本示例.

                        圖  18  各類數據集示例

                        Figure 18.  Some examples of different datasets

                        自2014年來, 隨著在唇讀領域的研究越來越深入, 越來越多新的數據集被創建. 有些數據集是為了滿足某個特定任務的需求而被創建, 例如2015年發布的RM-3000[152]數據集, 需要同一個說話人的大量數據, 故該數據集中只有一名說話人, 但是包含3 000個話語, 大約有1 000個不同的單詞; 又比如同年發布的MODALITY數據集, 對數據質量的要求很高, 對數據數量要求較低, 故該數據集中只有231個話語數據, 但是分辨率卻達到了$ 1\;920\times $$ 1\;080 $像素. 一般來說, 數據集都是多說話人和多數據量以保證數據集的豐富性和多樣性. 如OuluVS2[138]數據集包含53名說話人一共1 060個高質量話語數據; TCD-TIMIT[153]數據集包含62名說話人, 將近7 000個高質量話語數據. 俄語數據集HAVRUS[154]包含20名說話人, 4 000個話語數據. IBM AV-ASR[155]數據集是大規模的非公開數據集, 在受控的實驗室條件下采集, 包含262名說話人, 單詞量超過10 000個. 西班牙語數據集VLRF[156], 包含由24個說話人, 超過600個話語, 總單詞量超過1 300個.

                        隨著深度學習在計算機視覺領域取得的巨大成功, 深度神經網絡在唇讀領域的使用變得越來越廣泛, 很大程度上促進了唇讀系統的發展. 深度神經網絡的訓練需要大量的訓練數據, 因此在已有的數據集中, 大規模數據集變得越來越流行. 比如在2006年創建的GRID[157]數據集, 雖然發布年份較早, 但近年來使用量越來越多. 該數據集在實驗室環境下進行錄制, 只有34個說話人, 這在大型數據集中人數算比較少的, 但是每個說話人陳述1 000個短語, 總共有34 000個話語. 該數據集的短語構成也很有規律, 每個短語包含6個單詞, 不是常見的短語, 而是在6類單詞中每類隨機挑選一個組成隨機短語. 這6類單詞分別是“命令”、“顏色”、“介詞”、“字母”、“數字”和“副詞”. 每類單詞也規定了數量, 單詞總數一共51個. 與此類似的還有WAPUSK20[158]和MODALITY[159]數據集, 都包含了較大的數據規模, 能夠進行深度神經網絡模型的訓練, 但是由于單詞總數較少, 得到的模型拓展性不佳.

                        所以, 最近創建的視覺語言數據集旨在同時提供大量的話語數據量和更多的單詞量. 在這方面做出大量貢獻的有LRW[93], LRS2-BBC[107], LRS3-TED[160], LRW-1000[161]和LSVSR[163]數據集. 這些視覺語言數據集都是直接在電視節目中或者網絡視頻中截取鏡頭經過說話人定位、面部識別、人臉特征點檢測等過程后收集保存, 說話人所處的環境條件比如光照, 頭部姿勢會任意變化, 具有明顯的環境非受限特性. 2016年發布的單詞數據集LRW和2017年發布的語句LRS2-BBC數據集都是來源于BBC廣播電視臺在2010到2016年的電視節目. LRW數據集選擇500個最常出現的單詞, 在電視節目中截取說話人說這些單詞的鏡頭, 不同說話人超過1 000個, 采集的話語數據量達到550 000個. LRS2-BBC數據集包含超過1 000個說話人, 截取將近150 000個話語數據, 由于截取時對句子長度無限制, 不同的單詞數有將近63 000個. 同年, 為了研究大角度的姿態變換對唇讀系統的影響, LRS2-BBC在原本基礎上加入了人臉姿態角度從0到90所有角度的鏡頭. LRS3-TED數據集是從TED節目中得到的數據, 一共有將近150 000個話語. LRW-1000是中文詞語數據集, 借鑒LRW數據集的形式創建. 該數據集從各個電視節目中截取收集視頻數據. 一共有1 000個類別, 每一個類別對應一個或幾個漢字組成的詞語, 說話人超過2 000個, 話語數量達到720 000個. 最后, 2018年發布的LSVSR數據集中的數據來源于YouTube網站, 是迄今為止數據量最大的數據集, 包含2 934 899個話語數據, 總單詞量超過127 000個.

                      • 對于唇讀任務, 特征提取方法和分類器的選擇固然對識別結果有至關重要的影響, 但仍然存在很多其他的影響因素. 從數據的預處理角度來說, 對視頻進行預處理(人臉檢測與跟蹤、唇部區域提取)的方法不同, 會導致唇部區域的大小、位置不同, 進而影響總體的識別率; 從實驗條件的角度來說, 即便采用相同的數據集和相同的方法, 是否利用音頻信號、是否有外部語言模型優化、是否講話者依賴、以及最終的識別單元是字符、音素還是單詞這些條件的不同, 同樣會影響最終的識別結果.

                        為使讀者更直觀的了解不同實驗條件對于識別率的影響, 我們對4個主要的實驗條件進行了明確的闡釋. ①音頻信號. 大多數視覺語言數據集同時提供了視頻信號和音頻信號, 唇讀方法的測試階段不會用到音頻信號, 但部分文獻[26, 92, 94, 103, 126]提出的唇讀方法在訓練階段不同程度的利用了音頻信號(利用音頻信號進行對齊[94]、訓練語音與視頻的共享特征表示[86]), 其識別結果相對于只利用視頻信號具有明顯的提升; ②講話者依賴. 講話者依賴就是指測試集中的說話人同時也出現在訓練集中. 從表2表3的數據集統計信息中可以看出, 2016年以前幾乎所有的數據集說話人的數目都是很有限的, 在這種情況下訓練出來的模型容易陷入對于說話人的過擬合. 以文獻[36]的結果為例, 是否具有講話者依賴的識別結果相差了19.3 %(說話者依賴條件下識別結果為62.8 %, 說話人獨立條件下的識別結果為43.5 %); ③外部語言模型. 外部語言模型實質上是對文本輸出的后處理優化過程, 主要應用于大規模連續語句識別任務. 以V2P[163]網絡為例, 在LSVSR數據集下, 有語言模型優化的單詞識別率為59.1 %, 沒有語言模型優化的單詞識別率為46.4 %. ④最小識別單元. 對于連續語句識別任務, 字符、音素、視素和單詞都可以作為最小識別單元, 最小識別單元的選擇對于結果同樣有一定的影響[163].

                        表 2  字母、數字識別數據集. 下載地址為: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

                        Table 2.  Alphabet and digit lip reading datasets and their download link: AVLetters[164], AVICAR[166], XM2VTS[167], BANCA[168], CUAVE[170], VALID[171], CENSREC-1-AV[172], Austalk[173], OuluVS2[174]

                        數據集語種識別任務類別數目話語數目說話人數姿態分辨率谷歌引用發布年份
                        AVLetters英語字母26780100376 × 288 25 fps5071998
                        XM2VTS英語數字108852950720 × 576 25 fps1 6171999
                        BANCA多語種數字1029 9522080720 × 576 25 fps5302003
                        AVICAR英語字母2626 000100?15$\sim$15720 × 480 30 fps1702004
                        數字1323 000
                        CUAVE英語數字107 000+36?90,0,90720 × 480 30 fps2922004
                        VALID英語數字105301060720 × 576 25 fps382005
                        AVLetters2英語字母26910501 920 × 1 080 50 fps622008
                        IBMSR英語數字101 66138?90,0,90368 × 240 30 fps172008
                        CENSREC -1-AV日語數字105 197930720 × 480 30 fps252010
                        QuLips英語數字103 6002?90$\sim$90720 × 576 25 fps212010
                        Austalk英語數字1024 0001 0000640 × 480112014
                        OuluVS2英語數字10159530$\sim$901 920 × 1 080 30 fps462015

                        由于各個算法針對的識別任務不同, 在實驗時設置的主要條件也不盡相同, 難以做到完全公平公正的方法性能比較. 表4中我們選取AVLetters、CUAVE、LRW、GRID和LRS3-TED五個數據集, 分別來自字母、數字、單詞、短語和語句五個不同識別任務中應用最為廣泛的數據集作為參考基準, 并列舉每個數據集下代表性的唇讀方法, 以及該方法在該數據集進行實驗時的詳細實驗條件和最后的實驗結果.

                        表 4  不同數據集下代表性方法比較

                        Table 4.  Comparison of representative methods under different datasets

                        數據集識別 任務參考 文獻模型主要實驗條件識別率
                        前端特征 提取后端分 類器音頻 信號講話 者依 賴外部 語言 模型最小 識別 單元
                        AVLetters字母[48]RFMA××字母69.60 %
                        [92]RTMRBMSVM×字母66.00 %
                        [86]ST-PCAAutoencoder×××字母64.40 %
                        [36]LBP-TOPSVM××字母62.80 %
                        ××43.50 %
                        [55]DBNF+DCTLSTM××字母58.10 %
                        CUAVE數字[126]AAMHMM××數字83.00 %
                        [50]HOG+MBHSVM×××數字70.10 %
                        ×90.00 %
                        [37]DBNFDNN-HMM×××音素64.90 %
                        [26]DCTHMM××數字60.40 %
                        LRW單詞[101]3D-CNN+ResNetBiLSTM×××單詞83.00 %
                        [103]3D-CNN+ResNetBiGRU×××單詞82.00 %
                        ×98.00 %
                        [107]CNNLSTM+Attention×××單詞76.20 %
                        [93]CNN×××單詞61.10 %
                        GRID短語[109]3D-CNN+highwayBiGRU+Attention××字符97.10 %
                        [107]CNNLSTM+Attention××單詞97.00 %
                        [113]Feed-forwardLSTM××單詞84.70 %
                        95.90 %
                        [98]3D-CNNBiGRU×××字符93.40 %
                        [51]HOGSVM××單詞71.20 %
                        LRS3-TED語句[162]3D-CNN+ResNetTransformer+seq2seq××字符41.10 %
                        Transformer +CTC33.70 %
                        [163]3DCNNBiLSTM+CTC××音素44.90 %

                        之于數字和字母識別而言, AVLetters和CUAVE數據集下代表性的方法仍以圖像變換[26]、RFMA[48]、LBP-TOP[36]等傳統方法為主, 究其原因主要有以下兩點: 第一, 當前唇讀研究的重點在于連續的語句識別, 數字和字母識別由于其實用性嚴重受限的原因, 近幾年的研究熱度有所下降; 第二, 字母和數字識別單元都較少, 且數據集收集的環境比較理想, 在這種情況下, 基于深度學習的唇讀方法相較于傳統方法而言并不具有明顯的優勢. 而對于單詞、短語或連續語句識別來說, 基于深度學習的唇讀方法具有明顯的優勢, 這在GRID、LRW和LRS數據集上有明確的體現. GRID數據集上的結果顯示基于深度學習的唇讀方法相較于傳統方法性能更佳. 目前, GRID數據集上的最佳單詞識別率已達到97.1 %, 深度學習方法在面向小規模受限實驗環境下的唇讀識別能力幾乎飽和. 這也催生了后續非限定環境下大規模數據集的構建, LRW和LRS數據集是在非限定環境下收集的, 相比于之前實驗環境下收集的數據集來說難度有很大的提升, 傳統方法在這種數據集下近乎失效, 基于深度學習的方法性能也很有限, 仍有待進一步的深入研究.

                      • 近年來, 受益于深度學習技術的發展, 唇讀問題的研究也不斷得到深入, 唇讀方法的研究也逐漸深入, 唇讀應用也不斷得到拓展, 但已有唇讀系統仍然難以滿足實際應用需求, 唇讀研究仍然任重道遠. 下面, 我們對唇讀存在的問題及未來可能的研究方向進行了總結.

                        1) 大規模視覺語言數據集構建問題. 在實際的現實場景中, 存在大量的環境噪聲以及唇讀任務本身的復雜性, 雖然深度學習模型具有強大的數據表達能力, 但其模型訓練的好壞依賴于訓練數據的規模, 簡單的數據增強技術所發揮的作用并不明顯. 然而遺憾的是, 近期大部分視覺語言數據集雖然在規模上有了明顯的擴充, 但仍存在一些共性的問題. 比如LRW、LRW-1000、LRS3-TED等都是從電視節目中截取的, 其背景、環境光照等條件相對穩定, 語言內容相對有限. 因此, 如何構建一個更加全面更加現實化的視覺語言數據集, 將是唇讀方法研究進一步發展的一個重要問題.

                        2) 唇部區域的選擇問題. 目前, 大多數的唇讀研究工作將人臉關鍵點檢測與跟蹤和唇部區域提取僅當做數據預處理的過程, 并未深入剖析唇部區域的選擇對于識別結果的影響. 事實上, 不同的唇部區域提取方案對于識別結果是有顯著影響的, 如何定義與唇語識別任務相關的具體唇部區域是值得進一步探索研究的.

                        3) 適用于唇語視頻特征表達的深度神經網絡結構設計. 唇語視頻特征提取本質上是對連續的視頻序列進行特征提取, 因此好的時空特征提取網絡模型是至關重要的. 當前基于深度學習的唇讀系統包含時空特征提取的網絡模型一般為3DCNN、RNN以及注意力機制, 其網絡構架大多是從音頻語音識別、機器翻譯等熱門領域遷移過來的, 因為這幾個領域在任務性質上有較大的相似性. 雖然這些模型已經取得了不錯的效果, 但普通的3DCNN結構的特征學習和表達能力有限, 還缺乏對視覺時空特征提取針對性結構設計, 因此對視頻特征表達的網絡結構設計研究仍然有較大的提升空間. 許多傳統方法的思想對于深度學習方法的網絡構架設計是有明顯啟發作用的, 比如是否可以引入光流網絡[211, 212]與3DCNN形成互補[213, 214], 目前還有待我們進一步的去發掘.

                        4) 實時唇語特征提取. 在很多情況下, 我們不僅僅是單純追求唇讀識別的準確率, 實際應用中對于唇讀的實時性也是有要求的. 而目前大多數的唇讀網絡設計面向非實時唇讀任務, 由于雙向RNN結構或者全局時序注意力機制的存在, 需要整段視頻輸入信號全部輸入完成后再進行解碼輸出, 無法實現實時唇讀(Online Lipreading). 對于實時唇讀網絡構架的設計研究僅有部分文獻[123]提到, 文獻中摒棄了RNN結構, 采用全卷積網絡結構(包含時間通道上的卷積), 通過控制時間通道上卷積核的寬度來控制解碼時所需要的未來圖像序列的幀數, 基本實現了實時唇讀. 面向實時唇讀的深度學習網絡構架設計目前還處于起步階段, 仍有巨大的提升空間.

                        5) 非限定環境下的魯棒唇讀問題. 前文中提到唇讀所面臨的挑戰包括說話人多樣性、姿態變化、環境光照、面部表情變化等, 當前基于深度學習的視覺時空特征提取網絡還很少有針對性去解決這些問題. 僅依靠大規模數據集的支持, 訓練過程中讓3DCNN網絡自主的去學習對于這些挑戰具有魯棒性的視覺時空特征是不夠的, 因此設計特定解決這些問題網絡模塊來提高特征學習的魯棒性是一個值得研究解決的問題. 比如, 能否引入對姿態變化具有適應性的網絡模塊[215, 216]解決多姿態問題, 能否利用LBP等像素局部紋理來代替原始像素值作為網絡輸入來緩解說話人多樣性、環境光照變化等問題.

                        6) 視聽語音識別(Audio-Visual Recognition, AVR). 事實上, 在唇讀研究起源之際, 視聽語音識別也展開了大量研究. 視頻和音頻實質上是一組能夠同時表示自然語言信息的多模態信號, 受益于多模態深度學習方法[146]的快速發展, 視聽語音識別近幾年也取得了很大的進展. 毋庸置疑, 視覺信號和音頻信號有很強的互補性, 特別是在其中某一模態信號受損的情況下, 如何利用這種模態之間的互補性來提高識別能力是未來的研究熱點.

                        7) 視覺語音雙模態融合相關研究拓展. 基于視頻和音頻的多模態應用不僅僅局限于語音識別, 也同樣能夠適用于其他多模態任務. 很多傳統的語音任務, 例如, 雞尾酒會問題[111](語音分離任務)、語音增強任務[217]等, 唇讀方法的引入為這些問題提供了新的解決思路[218-220]. 目前, 唇讀方法在這些領域的應用才剛剛進入起步階段, 仍然存在很大的研究價值和意義.

                        8) 視覺語音跨模態生成相關研究拓展. 數據生成同樣是當前深度學習研究的重點方向, 利用視覺信號與語音信號的高相關性進行跨模態數據生成, 這種新興研究方向具有巨大的應用價值和學術價值. 利用視覺信息生成合理的音頻語音[223], 或者相反利用音頻語音信息生成合理的唇動視頻[95]也才剛剛開始研究, 未來會吸引更多的研究者參與進來.

                      • 唇讀是計算機視覺和模式識別領域的一個重要問題, 在諸多領域有著廣泛的應用價值, 同時也存在很多的困難與挑戰. 本文分為傳統方法和深度學習方法兩部分, 系統性的回顧了唇讀方法近二十年的研究進展, 詳細的梳理了主流唇讀方法的優勢與不足, 并闡釋了不同方法之間的內在聯系. 以此為基礎, 展望了唇讀及其相關拓展領域未來的研究重點, 旨在吸引更多的研究者關注這一問題, 使得唇讀問題在理論上和實踐中都得到更好的解決, 并推向實際應用.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回