2.793

                    2018影響因子

                    (CJCR)

                    • 中文核心
                    • EI
                    • 中國科技核心
                    • Scopus
                    • CSCD
                    • 英國科學文摘

                    留言板

                    尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

                    姓名
                    郵箱
                    手機號碼
                    標題
                    留言內容
                    驗證碼

                    面向精準價格牌識別的多任務循環神經網絡

                    牟永強 范寶杰 孫超 嚴蕤 郭怡適

                    牟永強, 范寶杰, 孫超, 嚴蕤, 郭怡適. 面向精準價格牌識別的多任務循環神經網絡. 自動化學報, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    引用本文: 牟永強, 范寶杰, 孫超, 嚴蕤, 郭怡適. 面向精準價格牌識別的多任務循環神經網絡. 自動化學報, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    Citation: Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633

                    面向精準價格牌識別的多任務循環神經網絡


                    DOI: 10.16383/j.aas.c190633
                    詳細信息
                      作者簡介:

                      廣州圖匠數據科技有限公司首席AI架構師. 在此之前任職惠普實驗室高級機器學習研究員. 2012年獲西安理工大學信號與信息處理專業碩士學位. 主要研究方向為機器視覺,模式識別以及深度學習. 本文通信作者.E-mail: yongqiang.mou@gmail.com

                      廣東工業大學碩士研究生,主要研究方向為深度學習和計算機視覺.E-mail: 735678367@qq.com

                      華南農業大學研究生,主要研究方向為深度學習和計算機視覺.E-mail: ice_moyan@163.com

                      廣州圖匠數據科技有限公司高級研究員,主要研究方向為深度學習和計算機視覺.E-mail: reeyree@163.com

                      廣州圖匠數據科技有限公司首席執行官,主要研究方向為深度學習和計算機視覺.E-mail: yi.shi@imagedt.com

                    Towards accurate price tag recognition algorithm with multi-task RNN

                    More Information
                    • 摘要: 為了促進智能新零售在線下業務場景的發展, 提高作為銷售關鍵信息價格牌的識別精度. 本文對價格牌識別問題進行研究, 有效地提高了價格牌的識別精度, 并解決小數點定位不準確的難題. 通過深度卷積神經網絡提取價格牌的深度語義表達特征, 將提取到的特征圖送入多任務循環網絡層進行編碼, 然后根據解碼網絡設計的注意力機制解碼出價格數字, 最后將多個分支的結果整合并輸出完整價格. 本文所提出的方法能夠非常有效的提高線下零售場景價格牌的識別精度, 并解決了一些領域難題如小數點的定位問題, 此外, 為了驗證本文方法的普適性, 在其他場景數據集上進行了對比實驗, 相關結果也驗證了本文方法的有效性.
                    • 圖  1  卷積循環網絡結構

                      Fig.  1  The structure of convolutional recurrent neural network

                      圖  2  價格牌圖像

                      Fig.  2  Images of some price tag samples

                      圖  4  基礎單任務識別網絡結構

                      Fig.  4  The structure of our basic single recognition network

                      圖  3  基準識別與多分支識別結果的生成方式

                      Fig.  3  Baseline method compared with multi-branch method

                      圖  5  多任務循環卷積網絡結構

                      Fig.  5  The structure of multi-task RNN

                      圖  6  注意力機制網絡解碼流程圖

                      Fig.  6  Flowchart of decoder network based on attention

                      圖  7  與直接識別方法的比較

                      Fig.  7  Compared with the single-branch method

                      表  1  模塊的研究

                      Table  1  Study of modules

                      ModelGeneral-dataHard-data
                      VGG-BiLSTM-CTC50.20%20.20%
                      VGG-BiLSTM-Attn61.20%38.60%
                      ResNet-BiLSTM-CTC55.60%28.80%
                      ResNet-BiLSTM-Attn68.10%41.40%
                      下載: 導出CSV

                      表  2  多任務模型結果

                      Table  2  Results of multitask model

                      ModelGeneral-dataHard-data
                      Baseline[13]68.10%41.40%
                      NDPB&IB90.10%72.90%
                      NDPB&DB91.70%74.30%
                      IB&DB92.20%73.20%
                      NDPB&IB&DB93.20%75.20%
                      下載: 導出CSV

                      表  3  車牌數據集實驗結果

                      Table  3  Experimental results on license plate dataset

                      DBFNRotateTiltWeatherChallenge
                      TE2E[17]96.90%94.30%90.80%92.50%87.90%85.10%
                      CCPD[16]96.90%94.30%90.80%92.50%87.90%85.10%
                      Ours method98.24%98.81%98.12%98.79%98.19%91.92%
                      下載: 導出CSV
                      360彩票
                    • [1] 1 Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298?2304
                      [2] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Polosukhin I. Attention is all you need//Advances in neural information processing systems. 2017: 5998−6008
                      [3] Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation. arXiv preprint arXiv: 1508.04025, 2015
                      [4] Li H, Wang P, Shen C. Towards end-to-end text spotting with convolutional recurrent neural networks//Proceedings of the IEEE International Conference on Computer Vision. IEEE, 2017: 5238−5246
                      [5] Yuan X, He P, Li X A. Adaptive adversarial attack on scene text recognition. arXiv preprint arXiv: 1807.03326, 2018
                      [6] Graves A, Fernández S, Gomez F, Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks//Proceedings of the 23rd international conference on Machine learning. ACM, 2006: 369−376
                      [7] 7 Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks. Advances in neural information processing systems, 2014, : 3104?3112
                      [8] 8 Lei Z, Zhao S, Song H, Shen J. Scene text recognition using residual convolutional recurrent neural network. Machine Vision and Applications, 2018, 29(5): 861?871 doi:  10.1007/s00138-018-0942-y
                      [9] Shi B, Yang M, Wang X, Lyu P, Yao C, Bai X. Aster: An attentional scene text recognizer with flexible rectification. IEEE transactions on pattern analysis and machine intelligence, 2018
                      [10] Long M, Wang J. Learning multiple tasks with deep relationship networks. arXiv preprint arXiv: 1506.02117, 2015, 2
                      [11] Veit A, Matera T, Neumann L, Matas J, Belongie S. Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv: 1601.07140, 2016
                      [12] Karatzas D, Gomez-Bigorda L, Nicolaou A, Ghosh S, Bagdanov A, Iwamura M, Shafait F. ICDAR 2015 competition on robust reading//2015 13th International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2015: 1156−1160
                      [13] Baek J, Kim G, Lee J, Park S, Han D. What is wrong with scene text recognition model comparisons? dataset and model analysis. arXiv preprint arXiv: 1904.01906, 2019
                      [14] Bingel J, S?gaard A. Identifying beneficial task relations for multi-task learning in deep neural networks. arXiv preprint arXiv: 1702.08303, 2017
                      [15] Xie Z, Huang Y, Zhu Y, Jin L, Liu Y, Xie L. Aggregation Cross-Entropy for Sequence Recognition// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2019: 6538−6547
                      [16] 16 Li H, Wang P, Shen C. Toward end-to-end car license plate detection and recognition with deep neural networks. IEEE Transactions on Intelligent Transportation Systems, 2018, 20(3): 1126?1136
                      [17] Xu Z, Yang W, Meng A, Lu N, Huang H, Ying C, Huang L. Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline// Proceedings of the European Conference on Computer Vision (ECCV). 2018: 255−271
                    • [1] 周波, 李俊峰. 結合目標檢測的人體行為識別[J]. 自動化學報, doi: 10.16383/j.aas.c180848
                      [2] 林景棟, 吳欣怡, 柴毅, 尹宏鵬. 卷積神經網絡結構優化綜述[J]. 自動化學報, doi: 10.16383/j.aas.c180275
                      [3] 姚垚, 冀俊忠. 基于棧式循環神經網絡的血液動力學狀態估計方法[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170541
                      [4] 吳彥丞, 陳鴻昶, 李邵梅, 高超. 基于行人屬性先驗分布的行人再識別[J]. 自動化學報, doi: 10.16383/j.aas.c170691
                      [5] 羅浩, 姜偉, 范星, 張思朋. 基于深度學習的行人重識別研究進展[J]. 自動化學報, doi: 10.16383/j.aas.c180154
                      [6] 馮永, 陳以剛, 強保華. 融合社交因素和評論文本卷積網絡模型的汽車推薦研究[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170245
                      [7] 吳高昌, 劉強, 柴天佑, 秦泗釗. 基于時序圖像深度學習的電熔鎂爐異常工況診斷[J]. 自動化學報, doi: 10.16383/j.aas.c180453
                      [8] 姚乃明, 郭清沛, 喬逢春, 陳輝, 王宏安. 基于生成式對抗網絡的魯棒人臉表情識別[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170477
                      [9] 李勇, 林小竹, 蔣夢瑩. 基于跨連接LeNet-5網絡的面部表情識別[J]. 自動化學報, doi: 10.16383/j.aas.2018.c160835
                      [10] 唐賢倫, 杜一銘, 劉雨微, 李佳歆, 馬藝瑋. 基于條件深度卷積生成對抗網絡的圖像識別方法[J]. 自動化學報, doi: 10.16383/j.aas.2018.c170470
                      [11] 孫旭, 李曉光, 李嘉鋒, 卓力. 基于深度學習的圖像超分辨率復原研究進展[J]. 自動化學報, doi: 10.16383/j.aas.2017.c160629
                      [12] 時增林, 葉陽東, 吳云鵬, 婁錚錚. 基于序的空間金字塔池化網絡的人群計數方法[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150663
                      [13] 金連文, 鐘卓耀, 楊釗, 楊維信, 謝澤澄, 孫俊. 深度學習在手寫漢字識別中的應用綜述[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150725
                      [14] 朱煜, 趙江坤, 王逸寧, 鄭兵兵. 基于深度學習的人體行為識別算法綜述[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150710
                      [15] 張暉, 蘇紅, 張學良, 高光來. 基于卷積神經網絡的魯棒性基音檢測方法[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150672
                      [16] 隨婷婷, 王曉峰. 一種基于CLMF的深度卷積神經網絡模型[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150741
                      [17] 張婷, 李玉鑑, 胡海鶴, 張亞紅. 基于跨連卷積神經網絡的性別分類模型[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150658
                      [18] 劉明, 李國軍, 郝華青, 侯增廣, 劉秀玲. 基于卷積神經網絡的T波形態分類[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150817
                      [19] 常亮, 鄧小明, 周明全, 武仲科, 袁野, 楊碩, 王宏安. 圖像理解中的卷積神經網絡[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150800
                      [20] 孫曉, 潘汀, 任福繼. 基于ROI-KNN卷積神經網絡的面部表情識別[J]. 自動化學報, doi: 10.16383/j.aas.2016.c150638
                    • 加載中
                    計量
                    • 文章訪問數:  457
                    • HTML全文瀏覽量:  341
                    • 被引次數: 0
                    出版歷程
                    • 收稿日期:  2019-09-06
                    • 錄用日期:  2020-02-23

                    面向精準價格牌識別的多任務循環神經網絡

                    doi: 10.16383/j.aas.c190633
                      作者簡介:

                      廣州圖匠數據科技有限公司首席AI架構師. 在此之前任職惠普實驗室高級機器學習研究員. 2012年獲西安理工大學信號與信息處理專業碩士學位. 主要研究方向為機器視覺,模式識別以及深度學習. 本文通信作者.E-mail: yongqiang.mou@gmail.com

                      廣東工業大學碩士研究生,主要研究方向為深度學習和計算機視覺.E-mail: 735678367@qq.com

                      華南農業大學研究生,主要研究方向為深度學習和計算機視覺.E-mail: ice_moyan@163.com

                      廣州圖匠數據科技有限公司高級研究員,主要研究方向為深度學習和計算機視覺.E-mail: reeyree@163.com

                      廣州圖匠數據科技有限公司首席執行官,主要研究方向為深度學習和計算機視覺.E-mail: yi.shi@imagedt.com

                    摘要: 為了促進智能新零售在線下業務場景的發展, 提高作為銷售關鍵信息價格牌的識別精度. 本文對價格牌識別問題進行研究, 有效地提高了價格牌的識別精度, 并解決小數點定位不準確的難題. 通過深度卷積神經網絡提取價格牌的深度語義表達特征, 將提取到的特征圖送入多任務循環網絡層進行編碼, 然后根據解碼網絡設計的注意力機制解碼出價格數字, 最后將多個分支的結果整合并輸出完整價格. 本文所提出的方法能夠非常有效的提高線下零售場景價格牌的識別精度, 并解決了一些領域難題如小數點的定位問題, 此外, 為了驗證本文方法的普適性, 在其他場景數據集上進行了對比實驗, 相關結果也驗證了本文方法的有效性.

                    English Abstract

                    牟永強, 范寶杰, 孫超, 嚴蕤, 郭怡適. 面向精準價格牌識別的多任務循環神經網絡. 自動化學報, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    引用本文: 牟永強, 范寶杰, 孫超, 嚴蕤, 郭怡適. 面向精準價格牌識別的多任務循環神經網絡. 自動化學報, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    Citation: Mou Yong-Qiang, Fan Bao-Jie, Sun Chao, Yan Rui, Guo Yi-Shi. Towards accurate price tag recognition algorithm with multi-task RNN. Acta Automatica Sinica, 2020, 45(x): 1?7. doi: 10.16383/j.aas.c190633
                    • 傳統零售業抑或是近年來興起的快消新零售, 渠道核查是其中的必要環節. 傳統的作業方式主要分為業務代表現場考察以及第三方外包核查, 但都存在人工誤差大、核查周期長、核查成本高以及誤差數據無法溯源等缺點. 隨著深度學習的迅速發展, AI(人工智能)已經成為高端科技的代名詞, 各行各業的AI應用層出不窮. 基于深度學習的圖像識別技術憑借著高精度、高泛化性, 非常適合應用于渠道核查的業務場景, 是核查工作強大的助力. 渠道核查主要包含兩大識別內容, SKU(庫存量單位)識別和價格牌識別, 本文工作主要針對價格牌識別的需求. 價格作為銷售數據的基石, 對識別精度非常敏感, 目前基于深度學習的價格牌識別技術容易受到其外觀樣式、拍攝質量等因素的影響, 如模糊、傾斜、光照不均勻等. 因此, 如何克服實際應用中可能遇到的復雜場景, 準確識別價格牌中的信息是OCR領域的一個重要研究目標.

                      目前, 應用性較廣的價格牌識別算法大多以文本識別算法為基礎. 基于卷積循環神經網絡(CRNN)[1]的識別方法, 為序列識別任務帶來了突破性的進展, 也為文本識別領域打開了一扇大門. 隨后基于CRNN變體和各種注意力機制的文本識別算法[2-3]層出不窮, 相較于前者, 增加的注意力機制主要用于關聯輸入信息的相關性, 這種方式顯著提高了通用文本的識別精度.

                      目前國內外的文本識別研究, 普遍關注沒有符號的文字序列. 對于價格牌這類帶有符號的序列識別, 一些在通用文本數據集上表現優異的算法[4-5], 性能并不能令人滿意. 為此本文提出了一種多任務的卷積神經網絡, 有效的提高了價格牌的識別精度.

                      在價格牌的識別任務中, 精準的識別所占像素比例很小或直接被省略的小數點, 是非常困難的一項任務, 也是其區別其他文本圖像識別任務的重點. 現有的絕大部分算法是將價格牌的整體進行無差別的識別, 但是由于價格牌的種類繁多, 以及一些客觀因素的影響, 導致其在圖像中的特征并不明顯, 即使采用基于上下文關系的序列識別算法也很難準確定位小數點的位置. 為此本文提出了一種將整數部分與小數部分分開, 協同識別整體的方法, 實現對小數點的準確定位. 使用端對端的多任務訓練策略進行學習, 降低訓練的難度. 經過實驗證明, 本文提出的方法不僅在識別精度上有著優越的指標, 對于小數點的識別更是超越了以往深度學習算法的成績.

                      由于已開源的數據集中暫無價格牌這一特定場景, 我們將實驗中使用的價格牌數據集開源出來以供研究使用. 我們的數據集采集自真實貨架場景圖像, 涵蓋不同樣式, 不同拍攝角度, 不同光照變化等, 其中包含訓練集10 000張, 測試集1 000張, 困難測試集1 000張(包含了手寫價格、模糊價格以及其他影響因素的價格數據), 訓練集及測試集的數字區域比較清晰, 辨識度較高, 而困難測試集的數字區域大都存在干擾項(如反光、拍攝重影、雙價格標簽等), 辨識度較低. 此外, 為了進一步驗證本文所提出方法的泛化能力, 我們在類似的車牌數據集中也進行了相關實驗, 實驗結果表明了本文所提出方案的有效性.

                      • OCR(Optical Character Recognition, 光學字符識別, 現泛指所有圖像文字檢測和識別技術)的研究, 一直是圖像識別領域的重要研究方向之一. 隨著深度學習研究的飛躍, 關于自然場景的圖像文本識別算法不勝枚舉, 掀起了一輪又一輪的競賽狂潮.

                        CRNN主要用于圖像的序列識別問題, 包含卷積層、循環層和轉錄層, 結構如圖1所示, 是OCR技術的常用模型. CRNN主要可以分為以下幾個部分: 首先輸入圖像預處理后通過深層卷積神經網絡, 得到輸出的高級特征圖(feature map); 隨后將feature map的每一列或每幾列作為一個時間序列輸入由雙向LSTM(Bi-directional LSTM)網絡構成的循環層; 最后輸出一個序列標簽(預測特征序列中的每一個特征向量的標簽分布——真實結果的概率列表). 轉錄層采用CTC(時序連接分類)[6]或者其他高效的序列分類方法[7]進行轉錄, 處理循環層所輸出的序列標簽, 將所有可能的“字符定位”結果進行整合, 轉換為最終的識別結果.

                        圖  1  卷積循環網絡結構

                        Figure 1.  The structure of convolutional recurrent neural network

                        雖然CRNN的結構理論上可以預測任意的序列對應關系, 但實際中編碼和解碼的準確度很大程度上依賴于語義向量. 語義向量在編碼壓縮過程中存在信息丟失, 而語義向量的信息偏差會嚴重影響解碼端的準確率. 其次, 解碼過程在每個時間步使用的內容向量是相同的, 這也會對解碼準確率造成一定程度的影響. 為了解決以上問題, CRNN模型加入了注意力機制[8].

                        不同的注意力機制對序列的處理方法不同, 應用較廣泛的注意力機制[8]是由編碼器將輸入數據編碼成一個向量的序列后, 在解碼階段的每一個時間步, 注意力模型都會選擇性的從向量序列中挑選出一個子集進行輸出預測(這種選擇基于解碼階段隱層狀態與輸入序列的相關性). 這種機制可以保證在產生每一個輸出的時候, 都能找到當前輸入序列應該重點關注的信息, 也表明每一個輸出所參考的語義向量都是不同的.

                      • 深度學習中單任務學習模型關注點通常是對某一個特定度量進行優化, 比如分類精度、識別精度或者回歸指標等. 在訓練的基準模型上, 我們不斷的微調模型, 直到模型的結果不能繼續優化. 雖然這種方法可以得到高于基準模型的結果, 但我們選擇性的忽略了可能提升特征度量指標的其他信息.

                        區別于單任務模型將注意力聚焦于某個度量, 多任務學習可以共享相關任務之間的表征, 使模型可以更好的學習原始任務. 某種程度上, 多任務學習可以認為是人類學習的思維延伸, 通過人類學習的先驗知識, 關聯多任務之間的表征信息. 從信息學的角度, 可以將多任務學習視為信息歸納轉移的一種方式.

                        分析價格牌數據, 識別過程最大的困難便是小數點的定位. 如圖2所示, 小數點的位置總是模糊不清或被省略, 單任務的端到端網絡包括針對復雜文本的[9]也很難做到定位小數點. 因此, 提出拆分價格牌的整數部分和小數部分, 通過多任務學習的策略聯合學習小數點的特征信息. 這種策略需要價格牌數據結構的先驗知識, 將分支結果與小數點后期拼接, 得到完整的價格牌數據.

                        圖  2  價格牌圖像

                        Figure 2.  Images of some price tag samples

                        在計算機視覺領域, 最常見的多任務學習方法便是共享卷積層[10]參數, 同時獨立學習特定任務的其他層參數.

                      • CRNN及其變體的結構在Coco[11]、ICDAR2015[12]等通用文本數據集上取得了優異成績, 證明了其方法的有效性. 文獻[13]對近年來具有代表性的文本識別算法結構進行了總結, 通過實驗分析, 確定了在自然文本數據集上表現最優的CRNN結構.

                        沿著CRNN的方法, 我們使用卷積網絡提取文本的特征, 沿寬度方向切片作為輸入特征送入循環層, 得到特征序列的標簽分布, 之后用基于LSTM的編碼器和解碼器將特征序列轉換為最終的識別結果, 網絡結構如圖4所示.

                        圖  4  基礎單任務識別網絡結構

                        Figure 4.  The structure of our basic single recognition network

                        本文設計的多任務學習模型不同于一般聯合學習[14], 而是基于價格牌可拆分的數據結構知識. 整體結構如圖5所示, 其中IB(Integer branch)表示整數分支, DB(Decimal branch)表示小數分支, NDPB(No decimal point branch)表示去小數點的數字分支, 如圖3所示. 模型分支結構完全相同, 在特征提取階段后, 學習序列不同感受野的信息. 無小數點字符串分支作為輔助損失抑制整數分支與小數分支的過擬合, 共同優化共享的卷積塊參數. 三分支網絡結構與損失函數完全相同, 通過對應不同的標簽優化網絡參數, 極大地簡化訓練流程. 這里我們之所以選擇三分支的模型, 也是由于應用場景的特殊性, 在實驗階段我們也會輸出不同分支組合結果進行分析.

                        圖  3  基準識別與多分支識別結果的生成方式

                        Figure 3.  Baseline method compared with multi-branch method

                        圖  5  多任務循環卷積網絡結構

                        Figure 5.  The structure of multi-task RNN

                        相比于單一任務的方法, 我們所提出的多任務模型機制也擁有更好的可分析性: 對于價格牌識別問題, 我們選取多任務的結構可以數據化模型對整數部分以及小數部分的識別準確度, 從而分析誤判問題. 對于不同分支的識別難度有初步估計, 從而制定相應的訓練策略, 如去小數點分支融入的可訓練超參數權重, 這種策略對模型精度有可觀的改善.

                      • 解碼階段以單向LSTM作為解碼網絡, 增加了循環層注意力機制,結構如圖6所示. 所提出的多任務模型采用相同方式解碼, 分支損失函數為公式1所示的交叉熵函數, 其中M為每批次序列數, N為解碼端單向LSTM時間步長. 網絡損失函數設置為整數損失與小數損失之和, 去小數點分支損失乘以超參數η作為損失函數正則化項, 整體損失函數如公式2所示. 該設計的出發點是是考慮到實際場景應用中小數部分會存在很大一部分全為零的情況, 網絡存在過擬合風險. 訓練相對復雜一點的去小數點分支可以起到正則化的作用, 且加入的超參數可訓練, 根據驗證集的反饋自適應學習, 實驗階段中我們建議的超參數值為0.5.

                        圖  6  注意力機制網絡解碼流程圖

                        Figure 6.  Flowchart of decoder network based on attention

                        損失函數的改進[15]以及其他改進策略也可以一定程度上提高模型精度, 后續會考慮融入到我們的工作當中.

                        $$ L = \frac{{ - 1}}{{MN}}\mathop \sum \nolimits_{i = 1}^M \mathop \sum \nolimits_{j = 1}^N {y_{i,j}}log\left( {{s_{i,j}}} \right) $$ (1)
                        $$ L = {L_{integer}} + {L_{decimal}} + \eta {L_{NDPB}} $$ (2)
                      • 為提高模型性能, 在訓練網絡之前, 需要對訓練數據進行數據預處理操作. 本文采集的數據集來源于真實的貨架圖像, 數據豐富多樣, 涵蓋不同設計樣式以及角度、光照的變化. 將數據歸一化處理為相同的規格(本文規格為96×200), 并處理數據標簽. 例如, 價格數據原標簽為79.99, 處理得到整數標簽79、小數標簽99以及去小數點標簽7 999.

                        預處理后的圖像送入卷積塊, 得到規格為12×25×512的高層特征. 沿寬度方向切片reshape成25×6 144的序列格式輸入循環層. 循環層如前文所述, 由雙向LSTM堆疊組成. 解碼求得每個時間步的輸出, 通過與標簽計算交叉熵, 反饋訓練網絡. 對于我們的雙分支網絡, 網絡的輸出結果取決于兩個分支的結果合并. 以去小數點分支與整數分支為例, 將去小數點分支結果沿著整數分支結果截斷即得到小數部分, 通過小數點拼接輸出完整價格.

                        關于模型的訓練, 我們提供了一些訓練策略來提升精度. 考慮到實際場景的條件影響, 增加飽和度隨機調整和隨機旋轉的數據增強策略, 可以很好的增強模型的泛化能力. 由于整體網絡較深, 需要較大的學習率初始值加速網絡收斂. 通過實驗測試, 學習率初始值為0.3時, 伴隨隨機梯度下降策略效果最優.

                      • 本文實驗目的在于介紹多任務機制對于特殊結構文本的貢獻, 因此對于baseline的選取, 我們只對前沿場景文本識別算法[13]的主干結構進行實驗分析, 而暫不考慮相關訓練策略. 實驗結果如表1所示, ResNet作為卷積塊, BiLSTM作為循環層, 通過注意力機制解碼的結構能夠達到最高的精度.

                        表 1  模塊的研究

                        Table 1.  Study of modules

                        ModelGeneral-dataHard-data
                        VGG-BiLSTM-CTC50.20%20.20%
                        VGG-BiLSTM-Attn61.20%38.60%
                        ResNet-BiLSTM-CTC55.60%28.80%
                        ResNet-BiLSTM-Attn68.10%41.40%

                        我們采用[13]中表現最優的模型作為Baseline, 實驗測試了基準方法并與我們的多任務分支進行比較分析. 根據價格牌結構的切分方式, 價格牌識別任務可以劃分為: 去小數點的數據分支識別(NDPB)、整數分支識別(IB)以及小數分支識別(DB), 實驗測試了多種分支組合方案, 精度結果如表2所示. 相較于在文本識別上的突出成績, 基準模型很難在價格牌數據集中取得滿意的成績, 而本文提出的多任務模型則非常適用于價格牌這一特定場景, 為了體現出多分支結果的優點, 我們將基準方案與每個分支的輸出進行了可視化分析, 圖7給出了本方法是如何通過三分支識別的方式規避了困難的小數點識別并通過各分支的結果推斷出最終識別結果的機制. 實驗結果表明, 不同雙分支組合的結構相較與基準模型均取得較優的成績, 這便驗證了我們最初的信息拆分識別思路, 通過多任務的方式獨立的識別各分支是行之有效的且對最終的結果有促進作用. 整數分支與小數分支, 以及去小數點分支與小數點分支的多任務模型分別在普通測試集與困難測試集上取得了最優成績, 這也是由于數據結構的最優切分與相應多任務模型的組合. 進而我們在整數分支與小數分支的基礎上以正則化的方式融入去小數點分支, 也讓我們的多任務模型更進一步有所提升, 在普通測試集取得了93.20%的最好成績, 困難測試集上取得了75.20%的最好成績.

                        表 2  多任務模型結果

                        Table 2.  Results of multitask model

                        ModelGeneral-dataHard-data
                        Baseline[13]68.10%41.40%
                        NDPB&IB90.10%72.90%
                        NDPB&DB91.70%74.30%
                        IB&DB92.20%73.20%
                        NDPB&IB&DB93.20%75.20%

                        圖  7  與直接識別方法的比較

                        Figure 7.  Compared with the single-branch method

                        實驗結果表明, 多任務機制可以充分有效的解決價格牌的識別問題. 在沒有其他策略的優化下, 僅以多任務機制便可取得優異的成績. 現階段端對端的模型已成為深度學習主流, 而一些特殊的任務如價格牌中的小數點, 卻很難以用單任務的端對端模型解決. 因此, 我們提議從數據結構上分析, 以多任務結構聯合進行分離式的識別是一個可行的解決方案.

                      • 本文提出的價格牌識別網絡有效地提高了價格牌的識別精度, 該方法也可以應用到其他OCR場景中, 為驗證方法的遷移能力, 本文通過選取類似可拆分數據結構的車牌場景[16], 驗證所提方法的泛化性. 我們將論文所提出的方法在目前最大的車牌數據集CCPD中與效果優異的TE2E[17]以及CCPD[16]網絡進行對比研究. 在測試中, 我們將車牌拆分成省、市和車牌號三個部分, 使用三分支結構進行識別. CCPD測試集合中包括各種復雜場景, 例如光線不均勻、角度傾斜以及雨雪天氣等, 實驗結果如表3所示. 本文所提出的方法均高于所對比的方法, 尤其在復雜場景的測試集中, 識別精度提升明顯提升.

                        表 3  車牌數據集實驗結果

                        Table 3.  Experimental results on license plate dataset

                        DBFNRotateTiltWeatherChallenge
                        TE2E[17]96.90%94.30%90.80%92.50%87.90%85.10%
                        CCPD[16]96.90%94.30%90.80%92.50%87.90%85.10%
                        Ours method98.24%98.81%98.12%98.79%98.19%91.92%

                        在車牌識別的應用中, 可以將漢字為切分點, 多分支結構分為漢字分支、數字字母分支以及完整車牌分支. 同樣地, 完整車牌分支以正則化項的方式融入網絡中, 防止其他分支訓練過擬合. 表3中的實驗結果表明, 對于車牌識別這一特定場景的任務, 本文的多任務模型性能明顯高于原論文, 在所有測試集上, 精度均有所提升. 相比于在商業應用中的TE2E以及學術研究中的CCPD, 個別測試集甚至取得了高達10%的提升, 這為多任務機制聯合學習感受野的策略提供了強力依據. 本文提出的方法主要針對那些信息可拆分的且拆分部分具有獨立性的圖像文本, 比如價格牌的整數與小數部分, 車牌的漢字與字母數字部分. 實驗結果表明本文提出的根據數據結構進行設計的多任務學習方法具有良好的性能, 且對于復雜場景的泛化性更強, 在價格牌數據集中的困難測試集以及車牌數據集中的各種復雜場景車牌集上都取得了很好的效果.

                      • 本文針對新零售領域價格牌識別應用提出了基于多任務的價格牌識別網絡, 針對特定場景圖像文本的數據結構, 將整體數據分開處理, 通過先識別整數分支與小數分支替代識別完整價格, 最后添加小數點來解決小數點難以識別問題. 我們的網絡采用卷積循環網絡的結構, 以循環層注意力機制解碼序列, 結合多任務學習機制, 用特定的領域知識聯合學習難以定位的特征信息. 本文所提出的方法在我們開源的價格牌數據集上, 相比目前主流的文本識別算法有著明顯的精度提升, 并且在類似數據結構的車牌數據集中也有非常好的效果. 我們的工作目前只針對具有特定文本結構的圖像, 對于通用文本的泛化性較差, 接下來的工作將會考慮多任務機制在通用文本上的可行性研究.

                    WeChat 關注分享

                    返回頂部

                    目錄

                      /

                      返回文章
                      返回