本文簡要介紹ECCV 2022錄用的論文“When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition”的主要工作。該論文旨在緩解目前大部分基于注意力機(jī)制的手寫數(shù)學(xué)公式識別算法在處理較長或者空間結(jié)構(gòu)較復(fù)雜的數(shù)學(xué)公式時,容易出現(xiàn)的注意力不準(zhǔn)確的情況。本文通過將符號計(jì)數(shù)任務(wù)和手寫數(shù)學(xué)公式識別任務(wù)聯(lián)合優(yōu)化來增強(qiáng)模型對于符號位置的感知,并驗(yàn)證了聯(lián)合優(yōu)化和符號計(jì)數(shù)結(jié)果都對公式識別準(zhǔn)確率的提升有貢獻(xiàn)。
一、研究背景
OCR技術(shù)發(fā)展到今天,對于常規(guī)文本的識別已經(jīng)達(dá)到了較高的準(zhǔn)確率。但是對于在自動閱卷、數(shù)字圖書館建設(shè)、辦公自動化等領(lǐng)域經(jīng)常出現(xiàn)的手寫數(shù)學(xué)公式,現(xiàn)有OCR算法的識準(zhǔn)確率依然不太理想。不同于常規(guī)文本,手寫數(shù)學(xué)公式有著復(fù)雜的空間結(jié)構(gòu)以及多樣化的書寫風(fēng)格,如圖1所示。其中復(fù)雜的空間結(jié)構(gòu)主要是由數(shù)學(xué)公式獨(dú)特的分式、上下標(biāo)、根號等結(jié)構(gòu)造成的。雖然目前的OCR算法能較好地識別水平排布的常規(guī)文本,甚至對于一些多方向以及彎曲文本也能夠有不錯的識別效果,但是依然不能很好地識別具有復(fù)雜空間結(jié)構(gòu)的數(shù)學(xué)公式。

圖1 手寫數(shù)學(xué)公式示例
二、研究動機(jī)
現(xiàn)有的大部分手寫數(shù)學(xué)公式識別算法采用的是基于注意力機(jī)制的編碼器-解碼器結(jié)構(gòu),模型在識別每一個符號時,需要注意到圖像中該符號對應(yīng)的位置區(qū)域。在識別常規(guī)文本時,注意力的移動規(guī)律比較單一,往往是從左至右或從右至左。但是在識別數(shù)學(xué)公式時,注意力在圖像中的移動具有更多的可能性。因此,模型在解碼較復(fù)雜的數(shù)學(xué)公式時,容易出現(xiàn)注意力不準(zhǔn)確的現(xiàn)象,導(dǎo)致重復(fù)識別某符號或者是漏識別某符號。
為了緩解上述現(xiàn)象,本文提出將符號計(jì)數(shù)引入手寫數(shù)學(xué)公式識別。這種做法主要基于以下兩方面的考慮:1)符號計(jì)數(shù)(如圖2(a)所示)可以隱式地提供符號位置信息,這種位置信息可以使得注意力更加準(zhǔn)確(如圖2(b)所示)。2)符號計(jì)數(shù)結(jié)果可以作為額外的全局信息來提升公式識別的準(zhǔn)確率。

圖2 (a)符號計(jì)數(shù)任務(wù);(b)符號計(jì)數(shù)任務(wù)讓模型擁有更準(zhǔn)確的注意力
三、方法簡述
模型整體框架:如圖3所示,CAN模型由主干特征提取網(wǎng)絡(luò)、多尺度計(jì)數(shù)模塊(MSCM)和結(jié)合計(jì)數(shù)的注意力解碼器(CCAD)構(gòu)成。主干特征提取網(wǎng)絡(luò)采用的是DenseNet[1]。對于給定的輸入圖像,主干特征提取網(wǎng)絡(luò)提取出2D特征圖F。隨后該特征圖F被輸入到多尺度計(jì)數(shù)模塊MSCM,輸出計(jì)數(shù)向量V。特征圖F和計(jì)數(shù)向量V都會被輸入到結(jié)合計(jì)數(shù)的注意力解碼器CCAD來產(chǎn)生最終的預(yù)測結(jié)果。

圖3 CAN模型整體框架
多尺度計(jì)數(shù)模塊:在人群計(jì)數(shù)等任務(wù)中,部分方法采用弱監(jiān)督的范式,在不需要使用人群位置標(biāo)注的情況下預(yù)測人群密度圖。本文借鑒了這一做法,在只使用公式識別原始標(biāo)注(即LaTeX序列)而不使用符號位置標(biāo)注的情況下進(jìn)行多類符號計(jì)數(shù)。針對符號計(jì)數(shù)任務(wù),該計(jì)數(shù)模塊做了兩方面獨(dú)特的設(shè)計(jì):1)用計(jì)數(shù)圖的通道數(shù)表征類別數(shù),并在得到計(jì)數(shù)圖前使用Sigmoid激活函數(shù)將每個元素的值限制在(0,1)的范圍內(nèi),這樣在對計(jì)數(shù)圖進(jìn)行H和W維度上的加和后,可以直接表征各類符號的計(jì)數(shù)值。2)針對手寫數(shù)學(xué)公式符號大小多變的特點(diǎn),采用多尺度的方式提取特征以提高符號計(jì)數(shù)準(zhǔn)確率。

圖4 多尺度計(jì)數(shù)模塊MSCM
結(jié)合計(jì)數(shù)的注意力解碼器:為了加強(qiáng)模型對于空間位置的感知,使用位置編碼表征特征圖中不同空間位置。另外,不同于之前大部分公式識別方法只使用局部特征進(jìn)行符號預(yù)測的做法,在進(jìn)行符號類別預(yù)測時引入符號計(jì)數(shù)結(jié)果作為額外的全局信息來提升識別準(zhǔn)確率。

圖5 結(jié)合計(jì)數(shù)的注意力解碼器CCAD
四、實(shí)驗(yàn)結(jié)果
在廣泛使用的CROHME數(shù)據(jù)集以及新出現(xiàn)的HME100K[2]數(shù)據(jù)集上都進(jìn)行了實(shí)驗(yàn)并與之前的最優(yōu)方法做了比較。如表1和表2所示,可以看出CAN取得了目前最高的識別準(zhǔn)確率。此外,使用經(jīng)典模型DWAP[3]作為baseline得到的CAN-DWAP以及使用之前最優(yōu)模型ABM[4]作為baseline得到的CAN-ABM,其結(jié)果都分別優(yōu)于對應(yīng)的baseline模型,這說明本文所提出的方法可以被應(yīng)用在目前大部分編碼器-解碼器結(jié)構(gòu)的公式識別模型上并提升它們的識別準(zhǔn)確率。
表1 在CROHME數(shù)據(jù)集上的結(jié)果
表2 在HME100K數(shù)據(jù)集上的結(jié)果?
? 
圖6 在CROHME數(shù)據(jù)集上DWAP和CAN-DWAP的識別結(jié)果展示
對于模型各部分帶來的提升,本文做了消融實(shí)驗(yàn)。如表3所示,加入位置編碼、將兩種任務(wù)聯(lián)合優(yōu)化以及融合符號計(jì)數(shù)結(jié)果進(jìn)行預(yù)測都能提升模型對于手寫數(shù)學(xué)公式的識別準(zhǔn)確率。此外,為了驗(yàn)證采用多尺度的方式提取特征的有效性以及研究符號計(jì)數(shù)結(jié)果對于公式識別準(zhǔn)確率的影響,本文做了實(shí)驗(yàn)進(jìn)行驗(yàn)證。如表4所示,使用大小不同的卷積核提取多尺度特征有助于獲得更高的符號計(jì)數(shù)準(zhǔn)確率。并且計(jì)數(shù)結(jié)果越準(zhǔn)確,對公式識別的提升也越大。表5則展示了當(dāng)使用符號計(jì)數(shù)的GT(Ground Truth)時對于模型識別準(zhǔn)確率的提升。
表3 模型各部分帶來的提升

表4 計(jì)數(shù)模塊中卷積核大小的影響
表5 符號計(jì)數(shù)結(jié)果對公式識別準(zhǔn)確率的影響? 
符號計(jì)數(shù)對于公式識別有促進(jìn)作用,那么反過來公式識別能否提升符號計(jì)數(shù)的準(zhǔn)確率呢?本文對這一問題也做了探討,實(shí)驗(yàn)結(jié)果和符號計(jì)數(shù)可視化結(jié)果如表6和圖7所示,可以看出公式識別任務(wù)也可以提升符號計(jì)數(shù)的準(zhǔn)確率。本文認(rèn)為這是因?yàn)楣阶R別的解碼過程提供了符號計(jì)數(shù)任務(wù)缺少的上下文語義信息。
表6 公式識別對符號計(jì)數(shù)準(zhǔn)確率的影響

圖7 符號計(jì)數(shù)結(jié)果及計(jì)數(shù)圖可視化
五、文本結(jié)論
本文設(shè)計(jì)了一種新穎的多尺度計(jì)數(shù)模塊,該計(jì)數(shù)模塊能夠在只使用公式識別原始標(biāo)注(即LaTeX序列)而不使用符號位置標(biāo)注的情況下進(jìn)行多類別符號計(jì)數(shù)。通過將該符號計(jì)數(shù)模塊插入到現(xiàn)有的基于注意力機(jī)制的編碼器-解碼器結(jié)構(gòu)的公式識別網(wǎng)絡(luò)中,能夠提升現(xiàn)有模型的公式識別準(zhǔn)確率。此外,本文還驗(yàn)證了公式識別任務(wù)也能通過聯(lián)合優(yōu)化來提升符號計(jì)數(shù)的準(zhǔn)確率。
-
編碼器
+關(guān)注
關(guān)注
45文章
3953瀏覽量
142662 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52113 -
OCR
+關(guān)注
關(guān)注
0文章
175瀏覽量
17203
原文標(biāo)題:ECCV 2022 | 白翔團(tuán)隊(duì)提出CAN:手寫數(shù)學(xué)公式識別新算法
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
提供銀行卡識別API免費(fèi)接入的OCR SDK開發(fā)者平臺
首發(fā) | 告別手動錄入,開放平臺OCR上線印刷文字識別!
c#+halcon1.5 ocr字符識別
自編通用視覺框架實(shí)現(xiàn)基本算子以及OCR識別功能
Python OCR 識別庫-ddddocr
【KV260視覺入門套件試用體驗(yàn)】七、VITis AI字符和文本檢測(OCR&Textmountain)
基于FPGA的OCR文字識別技術(shù)的深度解析
關(guān)于開放平臺OCR上線印刷文字識別的介紹
一篇包羅萬象的場景文本檢測算法綜述
OCR識別技術(shù)
機(jī)器視覺運(yùn)動控制一體機(jī)應(yīng)用例程|OCR字符識別應(yīng)用
easyocr:超級簡單且強(qiáng)大的OCR文本識別工具
OCR算法能較好識別水平排布的常規(guī)文本
評論