AI明星造梦工厂,国产导航投,午夜亚洲国产一区二区三区

本文簡要介紹 2018 年 5 月被 TMM 錄用論文“ Track，Attend and Parse （TAP）： An End-to-end Framework for Online Handwritten Mathematical Expression Recognition” 的主要工作。該論文是 2017 年發(fā)表在 ICDAR 上的文章［1］的升級版，主要解決了在線手寫數(shù)學公式的識別問題。

該論文中介紹的方法獲得了國際最大在線手寫數(shù)學公式比賽 CROHME2019 的冠軍，且是在未使用額外數(shù)據(jù)的情況下超過了有大量額外數(shù)據(jù)的國際企業(yè)參賽隊伍，如 MyScript ， Wiris ， MathType 等，突出了該算法較傳統(tǒng)數(shù)學公式識別算法的優(yōu)勢。

一、研究背景

手寫數(shù)學公式識別較傳統(tǒng) OCR 問題而言，是一個更復雜的二維手寫識別問題，其內(nèi)部復雜的二維空間結(jié)構(gòu)使得其很難被解析，傳統(tǒng)方法的識別效果不佳。隨著深度學習在各領(lǐng)域的成功應(yīng)用，文章［2］［3］首次提出了基于深度學習的端到端離線數(shù)學公式算法，并在公開數(shù)據(jù)集上較傳統(tǒng)方法獲得了顯著提升，開辟了全新的數(shù)學公式識別框架。然而在線手寫數(shù)學公式識別框架還未被提出，論文 TAP 則是首個基于深度學習的端到端在線手寫數(shù)學公式識別模型，且針對數(shù)學公式識別的任務(wù)特性提出了多種優(yōu)化。

二、TAP原理簡述

Fig.1. Overall archi tecture

Fig 1 是 TAP 的整體結(jié)構(gòu)。 TAP 遵循文章［2］［3］中的做法，將數(shù)學公式的樹結(jié)構(gòu)識別問題轉(zhuǎn)換成了數(shù)學公式 LaTeX 字符串識別問題。這一思路的轉(zhuǎn)換簡化了數(shù)學公式識別問題，使端到端的識別成為了可能。 TAP 的基本框架為基于注意力機制的編解碼模型，也稱 Encoder-Decoder 模型［4］，其將輸入的軌跡點序列通過 Encoder 編碼得到高維特征表達，依靠 Attention 機制找出高維特征中的關(guān)鍵部分以用于解碼出當前時刻的 LaTeX 字符，直至解碼結(jié)束。

TAP 延續(xù)了會議文章［1］中的 Encoder 框架，在 Attention 機制上針對在線手寫公式識別提出了 Spatial Attention， Temporal Attention， Attention Guider 用于改善 Attention 的對齊以及 Decoder 的解碼能力。文章中還利用了在線與離線兩個模態(tài)之間的互補性進一步提升了手寫識別性能。

Fig.2. Architecture of the hybridattention model

Fig 2 是 TAP 所采用的H ybrid Attention 機制，除了常用的S patial Attention 外，還采用了T emporal Attention 機制。其中，S patial Attention 利用了A ttention 的歷史信息以解決數(shù)學公式中多個同樣數(shù)學字符出現(xiàn)時的對齊混淆問題。

而T emporal Attention 用于處理 LaTeX 中的結(jié)構(gòu)字符的特殊對齊。因為在 LaTeX 的語法規(guī)則中，為了重現(xiàn)數(shù)學公式語言里的二維空間結(jié)構(gòu)，需要額外有一些特殊的結(jié)構(gòu)字符來形成語法，而這些特殊的結(jié)構(gòu)字符在輸入的數(shù)學公式中不存在，因而S patial Attention 無法完成對齊，此時則需要T emporal Attention 來補足這個不存在的對齊空缺，既能不干擾S patial Attention 的學習，又能提高D ecoder 的解碼能力，進一步提升性能。

Fig.3. Illustration of the attention guider

此外， TAP 還采用了A ttention Guider 來強化S patial Attention 的學習，從 Fig 3 中可以看出，在使用了A ttention Guider 來引導S patial Attention 的學習后，S patial Attention 的對齊效果顯著提升，十分精確，并且效果也反映到了最終的識別性能上。

三、主要實驗結(jié)果及可視化效

TABLE 1. The recognition results on CROHME2014.

TABLE 2. The recognition results on CROHME2016.

由 TABLE 1 、 TABLE 2 來看，文章所提方案在 CROHME2014 和 CROHME2016 公開數(shù)據(jù)集上取得了 state-of-the-art 的結(jié)果，且較傳統(tǒng)方法有巨大的提升，驗證了該方法的有效性，且 TAP 展示的結(jié)果相對于會議版本也有了進一步的提升，體現(xiàn)了H ybrid Attention 在糾正對齊和提升性能處起到了關(guān)鍵作用。

Fig.4. Visualization of temporal attention

Fig.5. Visualization of hybrid attention

Fig.6. Example of complementarity between online and offline modality

Fig 4 是對于T emporal Attention 的可視化，可見T emporal Attention 能夠很正確的幫助 Spatial Attention 區(qū)分結(jié)構(gòu)字符和實體字符。 Fig 5 是對 Hybrid Attention 整體在一個手寫數(shù)學公式實例上的可視化。 Fig 6 列出了一個手寫數(shù)學公式在線和離線模態(tài)互補性的實例，由于存在倒筆現(xiàn)象，單純的在線模型無法正確識別該例子，而通過離線模型的融合輔助最終使得這個公式例子被正確識別（由于符號定義過多，更詳細的內(nèi)容請參考原文，鏈接附后）。

四、總結(jié)及討論

1. TAP-ICDAR 版首次提出了基于深度學習的端到端在線手寫數(shù)學公式識別模型，將樹形結(jié)構(gòu)識別問題巧妙轉(zhuǎn)換成了 LaTe X 字符串識別問題，成功突破了傳統(tǒng)方法在該問題上的性能瓶頸，開辟了全新的在線數(shù)學公式識別框架。

2. TAP-TMM 相比 TAP-ICDAR 而言，進一步提出了 Hybrid Attention ，不僅提高了 Attention 的對齊準確度，也針對性地處理了 LaTeX 中結(jié)構(gòu)字符的對齊和生成，且效果最終都很好地反映在了最終的識別性能上。此外，通過融合離線模態(tài)的全局特性，進一步提升了在線手寫數(shù)學公式的識別率。

3. TAP 中匯報出來的在 CROHME2014 及 CROHME2016 上的識別率，至今仍是最好的公開結(jié)果，相關(guān)算法也在 CROHME2019 競賽上獲得了第一名，并且在沒有使用額外數(shù)據(jù)的情況便超越了其他使用大量額外數(shù)據(jù)的企業(yè)隊伍。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴