在爬蟲對(duì)驗(yàn)證碼進(jìn)行破解時(shí),經(jīng)常需要對(duì)圖片中的文字內(nèi)容進(jìn)行識(shí)別,這時(shí)就需要用到OCR技術(shù)了,那么 OCR識(shí)別技術(shù)是如何實(shí)現(xiàn)對(duì)文字內(nèi)容“即拍即得”的呢?
OCR(Optical Character Recognition)即光學(xué)字符識(shí)別技術(shù),實(shí)質(zhì)屬于計(jì)算機(jī)輸入技術(shù)。OCR通過利用光學(xué)技術(shù)與計(jì)算機(jī)技術(shù)對(duì)圖片、紙張、物體等處的文本內(nèi)容進(jìn)行分析識(shí)別,并讀取轉(zhuǎn)換成計(jì)算機(jī)和人類都能理解接受的格式。
OCR主要可以分為手寫體識(shí)別和印刷體識(shí)別。
由于印刷體都是計(jì)算機(jī)自助生成再進(jìn)行輸出,通常較為規(guī)律,因此較手寫體識(shí)別來說要更簡(jiǎn)單。而手寫體由于往往會(huì)帶有個(gè)人特色,每個(gè)人的風(fēng)格不盡相同,由于其千人千面的特性,手寫體識(shí)別也成了OCR界一直想攻克的難關(guān)。當(dāng)然,除了手寫體與印刷體外,OCR也可以根據(jù)識(shí)別內(nèi)容來分類。例如按語言分類,要識(shí)別的內(nèi)容將可能包括漢語、英語、日語、法語等,而如果僅滿足國(guó)人需求,要識(shí)別的內(nèi)容就可能會(huì)包括漢字、英文字母、阿拉伯?dāng)?shù)字、標(biāo)點(diǎn)符號(hào)等。
通常根據(jù)要識(shí)別的內(nèi)容不同,識(shí)別的難度也不同。比如僅識(shí)別阿拉伯?dāng)?shù)字,只需能識(shí)別出0-9,而英文字母則需要識(shí)別52個(gè)字符(僅考慮大小寫),而中文識(shí)別則會(huì)高達(dá)數(shù)千個(gè),且由于漢字的結(jié)構(gòu)偏旁較為復(fù)雜,要將這些字符都準(zhǔn)確識(shí)別出來會(huì)使難度系數(shù)直線上升。一個(gè)典型的OCR技術(shù)處理流程如下圖所示:
圖:來源于網(wǎng)絡(luò)
其中,圖像預(yù)處理通常為能使圖像中的文字更明顯便于識(shí)別,會(huì)對(duì)圖像的成像問題進(jìn)行修正,通常是基于數(shù)字圖像處理和傳統(tǒng)機(jī)器學(xué)習(xí)等方法對(duì)圖像進(jìn)行操作。
常見的圖像預(yù)處理包括幾何變換(透視、翻轉(zhuǎn)、旋轉(zhuǎn)、扭曲、拉直等)、畸變矯正、去模糊、銳化、圖像增強(qiáng)、光線矯正、灰度化、二值化等。其中,在對(duì)付驗(yàn)證碼時(shí)常用的灰度化、二值化處理對(duì)于內(nèi)容較為簡(jiǎn)單的文本信息有增強(qiáng)作用,但對(duì)復(fù)雜背景的內(nèi)容處理效果就會(huì)收效甚微。
文字檢測(cè),顧名思義是對(duì)圖片中存在的文字內(nèi)容進(jìn)行檢測(cè),檢測(cè)內(nèi)容包括文本所在的位置、范圍、布局、數(shù)量等,通常也包括整體版面分析和文字行檢測(cè)等。部分OCR軟件為了保證檢測(cè)范圍的準(zhǔn)確性,還會(huì)套用圖像檢測(cè)的方法,對(duì)圖像中的文本區(qū)域進(jìn)行框選,并像下圖所示將框選與待識(shí)別區(qū)域交由令用戶進(jìn)行校驗(yàn)確認(rèn)。
圖:某OCR軟件識(shí)別界面
文本檢測(cè)完成后,建立在其基礎(chǔ)之上的文本識(shí)別將會(huì)對(duì)選定的文本內(nèi)容進(jìn)行識(shí)別,并將圖像中的字符轉(zhuǎn)化為可供人類和計(jì)算機(jī)識(shí)別的文本信息。文本信息主要需要解決的問題是每個(gè)字符是什么。
對(duì)于識(shí)別后輸出的文本通常需要再次核對(duì)驗(yàn)證以確保其準(zhǔn)確率,即文本校正,通常也被認(rèn)為屬于文字檢測(cè)的環(huán)節(jié)。當(dāng)識(shí)別的內(nèi)容是由詞庫中的詞匯構(gòu)成時(shí)就稱之為有詞典識(shí)別,反之則稱為無詞典識(shí)別。在整個(gè)處理流程過程中,對(duì)識(shí)別準(zhǔn)確率影響最大的步驟就是文本檢測(cè)與文本識(shí)別。相比一般文本,通常對(duì)OCR技術(shù)的評(píng)測(cè)會(huì)從最終識(shí)別率、識(shí)別速度、版面理解正確率、版面還原滿意度4方面來作為依據(jù)。
OCR識(shí)別技術(shù)對(duì)于手寫體識(shí)別目前尚在發(fā)展階段,而對(duì)于印刷體識(shí)別的技術(shù)已經(jīng)發(fā)展的較為純熟。而且,對(duì)于印刷體識(shí)別的應(yīng)用劃分可能遠(yuǎn)比你我想象的更為細(xì)致。例如用于對(duì)人身份進(jìn)行核查驗(yàn)證的證件OCR識(shí)別、用于移動(dòng)支付綁卡的銀行卡OCR識(shí)別、用于存儲(chǔ)管理名片的名片OCR識(shí)別、用于大量文字資料、檔案卷宗的錄入和處理的文檔OCR識(shí)別、用于銀行、金融、電信機(jī)構(gòu)的票據(jù)OCR識(shí)別、用于交通安全的車輛OCR識(shí)別等。
OCR技術(shù)的出現(xiàn)無疑提升了工作效率,也改變了我們的生活。
參考文獻(xiàn):
https://www.sohu.com/a/233167039_205239
https://zhuanlan.zhihu.com/p/45376274
編輯:jq
-
OCR
+關(guān)注
關(guān)注
0文章
161瀏覽量
16794
原文標(biāo)題:文字識(shí)別界的“拍立得”——OCR識(shí)別技術(shù)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
端側(cè)OCR文字識(shí)別實(shí)現(xiàn) -- Core Vision Kit ##HarmonyOS SDK AI##
OCR技術(shù)如何實(shí)現(xiàn)鐵路集裝箱號(hào)的自動(dòng)識(shí)別?
OCR技術(shù)vs傳統(tǒng)識(shí)別:哪種更適合火車集裝箱識(shí)別?
明治案例 | 150個(gè)/分鐘!電阻【OCR識(shí)別】+【尺寸測(cè)量】一步到位

OCR識(shí)別訓(xùn)練完成后給的是空壓縮包,為什么?

孚為智能采用多角度高清攝像與智能OCR技術(shù),實(shí)現(xiàn)集裝箱號(hào)碼全自動(dòng)識(shí)別。#集裝箱號(hào)ocr識(shí)別
大模型預(yù)標(biāo)注和自動(dòng)化標(biāo)注在OCR標(biāo)注場(chǎng)景的應(yīng)用
阿普奇視覺控制器AK7在OCR識(shí)別場(chǎng)景中的應(yīng)用

漢王科技CES展示創(chuàng)新技術(shù),共觸未來智能交互
ElfBoard開源項(xiàng)目|車牌識(shí)別項(xiàng)目技術(shù)文檔

明治案例 | 【OCR識(shí)別+條碼讀取】一步到位,印刷品質(zhì)的智能守護(hù)者

光學(xué)字符識(shí)別是什么的一種技術(shù)
光學(xué)識(shí)別技術(shù)的工作原理是什么?
光學(xué)識(shí)別字符是自動(dòng)識(shí)別技術(shù)嗎
明治案例 | PE編織袋【大視野】【OCR識(shí)別】

評(píng)論