接受的PDF輸入
TET PDF IFilter 支持所有相關(guān)風(fēng)格的PDF 輸入:
直到 AcrobatDC 的所有 PDF版本,包括 ISO32000-1 和 32000-2(PDF 2.0)
無需密碼即可打開文檔的受保護(hù)PDF
修復(fù)損壞的 PDF文檔
國際化
除了西文文本 TETPDF IFilter 完全支持中文、日文和韓文(CJK) 文本。識別所有CJK 編碼;支持水平和垂直書寫模式。自動檢測文本的區(qū)域設(shè)置ID(語言和區(qū)域標(biāo)識符)改進(jìn)了Microsoft 的分詞和詞干算法的結(jié)果,這對于東亞文本尤其重要。
還支持從右到左的語言,例如希伯來語和阿拉伯語。上下文字符形式被規(guī)范化,文本按邏輯順序傳遞。
PDF 不僅僅是一堆頁面
TET PDF IFilter 將 PDF文檔視為容器,其中可能包含比普通頁面更多的信息。TETPDF IFilter 索引 PDF文檔中的所有相關(guān)項目:
頁面內(nèi)容
書簽、注釋(評論)和表單域中的文本
元數(shù)據(jù)(見下文)
嵌入式 PDF 和PDF 包(組合)以遞歸方式處理,以便可以搜索所有嵌入式PDF 文檔中的文本。
XMP 文檔元數(shù)據(jù)和文檔信息
TET PDF IFilter 中的高級元數(shù)據(jù)實現(xiàn)支持元數(shù)據(jù)的Windows 屬性系統(tǒng)。它索引XMP 元數(shù)據(jù)以及標(biāo)準(zhǔn)或自定義文檔信息條目。元數(shù)據(jù)索引可以在多個級別上配置:
文檔信息條目、DublinCore 字段和其他常見XMP 屬性映射到Windows shell 屬性,例如標(biāo)題、主題、作者。
TET PDF IFilter 添加了有用的特定于PDF 的偽屬性,例如頁面大小、PDF/A一致性級別、字體名稱。
可以索引所有相關(guān)的預(yù)定義XMP 屬性。
可以搜索用戶定義的XMP 或基于PDF 的屬性,例如公司特定的分類屬性、數(shù)字簽名或ZUGFeRD/Factur-X 一致性。
TET PDF IFilter 可選擇將元數(shù)據(jù)集成到全文索引中。因此,即使是不支持元數(shù)據(jù)的全文搜索引擎(例如SQL Server)也可以搜索元數(shù)據(jù)。
Unicode 后處理
TET PDF IFilter 支持各種Unicode 后處理步驟,可用于改進(jìn)提取的文本:
折疊保留、刪除或替換字符,例如從不相關(guān)的腳本中刪除標(biāo)點符號或字符。
分解用一個或多個其他字符的等效序列替換一個字符,例如用它們各自的標(biāo)準(zhǔn)對應(yīng)物替換窄、寬或垂直的日文字符或拉丁上標(biāo)變體。
審核編輯:劉清
-
嵌入式
+關(guān)注
關(guān)注
5151文章
19670瀏覽量
317488 -
編碼
+關(guān)注
關(guān)注
6文章
969瀏覽量
55766 -
PDF
+關(guān)注
關(guān)注
1文章
172瀏覽量
34508
原文標(biāo)題:?PDFlib TET PDF IFilter 5 功能
文章出處:【微信號:哲想軟件,微信公眾號:哲想軟件】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
請問 sotAP(CYW55512)模式是否支持“b only”和“b/g”?
Altium智能導(dǎo)出PDF料單是空白
漫畫圖解 電感器 抗干擾元器件指南(全彩PDF版)
電子電路實用原理圖300例(PDF版)
典型模電電路應(yīng)用108例,附Protel DXP原理圖和pdf文件
Spire.PDFViewer for ASP.NET強大的PDF查看組件

所有Window Watchdog Supervisors

如何從模擬輸入設(shè)備切換到數(shù)字輸入設(shè)備

VCA810電路時按照pdf上的參數(shù)手工焊接搭建,輸入信號為100mv,放大到8倍以上會出現(xiàn)自激干擾怎么解決?
ADS866x支持雙極輸入范圍的12位500kSPS 4和8通道、單電源SAR ADC數(shù)據(jù)表

評論