OCR(光學字元辨識)
OCR (Optical Character Recognition,光學字元辨識)是指經由電子設備(例如:掃描器或數位相機)檢查紙本上所列印的字元,透過檢測其明暗模式以確定其形狀,然後用字元辨識方法將形狀轉譯成數位文字的過程,也就是將影像中的文字轉換成文字格式。透過 OCR 功能,可使掃描的 PDF文件中的文字變為可搜尋和編輯的狀態。
在目前檔案執行OCR
請注意在含有可轉譯文字(由電腦產生置於影像圖層之上的文字) 的頁面無法執行OCR。
-
在PDF文電通macOS中開啟要執行OCR的PDF文件。
-
選擇「進階」>「OCR」 並選擇「目前檔案」。
-
在「OCR文字辨識」對話方塊中,依需要調整OCR設定:
-
頁面範圍:選擇要辨識全部、目前頁面或指定範圍。
-
自動轉正頁面:勾選此項後,Right PDF macOS會自動調整頁面方向。
-
PDF類型:選擇輸出的PDF類型。
-
MRC壓縮:設定壓縮層級。壓縮率越高,則檔案越小且品質也越差。MRC將文字元素與圖片或背景分開,並對每個元素套用最佳壓縮。
-
要辨識的語言:選擇OCR的語言。為了達到最佳的OCR準確性,請僅勾選文件所包含的語言。注意選擇多種語言時有以下限制:
-
自動語言偵測:勾選後,Right PDF macOS將會自動為每頁分配偵測到的語言。
-
按一下「確定」,開始執行。
在多個檔案執行OCR
-
選擇「進階」>「OCR」,然後選擇「多個檔案」。
-
在「OCR文字辨識」對話方塊中,瀏覽並選擇要執行OCR的檔案,然後按一下「確定」。
-
新增檔案…:將一個/多個檔案新增到清單中(使用Command 鍵可同時選取多個檔案)。
-
新增資料夾…:將資料夾中的所有檔案全部新增到清單中。
-
移除:選擇一個檔案或按住Command鍵並點擊選擇多個檔案,然後按一下「移除」即可將它們從檔案清單中移除。
-
包括目前開啟的檔案:勾選即可將所有目前開啟的PDF文件加入檔案清單中。
-
按一下「設定…」,在快顯的對話方塊中可以修改OCR設定。
-
按一下「確定」,在「輸出選項」對話方塊中,您可以指定輸出PDF文件的儲存位置和命名方式。
-
按一下「確定」。開始執行。
尋找可疑元素
執行「尋找可疑元素」功能可尋找潛在的OCR辨識錯誤並提供修正文字的選項。原始掃描的文件越清晰,出現可疑的元素也越少。請依照以下步驟尋找和取代OCR 可疑元素:
-
開啟已執行OCR的文件。OCR操作過程詳見在目前檔案執行OCR或在多個檔案執行OCR。
-
選擇「進階」>「尋找可疑元素」 並選擇以下任一選項:
-
在「尋找元素」對話方塊中按一下「尋找」即可醒目提示可疑元素。可疑元素會被標記在頁面上並且顯示在「原始文件」框格(A) 中。您可使用下列選項處理可疑元素:
注意:「尋找可疑元素」功能只有當執行OCR時選擇了「可搜尋」時才能使用。
