OCR (Optical Character Recognition,光學字元辨識)是指經由電子設備(例如:掃描器或數位相機)檢查紙本上所列印的字元,透過檢測其明暗模式以確定其形狀,然後用字元辨識方法將形狀轉譯成數位文字的過程,也就是將影像中的文字轉換成文字格式。透過 OCR 功能,可使掃描的 PDF文件中的文字變為可搜尋和編輯的狀態。


在目前檔案執行OCR

請注意在含有可轉譯文字(由電腦產生置於影像圖層之上的文字) 的頁面無法執行OCR。

  1. 在PDF文電通macOS中開啟要執行OCR的PDF文件。

  2. 選擇「進階」>「OCR」 並選擇「目前檔案」。

  3. 在「OCR文字辨識」對話方塊中,依需要調整OCR設定:

    • 頁面範圍:選擇要辨識全部、目前頁面或指定範圍。

    • 自動轉正頁面:勾選此項後,Right PDF macOS會自動調整頁面方向。

    • PDF類型:選擇輸出的PDF類型。

      • 可搜尋:將文字影像轉換為可搜尋的文字。

      • 可搜尋與編輯:將文字影像轉換為可搜尋和編輯的文字。

      • MRC PDF文件:將影像進行MRC壓縮。

      • 可搜尋的MRC:將影像進行MRC壓縮並將文字影像轉換為可搜尋的文字。

    • MRC壓縮:設定壓縮層級。壓縮率越高,則檔案越小且品質也越差。MRC將文字元素與圖片或背景分開,並對每個元素套用最佳壓縮。

    • 要辨識的語言:選擇OCR的語言。為了達到最佳的OCR準確性,請僅勾選文件所包含的語言。注意選擇多種語言時有以下限制:

      • 僅可選擇一種亞洲語言,或使用拉丁字母/斯拉夫字母的一種或多種語言。

      • 亞洲語言無法與其他語言混用。
        提示:如果您的文件超出了這些限制,請選取「自動語言偵測」核取方塊。

    • 自動語言偵測:勾選後,Right PDF macOS將會自動為每頁分配偵測到的語言。

  4. 按一下「確定」,開始執行。


在多個檔案執行OCR

  1. 選擇「進階」>「OCR」,然後選擇「多個檔案」。

  2. 在「OCR文字辨識」對話方塊中,瀏覽並選擇要執行OCR的檔案,然後按一下「確定」。

    • 新增檔案…:將一個/多個檔案新增到清單中(使用Command 鍵可同時選取多個檔案)。

    • 新增資料夾…:將資料夾中的所有檔案全部新增到清單中。

    • 移除:選擇一個檔案或按住Command鍵並點擊選擇多個檔案,然後按一下「移除」即可將它們從檔案清單中移除。

    • 包括目前開啟的檔案:勾選即可將所有目前開啟的PDF文件加入檔案清單中。

  3. 按一下「設定…」,在快顯的對話方塊中可以修改OCR設定。

  4. 按一下「確定」,在「輸出選項」對話方塊中,您可以指定輸出PDF文件的儲存位置和命名方式。

    • 目標資料夾:選擇將輸出PDF文件儲存到他們原本的資料夾,或您所指定的資料夾。

    • 命名檔案:選擇「保留原始檔案名稱」或「新增至原始檔案名稱」。若選擇後者,請在「前方插入」和「後方插入」欄位中輸入文字,輸出文件將以「插入文字+原始檔案名稱+插入文字.pdf」的形式命名;若選擇「保留原始檔案名稱」,則需要勾選「覆寫現有檔案」,輸出的PDF 文件就會覆蓋原始檔案。

  5. 按一下「確定」。開始執行。


尋找可疑元素

執行「尋找可疑元素」功能可尋找潛在的OCR辨識錯誤並提供修正文字的選項。原始掃描的文件越清晰,出現可疑的元素也越少。請依照以下步驟尋找和取代OCR 可疑元素:

  1. 開啟已執行OCR的文件。OCR操作過程詳見在目前檔案執行OCR在多個檔案執行OCR

    • 注意:只有當您將掃描文件的文字轉換為可搜尋時,才能使用「尋找可疑元素」功能。將文字轉為可搜尋並不會影響原始掃描文件的外觀。

  2. 選擇「進階」>「尋找可疑元素」 並選擇以下任一選項:

    • 第一個OCR可疑元素:辨識第一個可疑的元素。在「尋找元素」對話方塊中按一下「尋找」按鈕即可醒目提示第一個可疑元素。

    • 所有OCR可疑元素:醒目提示所有可疑的元素。按兩下可疑元素,「尋找元素」對話方塊中修正它。

  3. 在「尋找元素」對話方塊中按一下「尋找」即可醒目提示可疑元素。可疑元素會被標記在頁面上並且顯示在「原始文件」框格(A) 中。您可使用下列選項處理可疑元素:

    • 按一下「接受並尋找」(B) ,確認正確並移至下一個可疑元素。若認為辨識有誤,可在OCR文字欄位輸入正確的文字,然後按一下「接受並尋找」。

    • 按一下「尋找下一筆」(C),即可移至下一個可疑元素。

    • 若可疑元素不是一個字,請按一下「非文字」(D)。

注意:「尋找可疑元素」功能只有當執行OCR時選擇了「可搜尋」時才能使用。