您可掃描一疊疊的紙本文件為電子格式並儲存在電腦中,使文件管理更加有效率外,還能節省可觀的儲存空間。然而,假如您要尋找與某個特定單字或片語相關的資訊,就必須遍讀所有文件才能搜尋。有了OCR(光學字元辨識)功能,掃描版文件上的文字都可以變為可搜尋的狀態,讓您可輕易地搜尋或編輯內容。

OCR將紙上文字的影像轉換成為機器可判讀、搜尋和編輯的文字。之後,您可使用文字標記工具來新增註解和變更文字。


在目前檔案執行OCR

您可執行OCR將掃描的文件變成可搜尋和可編輯的狀態,並以審閱和註解工具來註解或標記。請注意在含有可轉譯文字(由電腦產生置於影像圖層之上的文字) 的頁面不能執行OCR。

  1. 在Right PDF Editor中開啟您要執行OCR的PDF文件。

  2. 選擇進階文字辨識OCR 並選擇目前檔案

  3. 在「OCR 文字辨識」對話方塊中,依您喜好調整OCR設定:

    • 頁面範圍:選擇要辨識全部、目前頁面或頁面範圍。

    • 自動轉正頁面:勾選後,Right PDF Editor 會自動調整頁面方向。

    • PDF 類型:選擇輸出 PDF 類型。

      • 可搜尋:將文字影像轉換為可搜尋的文字。

      • 可搜尋與編輯:將文字影像轉換為可搜尋且可編輯的文字。

      • MRC PDF 文件:將影像進行 MRC 壓縮。

      • 可搜尋的 MRC:將影像進行 MRC 壓縮,且將文字影像轉換為可搜尋的文字。

    • MRC 壓縮:設定壓縮比例。壓縮越高,檔案越小,品質越低。MRC 可將文字、影像或背景分開,針對各個元素套用最佳壓縮。

    • 要辨識的語言:選擇 OCR 語言。為維持準確性,請只勾選文件所包含的語言。選擇多種語言時請注意以下限制:

      • 僅選擇一種亞洲語言或使用拉丁字母或斯拉夫字母的一種或多種語言。

      • 亞洲語言不能與其他語言混用。
        提示:如果您的文件超出這些限制,請勾選「自動語言偵測」。

    • 自動語言偵測:勾選後,Right PDF Editor 會自動為每頁指定所偵測到的語言。

  4. 按一下「確定」,開始執行。


在多個檔案執行OCR

  1. 選擇進階>文字辨識>OCR ,然後選擇多個檔案

  2. 在「OCR 文字辨識」對話方塊中,瀏覽並選擇要執行OCR的檔案,然後按一下確定

    • 新增檔案:按住Ctrl鍵並點擊即可選擇多個檔案,然後再按一下「開啟舊檔」即可將它們加入檔案清單。

    • 新增資料夾:選擇一個資料夾,然後按一下「確定」以將選擇的資料夾中所有的檔案加入檔案清單。

    • 移除:選擇一個檔案或按住Ctrl鍵並點擊選擇多個檔案,然後按一下移除即可將它們從檔案清單中移除。

    • 包括已開啟的檔案:勾選即可將所有目前開啟的PDF檔案加入檔案清單中。

  3. 輸出選項對話方塊中,指定您要儲存的位置並命名輸出PDF檔案的方式,然後按一下確定

    • 目標資料夾:選擇是否要將輸出PDF檔案儲存至它們的原始資料夾,或另外儲存至您所指定的資料夾。

    • 命名檔案:選擇以原始檔案名稱儲存或新增字首/字尾到原始檔案名稱。若要插入額外的字元至原始檔案名稱,勾選新增到原始檔案名稱,然後在前方插入後方插入框格中輸入文字,如此一來輸出檔案就會以這種形式命名(插入文字+原始檔案名稱+插入文字.pdf)。若您選擇保留原始檔案名稱,您必需要勾選覆寫現有的檔案才能確保輸出PDF檔案會覆寫原始檔案。

  4. 按一下「確定」,在「OCR 文字辨識 - 設定」對話方塊中調整以下設定:

    • 自動轉正頁面:勾選後,Right PDF Editor 會自動調整頁面方向。

    • PDF 類型:選擇輸出 PDF 類型。

      • 可搜尋:將文字影像轉換為可搜尋的文字。

      • 可搜尋與編輯:將文字影像轉換為可搜尋且可編輯的文字。

      • MRC PDF 文件:將影像進行 MRC 壓縮。

      • 可搜尋的 MRC:將影像進行 MRC 壓縮,且將文字影像轉換為可搜尋的文字。

    • MRC 壓縮:設定壓縮比例。壓縮越高,檔案越小,品質越低。MRC 可將文字、影像或背景分開,針對各個元素套用最佳壓縮。

    • 要辨識的語言:選擇 OCR 語言。為維持準確性,請只勾選文件所包含的語言。選擇多種語言時請注意以下限制:

      • 僅選擇一種亞洲語言或使用拉丁字母或斯拉夫字母的一種或多種語言。

      • 亞洲語言不能與其他語言混用。
        提示:如果您的文件超出這些限制,請勾選「自動語言偵測」。

    • 自動語言偵測:勾選後,Right PDF Editor 會自動為每頁指定所偵測到的語言。

  5. 按一下「確定」,開始執行。若頁面含有可轉譯的文字,將會提示您OCR無法辨識由電腦產生的文字。


修正OCR可疑元素

「尋找可疑元素」功能會尋找潛在的辨識錯誤並提供您修正文字的選項。在將掃描的文件變為可搜尋後您就可以使用它。原始掃描的文件越清晰,所出現的可疑元素也越少。

 

尋找和取代OCR可疑元素

  1. 開啟一個將要執行OCR的掃描的PDF文件。請確定您已製作備份並且會在備份上執行OCR。

  2. 選擇進階文字辨識OCR 後,依據需要從選單中選擇目前檔案多個檔案。然後決定是否要使文字變為可被搜尋或可被搜尋與編輯。若需更多資訊,請見在目前檔案執行OCR
    注意:尋找可疑元素的功能只有當您將所掃描文件的文字變為可被搜尋時才可使用。使文字變為可被搜尋時,仍可保持原始掃描文件的外觀。

  3. 現在文件的文字已可被搜尋。您可開始使用尋找可疑元素來檢視是否有OCR引擎無法正確識別的內容,並做出必要的修正。選擇進階文字辨識尋找可疑元素 並依據您實際需求選擇以下任一選項:

    • 第一個OCR可疑元素:識別第一個可疑的字符以便由您確認。在尋找元件對話方塊中按一下尋找按鈕即可醒目提示第一個可疑元素。

    • 所有OCR可疑元素:醒目提示所有可疑的字符。您可按兩下可疑元素,然後在所顯示的尋找元件對話方塊中修正它。

  1. 尋找元件對話方塊中按一下尋找即可醒目提示可疑元素。可疑元素會被標記在頁面上並且顯示在原始文件框格 (A) 中。然後,您可使用下列選項處理可疑元素:

    • 按一下接受並尋找 (B) 以確認解譯正確,並移至下一個可疑元素。若認為OCR引擎所識別並顯示在OCR文字欄位的字元是錯誤的,您可輸入正確的字母,然後按一下接受並尋找即可以修正的文字取代它。

    • 按一下尋找下一筆 (C) ,即可移至下一個可疑元素。

    • 若可疑元素不是一個字,請按一下非文字 (D)。