OCR（光學字元辨識） - 使用手冊

PDF文電通專業版 (macOS)

第 1 章：開始使用
第2章：工作區
第3章：檢視PDF
第4章：建立PDF文件
- 在PDF文電通macOS中建立PDF文件
- PDF文件夾
- 使用MS Office中Right PDF增益集建立PDF
- 在Google Chrome、Firefox轉換網頁為PDF
第 5 章：編輯PDF
- 編輯PDF
- 在編輯模式中編輯
- 在審閱模式中編輯
第 6 章：審閱和註解
- 註解工具
- 分享和共同編輯
  - 分享PDF文件
  - 共同編輯
- 管理註解
- 測量距離、周長和面積
  - 使用測量工具
  - 編輯測量工具內容
第 7 章：文件組合
第8章：表單
第9章：安全性
第10章：儲存和匯出PDF文件
第11 章：多媒體
第12章：搜尋與索引
- 搜尋PDF
- PDF索引

OCR （Optical Character Recognition，光學字元辨識）是指經由電子設備（例如：掃描器或數位相機）檢查紙本上所列印的字元，透過檢測其明暗模式以確定其形狀，然後用字元辨識方法將形狀轉譯成數位文字的過程，也就是將影像中的文字轉換成文字格式。透過 OCR 功能，可使掃描的 PDF文件中的文字變為可搜尋和編輯的狀態。

在目前檔案執行OCR

請注意在含有可轉譯文字（由電腦產生置於影像圖層之上的文字）的頁面無法執行OCR。

在PDF文電通macOS中開啟要執行OCR的PDF文件。
選擇「進階」>「OCR」並選擇「目前檔案」。
在「OCR文字辨識」對話方塊中，依需要調整OCR設定：
- 頁面範圍：選擇要辨識全部、目前頁面或指定範圍。
- 自動轉正頁面：勾選此項後，Right PDF macOS會自動調整頁面方向。
- PDF類型：選擇輸出的PDF類型。
  - 可搜尋：將文字影像轉換為可搜尋的文字。
  - 可搜尋與編輯：將文字影像轉換為可搜尋和編輯的文字。
  - MRC PDF文件：將影像進行MRC壓縮。
  - 可搜尋的MRC：將影像進行MRC壓縮並將文字影像轉換為可搜尋的文字。
- MRC壓縮：設定壓縮層級。壓縮率越高，則檔案越小且品質也越差。MRC將文字元素與圖片或背景分開，並對每個元素套用最佳壓縮。
- 要辨識的語言：選擇OCR的語言。為了達到最佳的OCR準確性，請僅勾選文件所包含的語言。注意選擇多種語言時有以下限制：
  - 僅可選擇一種亞洲語言，或使用拉丁字母/斯拉夫字母的一種或多種語言。
  - 亞洲語言無法與其他語言混用。
    提示：如果您的文件超出了這些限制，請選取「自動語言偵測」核取方塊。
- 自動語言偵測：勾選後，Right PDF macOS將會自動為每頁分配偵測到的語言。
按一下「確定」，開始執行。

在多個檔案執行OCR

選擇「進階」>「OCR」，然後選擇「多個檔案」。
在「OCR文字辨識」對話方塊中，瀏覽並選擇要執行OCR的檔案，然後按一下「確定」。
- 新增檔案…：將一個/多個檔案新增到清單中（使用Command 鍵可同時選取多個檔案）。
- 新增資料夾…：將資料夾中的所有檔案全部新增到清單中。
- 移除：選擇一個檔案或按住Command鍵並點擊選擇多個檔案，然後按一下「移除」即可將它們從檔案清單中移除。
- 包括目前開啟的檔案：勾選即可將所有目前開啟的PDF文件加入檔案清單中。
按一下「設定…」，在快顯的對話方塊中可以修改OCR設定。
按一下「確定」，在「輸出選項」對話方塊中，您可以指定輸出PDF文件的儲存位置和命名方式。
- 目標資料夾：選擇將輸出PDF文件儲存到他們原本的資料夾，或您所指定的資料夾。
- 命名檔案：選擇「保留原始檔案名稱」或「新增至原始檔案名稱」。若選擇後者，請在「前方插入」和「後方插入」欄位中輸入文字，輸出文件將以「插入文字＋原始檔案名稱＋插入文字.pdf」的形式命名；若選擇「保留原始檔案名稱」，則需要勾選「覆寫現有檔案」，輸出的PDF 文件就會覆蓋原始檔案。
按一下「確定」。開始執行。

尋找可疑元素

執行「尋找可疑元素」功能可尋找潛在的OCR辨識錯誤並提供修正文字的選項。原始掃描的文件越清晰，出現可疑的元素也越少。請依照以下步驟尋找和取代OCR 可疑元素：

開啟已執行OCR的文件。OCR操作過程詳見在目前檔案執行OCR或在多個檔案執行OCR。
- 注意：只有當您將掃描文件的文字轉換為可搜尋時，才能使用「尋找可疑元素」功能。將文字轉為可搜尋並不會影響原始掃描文件的外觀。
選擇「進階」>「尋找可疑元素」並選擇以下任一選項：
- 第一個OCR可疑元素：辨識第一個可疑的元素。在「尋找元素」對話方塊中按一下「尋找」按鈕即可醒目提示第一個可疑元素。
- 所有OCR可疑元素：醒目提示所有可疑的元素。按兩下可疑元素，「尋找元素」對話方塊中修正它。
在「尋找元素」對話方塊中按一下「尋找」即可醒目提示可疑元素。可疑元素會被標記在頁面上並且顯示在「原始文件」框格（A）中。您可使用下列選項處理可疑元素：
- 按一下「接受並尋找」（B），確認正確並移至下一個可疑元素。若認為辨識有誤，可在OCR文字欄位輸入正確的文字，然後按一下「接受並尋找」。
- 按一下「尋找下一筆」（C），即可移至下一個可疑元素。
- 若可疑元素不是一個字，請按一下「非文字」（D）。

注意：「尋找可疑元素」功能只有當執行OCR時選擇了「可搜尋」時才能使用。

下一篇 : 從檔案建立PDF文件

相關資源