OCR (光学文字認識) - ユーザーマニュアル

Right PDF Pro (Windows)

Right PDF Pro へようこそ
- このユーザーマニュアルについて
第 1 章はじめに
第 2 章ワークスペース
- ワークスペースの基本
- ユーザーインターフェイスのカスタマイズ
  - クイックアクセスツールバー
  - リボンとサイドバーナビゲーションウィンドウのカスタマイズ
- PDF ページのナビゲーション
第 3 章 PDF の表示
第 4 章 PDF の作成
第 5 章 PDF の編集
第 6 章レビューとコメント
第７章ドキュメントアセンブル
- PDF ページの操作、分割およびページ番号の付け直し
- ページサムネイル
- すべての PDF の結合
- しおりを使用してナビゲート
- PDF タグ
- PDF レイヤー
- PDF へのヘッダー、フッターおよびベイツナンバーの追加
- PDF への透かしの追加
- 面付け
- PDF 内のリンク
- パッチ処理
第 8 章フォーム
第 9 章セキュリティ
- PDF のセキュリティ方法の選択
- パスワードによる PDF の保護
- 証明書による PDF の保護
- 暗号化設定の削除
- セキュリティスキーム
- デジタル ID の管理
- 信頼できる ID の管理
- 証明書署名/デジタル署名
- デジタル署名の検証
- PDF のセキュア配信
- 電子封筒
- Microsoft Azure Information Protection (AIP)
- PDF内の機密情報の削除
第 10 章 PDF の保存とエクスポート
- PDF の保存とエクスポート
- PDF の保存
- Right PDF Editor で PDF を MS Office、イメージ、およびテキストにエクスポート
- Right PDF Converter で PDF を MS Office、イメージ、およびテキストに変換
- PDF コンテンツの再利用
- PDF のファイルサイズの縮小
- ドキュメントのフラット化
第 11 章マルチメディアと3D
- マルチメディアの環境設定
- PDF へのマルチメディアの追加
- 再生領域の編集
- 代替レンディションの作成
- マルチメディアプロパティの設定
- 3D モデルの追加とインタラクティブな操作方法
第 12 章検索とインデックスの作成
- PDF の検索
- PDF のインデックスの作成
  - PDF インデックスの作成と管理
  - フルテキストインデックスの作成

紙の文書をスキャンして電子形式でコンピューターにアーカイブすると、ドキュメントを整理しやすくなり、ストレージスペースを大幅に節約できます。ただし、特定の単語や語句に関連する情報を見つけたい場合は、すべてのファイルを開いてドキュメントを読む必要があります。OCR (光学文字認識) 機能を使用すると、スキャンしたドキュメントのテキストが検索可能になり、コンテンツを簡単に検索または編集できます。

OCR は、印刷されたテキストの画像を機械読み取り、検索、編集可能なテキストに変換します。その後テキストマークアップツールを使用してコメントを付けたり、ドキュメント内のテキストに変更を加えたりすることができます。

単一ファイルで OCR を実行

OCR を実行して、スキャンしたドキュメントのテキストを検索および編集可能に変換し、レビューおよびコメントツールでコメントを追加またはテキストをマークアップできます。OCR は、レンダリング可能なテキスト (画像レイヤーの上に配置されたコンピューター生成テキスト) を含むページでは実行できないことに注意してください。

現在のファイルで OCR を実行

Right PDF Editor で OCR を実行する PDF を開きます。
[アドバンス] > [テキストの認識] > [OCR]を選択し、オプションから [現在のファイル] を選択します。
[OCR テキスト認識] ダイアログボックスで、必要に応じて OCR 設定を調整します。
- ページ範囲 すべてのページ、現在のページ、または選択したページを認識するように選択します。
- ページ傾きの自動補正 このチェックボックスをオンにすると、Right PDF Editor はページのゆがみを自動的に調整します。
- PDF の種類 作成する PDF の種類を指定します。
  - 検索可能 イメージテキストを検索可能にします。
  - 検索および編集可能 イメージテキストを検索および編集可能なテキストに変換します。
  - MRC PDF ドキュメント MRC を使用して画像を圧縮します。
  - 検索可能な MRC MRC を使用して画像を圧縮し、テキストを検索可能にします。
- MRC 圧縮スライドバーを使用して圧縮レベルを設定します。圧縮率が高いほど、ファイルが小さくなり、品質が低下します。MRC は、テキスト要素を画像や背景から分離し、各要素に最適な圧縮を適用します。
- 認識する言語 文字を認識するために使用する OCR エンジンの言語を選択します。OCR の精度を最大限に高めるには、ドキュメントに含まれる言語のみを選択します。複数の言語を選択する場合は、次の制限に注意してください。
  - アジア言語を 1 つだけ選択するか、ラテン文字またはキリル文字を使用する言語を 1 つ以上選択します。
  - アジア言語を他の言語と混在させることはできません。
    注意: ドキュメントがこれらの制限を超える場合は、[言語の自動検出] チェックボックスをオンにします。
- 言語の自動検出 オンにすると、 Right PDF Editor は各ページに適した言語を検出して適用します。

[OK] をクリックします。

複数のファイルで OCR を実行

[アドバンス] > [テキストの認識] > [OCR]を選択し、オプションから [複数のファイル] を選択します。
[OCR テキスト認識] ダイアログボックスで、OCR を実行するファイルを参照して選択し、[OK] をクリックします。
- ファイルを追加... Ctrl キーを押しながらクリックして複数ファイルを選択し、[開く] をクリックします。選択したファイルがファイルリストに追加されます。
- フォルダーを追加... フォルダーを選択して [OK] をクリックします。選択したフォルダー内のすべてのファイルがファイルリストに追加されます。
- 削除 1つのファイルを選択するか、Ctrl キーを押しながらクリックして複数のファイルを選択し、[削除] をクリックします。選択したファイルはファイルリストから削除されます。
- 現在開いているファイルを含める オンにすると、現在開いているすべての PDF がファイルリストに追加されます。
[出力オプション] ダイアログボックスで、出力ファイルのターゲットフォルダーとファイル名の設定を指定し、[OK] をクリックします。
- ターゲットフォルダー 出力 PDF を元と同じフォルダーに保存するか、指定した別のフォルダーに保存するかを選択します。
- ファイル名の指定 元のファイル名で保存するか、元のファイル名に接頭辞/接尾辞を挿入するかを選択します。元のファイル名に接頭辞/接尾辞を挿入するには、[元のファイル名に追加] を選択し、[前に挿入] と [後に挿入] ボックスにテキストを入力して、出力ファイルに「挿入されたテキスト＋元のファイル名＋挿入されたテキスト.pdf」の形式で名前が付けられるようにします。[元のファイル名を維持] を選択した場合、[既存のファイルを上書き] をオンにして、出力 PDF ファイルが元のファイルを上書きするようにする必要があります。
[OCR テキスト認識－設定] ダイアログボックスで、次の設定を調整します。
- ページ傾きの自動補正 このチェックボックスをオンにすると、Right PDF Editor はページのゆがみを自動的に調整します。
- PDF の種類 作成する PDF の種類を指定します。
  - 検索可能 イメージテキストを検索可能にします。
  - 検索および編集可能 イメージテキストを検索および編集可能なテキストに変換します。
  - MRC PDF ドキュメント MRC を使用して画像を圧縮します。
  - 検索可能な MRC MRC を使用して画像を圧縮し、テキストを検索可能にします。
- MRC 圧縮スライドバーを使用して圧縮レベルを設定します。圧縮率が高いほど、ファイルが小さくなり、品質が低下します。MRC は、テキスト要素を画像や背景から分離し、各要素に最適な圧縮を適用します。
- 認識する言語 文字を認識するために使用する OCR エンジンの言語を選択します。OCR の精度を最大限に高めるには、ドキュメントに含まれる言語のみを選択します。複数の言語を選択する場合は、次の制限に注意してください。
  - アジア言語を 1 つだけ選択するか、ラテン文字またはキリル文字を使用する言語を 1 つ以上選択します。
  - アジア言語を他の言語と混在させることはできません
    注意: ドキュメントがこれらの制限を超える場合は、[言語の自動検出] チェックボックスをオンにします。
- 言語の自動検出 オンにすると、 Right PDF Editor は各ページに適した言語を検出して適用します。
[OK] をクリックします。ページにレンダリング可能なテキストが含まれている場合、OCR はコンピューターで生成されたテキストを認識しないことを示すメッセージが表示されます。

不明テキストの修正

[不明テキストを検索] 機能は、潜在できな認識ミスを見つけて、テキストを修正するオプションを提供します。スキャンしたドキュメントのテキストを検索可能にした後に使用できます。したがって、スキャンされた元のドキュメントのテキストが鮮明であるほど、発生する不明テキストは少なくなります。

不明テキストの検索および置換

OCR を実行するスキャンした PDF を開きます。必ずコピーを作成して、コピーのみで OCR を実行してください。
[アドバンス] > [テキストの認識] > [OCR] を選択し、必要に応じてメニューから [現在のファイル] または [複数のファイル] を選択します。次に、テキストを検索可能にするか、検索および編集可能にするかを指定し、[OK] をクリックします。詳細については、現在のファイルで OCR を実行を参照してください。
注意: 不明テキストを検索機能は、スキャンしたドキュメントのテキストを検索可能に変換した場合にのみ使用できます。テキストを検索可能にしながら、元のスキャンしたドキュメントの外観を維持します。
これでドキュメントのテキストが検索可能になり、[不明テキストを検索]を使用して OCR エンジンが正しく認識しなかったものがあるかどうか確認し、修正を行うことができます。[アドバンス] > [テキストの認識] > [不明テキストを検索 ] を選択し、必要に応じて次のいずれかを選択します。

最初の OCR の不明テキスト 最初の不明テキストを検索して表示します。[エレメントの検索] ダイアログボックスで、[検索] ボタンをクリックすると、[エレメントの検索] ダイアログボックスに最初の不明テキストが表示されます。
すべての OCR の不明テキスト すべての不明テキストを検索して表示します。ページ上のすべての不明テキストの周囲にボックスが表示されます。不明テキストをダブルクリックすると、[エレメントの検索] ダイアログボックスに不明テキストが表示されます。

[エレメントの検索] ダイアログボックスには元の文書のテキストと、OCR によるテキストの両方が表示されます。[OCR テキスト] ボックスのテキストと、[元の文書] ボックス (Ａ) のテキストを比較します。次のオプションを使用して不明テキストを処理します。

[確定して検索] (Ｂ) をクリックすると、正しい認識と処理して次の不明テキストに移動します。OCR エンジンの認識結果が正しくない場合は、[OCR テキスト] ボックスに新しいテキストを入力し、[確定して検索] をクリックして修正されたテキストに置き換えます。
[次を検索] (Ｃ) をクリックすると、次の不明テキストに移動します。
不明テキストが誤ってテキストとして認識されている場合は、[テキストではありません] (Ｄ)をクリックします。

次へ : メニューコマンドを使用したファイルの PDF への変換

その他のリソース