- 公開日:
- 更新日:
PDFを文字起こししてテキスト化する方法
本記事では、PDFを文字起こししてテキスト化する方法について解説しています。
無料のオンラインサービスやAdobe Acrobat、スマホのアプリなど、PDFから簡単にテキストを抽出できる様々なツールをご紹介していますので、お役立てください。
PDFファイルを文字起こししてテキスト化する方法
パソコンやスマホで、PDFを文字起こししてテキスト化する方法について解説します。
無料のオンライン変換サイトを使用する
フリーソフトを使用したテキスト抽出方法については、以下の記事「PDFから文字(テキスト)を抽出する方法」のセクションをご参照ください。
WindowsとMacの両方で使用することができます。
Googleドライブを使用する
Googleドライブを使用して、PDFからテキストを抽出する方法をご紹介します。
Google ドライブ(https://drive.google.com/)にアクセスし、【新規】ボタンを押します。
出てきたメニューから、【ファイルのアップロード】を選択します。
「開く」ダイアログボックスが表示されました。①【任意のファイル】を選択し、②【開く】ボタンを押します。
①【アップロードしたファイル】を右クリックします。②【アプリで開く】、③【Google ドキュメント】の順に選択します。
新規タブでGoogle ドキュメントが開きます。テキストの抽出が完了しました。
スマホ(iPhone)でアプリを使用する
「CamScanner」というアプリを使用したテキストの抽出方法をご紹介します。
CamScannerでは、手書きのメモや領収書などの大切な書類を高速でスキャンして保存でき、画像やPDFからもテキストを簡単に抽出することができます。
アプリをインストールする
App Storeより、CamScannerのアプリをインストールします。
無料会員登録をする
CamScannerは、無料会員登録をすることで、1日4回までOCR機能を使用することができます。
以下、会員登録の方法を解説いたします。
CamScannerのアプリを開きます。
画面右下の【私】を選択します。
【ログイン/登録】を押します。
①『メールアドレス』を入力し、②【利用規約及びプライバシーポリシーに同意】の項目にチェックマークを入れます。
③【次のステップ】ボタンを押します。
①『パスワード』を入力し、②【次のステップ】ボタンを押します。
入力したメールアドレスに、確認メールが届きました。
【メールアドレスを確認してください】ボタンを押します。
メールアドレスの確認が完了しました。
CamScannerのアプリに戻ると、会員登録が完了しています。
PDFからテキストを抽出する
PDFからテキストを抽出する方法について解説します。
今回は、「ファイル」アプリに保存されたPDFのテキストを抽出します。
【ファイル】アプリを開きます。
【任意のPDF】を長押しします。
出てきたメニューから、【共有】を選択します。
①【「アプリのメニュー」を「横にスクロール」】し、②【CamScanner】のアプリを選択します。
【保存】ボタンを押します。
【保存】ボタンを押します。
PDFがアップロードされました。
【テキストを抽出したいページ】を選択します。
※無料会員はテキストの抽出可能回数に上限があるため、上限を超えた数のデータから抽出を行いたい場合は、別途料金を支払う必要があります。
【テキスト】を選択します。
【認識】ボタンを押します。
【任意の文字認識範囲(例:フルページを認識)】を選択します。
画面右下の【エクスポート】を選択します。
【Txtファイルとしてエクスポート】を選択します。
【任意の共有方法(例:メール)】を選択します。
①『送信先のメールアドレス』を入力し、②【↑】ボタンを押します。
入力したメールアドレスにTxtファイルが届きました。
【添付ファイル】をダブルクリックして開きます。
テキストの抽出が完了しました。
画面右上の「共有」ボタンでファイルの保存ができます。
スキャンした画像のPDFからテキストを抽出する方法
スキャンした画像のPDFからテキストを抽出する方法について解説します。
Adobe AcrobatのOCR機能を使用する
OCR(Optical Character Recognition)とは、画像の中にある文字を認識して、編集可能なテキストに変換する技術のことです。
今回はAdobe Acrobat Pro DCのOCR機能を使用したテキストの抽出方法をご紹介します。
※無料版のAdobe Acrobat Reader DCでは、テキストの抽出は行えませんのでご注意ください。
有料版Adobe Acrobat Standard/Pro DCをまだPCにインストールしていない方は、以下のリンクから購入ができます。
【Adobe公式】Acrobat Standard 純正PDF編集ソフト(最新)| 12ヵ月 | オンラインコード版 | Win/Mac/iPad/スマホアプリ/ブラウザ対応 | PDF 変換 アドビ
【Adobe公式】Acrobat Pro 純正PDF編集ソフト(最新)| 12ヵ月 | オンラインコード版 | Win/Mac/iPad/スマホアプリ/ブラウザ対応 | PDF 変換 アドビ
スキャンした画像のPDFを、Adobe Acrobat Pro DCで開きます。
画面右側のメニューから、【PDF を編集】を選択します。
文字の認識が始まります。
PDFが編集可能なテキストと画像に変換されました。
【抽出したいテキスト】を選択します。
選択したテキスト上で「右クリック」し、出てきたメニューから【コピー】を選択します。
【文書作成ソフト(例:メモ帳)】を起動します。
空白を「右クリック」し、出てきたメニューから【貼り付け】を選択します。
テキストの抽出が完了しました。
PDFがテキスト化できない場合
Adobe Acrobat Pro DCを使用したテキストの抽出がうまくいかない場合、以下の方法でスキャン画像の補正をお試しください。
Adobe Acrobat Pro DCでスキャンした画像のPDFを開きます。
画面右側のメニューから、【スキャンと OCR】を選択します。
①【補正】、②【スキャンした文書】の順に選択します。
【補正】ボタンを押します。
①【テキストの認識】、②【このファイル内】の順に選択します。
【テキスト認識】ボタンを押します。
テキストが抽出可能な状態になりました。