【文字おこし】画像やPDFにふくまれる文字をテキスト化する方法

2022年3月29日

ヤゴコロ研究所に訪問いただきありがとうございます。東大生ブロガーの西片(@nskt_yagokoro)です

今回は画像やPDFにふくまれる文字をテキスト化する方法とオススメのソフト・アプリを紹介していきます

クリックできる目次

テキスト化するにはOCRを使おう！

画像やPDFファイルに含まれるテキストをコピペしたい場合には、OCRという機能を使うといいでしょう

OCRというのは、PDFや画像ファイルを直接読み取ってテキスト化する行為のこと。

簡単に言うと、PDFやら画像やらに含まれる文字を、Wordで打ち込んだ文字みたいに編集できるようにする処理のことです。

OCR処理をすることでスキャン後の画像ファイル・PDFファイルに含まれる文字をコピペ・編集できるようになります。

使用しているOCRソフトによっては、読み取ったテキストを全文検索できるものもあり、非常に便利です

ただし、日本語の文章をOCR処理するのは難しいらしく、使用するアプリ、ソフトによっては上手くテキスト化できないことも多々あります

本記事では本当に使えるOCRソフト・アプリを紹介していきます

テキスト化に使えるOCRソフト・アプリ

Adobe Scan

Adobe Scan: OCR 付スキャナーアプリ

Adobe Inc.無料posted withアプリーチ

スマホで気軽にテキスト化したいなら「Adobe Scan」がオススメです

Adobe Scanは「Illustrator」や「Photoshop」といったソフトで有名なAdobeが開発したアプリ。

もともとスマホカメラをスキャナーとして使うためのアプリですが、OCRの機能も備えています

専用ソフトではないので機能は乏しいですが、試しに使ってみたい方にはおすすめです

ソフト名	Adobe Scan
料金	無料
対応デバイス	Android、iPhone、iPad
入力ファイル形式	PDF JPEG など
出力ファイル形式	PDF

読み取り革命16

読み取り革命16は、翻訳機「ポケトーク」でお馴染みのソースネクストが販売する有料のOCRソフト。

パナソニック製の日本語用OCRエンジンを搭載していて、低品質な画像からでも精度良くOCR処理できるのが特徴です。

普通の文字だけでなく、取り消し線で消された文字やドロップキャップ、手書きの英数字も読み取り可能となっています

一度に処理できるページ数は最大999ページ。大量のPDFを一気にテキスト化することだって可能です

「本格的なOCRソフトが使いたい」「複数のファイルを一括で読み取りたい」という場合には、読み取り革命16を使うといいでしょう

余白除去や翻訳、クラウド連携などに対応しているのも地味に便利です。

ソフト名	読み取り革命16
料金	12,980円(ダウンロード版)
対応言語	日本語・英語
認識精度	優秀
対応デバイス	Windows
入力ファイル形式	PDF JPEG TIFF BMP GIF など
出力ファイル形式	PDF DOC / DOCX (Word) XLS / XLSX (Excel) PPT / PPTX (PowerPoint) TXT HTML JPEG/BMP など
連携可能なクラウドサービス	Dropbox Onedrive Google ドライブ
入力ページ数(一括)	最大999ページ
詳細	ソースネクスト公式サイト

ダウンロード版の購入はコチラ→ソースネクスト公式サイト

読み取り革命16

created by Rinker

本格読取5

「本格読取5」は、読み取り革命16の簡易版のようなソフト。読み取り革命16ほど多機能ではありませんが、3分の1程度の料金で購入可能です

簡易版とはいえ、読み取り革命16と同じパナソニック製の日本語用OCRエンジンを搭載しているので、読み取り精度に関しては申し分ありません

ただし、PDFやGIFの入力に対応していなかったり、クラウド機能がイマイチだったりもするので注意してください

ソフト名	本格読取 5
料金	3,828円(ダウンロード版)
対応言語	日本語・英語
入力ファイル形式	JPEG TIFF PNG など ※PDFに非対応
出力ファイル形式	DOC / DOCX (Word) XLS / XLSX (Excel) TXT
連携可能なクラウドサービス	Evernote
入力ページ数(一括)	最大999ページ
詳細	ソースネクスト公式サイト

ダウンロード版の購入はコチラ→ソースネクスト公式サイト

ソースネクスト　SOURCENEXT 本格読取 5

Google Drive

Googleのクラウドストレージサービスである「Google Drive」でもOCR機能を使えます

「有料ソフトは絶対に買いたくない！」という場合にはGoogleドライブを使うのもアリでしょう

使い方は非常に簡単です。

まずは、Googleドライブ(アプリ版ではなくブラウザ版)にテキスト化したい画像をアップロードしてください

アップロードした画像を開くと、上のほうに「アプリで開く」というボタンがあるのでクリックします

あとは「Googleドキュメント」を選ぶと、自動で読み取りが始まり、テキスト化された文書が表示されるはずです

無料(15GBまで)で簡単に使えるのは魅力的ですが、1つ1つ手作業で操作する必要があるので、複数のファイルを読み取る場合には向きません

また、Googleドライブにアップロードする必要があるので、社外秘のファイルのような機密性の高いファイルでは使わないほうがいいと思います

ソフト名	Googleドライブ
料金	無料(15GBまで)
対応言語	日本語英語など
入力ファイル形式	JPEG PNG など
出力ファイル形式	Googleドキュメント形式

結局どれを使うべき？メリット・デメリットを比較

本記事で紹介したソフト・アプリについてメリット・デメリットをまとめたので、ぜひ参考にしてください(下の表は横スクロール可能です)

	メリット	デメリット
Adobe Scan	・無料で使える	・大量のファイルを一括で読み取ることはできない・Adobeのアカウントが必須
読み取り革命＆本格読取 (公式サイト)	・高速・読み取り精度が高い・一括で読み取れる・オフラインで使える・アップロードする必要がない	・有料・Windows限定
Google Drive	・無料で使える(15GBまで) ・パソコンでもスマホでも使える (ブラウザ版)	・オンラインでしか使えない・機密性の高いファイルには使えない・ドライブの容量を消費する・大量のファイルを一括で読み取ることはできない