理系東大生が運営する人生攻略ブログ
※本ページには広告を含みます

【文字おこし】画像やPDFにふくまれる文字をテキスト化する方法

このブログの管理人
管理人:西片(にしかた)
  • 東大(工学系)に所属している学生
  • PC、スマホ、ネット全般に詳しい(つもり)
  • 応用情報技術者などのIT系国家資格を複数所有
  • 開発協力→努力家のための新SNS「yalkey
  • 本ブログの更新情報発信してます!
    Misskey / Mastodon / Twitter

ヤゴコロ研究所に訪問いただきありがとうございます。東大生ブロガーの西片(@nskt_yagokoro)です

今回は画像やPDFにふくまれる文字をテキスト化する方法とオススメのソフト・アプリを紹介していきます

クリックできる目次

テキスト化するにはOCRを使おう!

画像やPDFファイルに含まれるテキストをコピペしたい場合には、OCRという機能を使うといいでしょう

OCRというのは、PDFや画像ファイルを直接読み取ってテキスト化する行為のこと。

簡単に言うと、PDFやら画像やらに含まれる文字を、Wordで打ち込んだ文字みたいに編集できるようにする処理のことです。

OCR処理をすることでスキャン後の画像ファイル・PDFファイルに含まれる文字をコピペ・編集できるようになります。

使用しているOCRソフトによっては、読み取ったテキストを全文検索できるものもあり、非常に便利です

ただし、日本語の文章をOCR処理するのは難しいらしく、使用するアプリ、ソフトによっては上手くテキスト化できないことも多々あります

本記事では本当に使えるOCRソフト・アプリを紹介していきます

テキスト化に使えるOCRソフト・アプリ

Adobe Scan

Adobe Scan: OCR 付 スキャナーアプリ

Adobe Scan: OCR 付 スキャナーアプリ

Adobe Inc.無料posted withアプリーチ

スマホで気軽にテキスト化したいなら「Adobe Scan」がオススメです

Adobe Scanは「Illustrator」や「Photoshop」といったソフトで有名なAdobeが開発したアプリ。

もともとスマホカメラをスキャナーとして使うためのアプリですが、OCRの機能も備えています

専用ソフトではないので機能は乏しいですが、試しに使ってみたい方にはおすすめです

ソフト名Adobe Scan
料金無料
対応デバイスAndroid、iPhone、iPad
入力ファイル形式PDF
JPEG
など
出力ファイル形式PDF

読み取り革命16

読み取り革命16は、翻訳機「ポケトーク」でお馴染みのソースネクストが販売する有料のOCRソフト。

パナソニック製の日本語用OCRエンジンを搭載していて、低品質な画像からでも精度良くOCR処理できるのが特徴です。

普通の文字だけでなく、取り消し線で消された文字やドロップキャップ、手書きの英数字も読み取り可能となっています

一度に処理できるページ数は最大999ページ。大量のPDFを一気にテキスト化することだって可能です

「本格的なOCRソフトが使いたい」「複数のファイルを一括で読み取りたい」という場合には、読み取り革命16を使うといいでしょう

余白除去や翻訳、クラウド連携などに対応しているのも地味に便利です。

ソフト名読み取り革命16
料金12,980円(ダウンロード版)
対応言語日本語・英語
認識精度優秀
対応デバイスWindows
入力ファイル形式PDF
JPEG
TIFF
BMP
GIF など
出力ファイル形式PDF
DOC / DOCX (Word)
XLS / XLSX (Excel)
PPT / PPTX (PowerPoint)
TXT
HTML
JPEG/BMP など
連携可能なクラウドサービスDropbox
Onedrive
Google ドライブ
入力ページ数(一括)最大999ページ
詳細ソースネクスト公式サイト

ダウンロード版の購入はコチラ→ソースネクスト公式サイト

読み取り革命16
created by Rinker

本格読取5

「本格読取5」は、読み取り革命16の簡易版のようなソフト。読み取り革命16ほど多機能ではありませんが、3分の1程度の料金で購入可能です

簡易版とはいえ、読み取り革命16と同じパナソニック製の日本語用OCRエンジンを搭載しているので、読み取り精度に関しては申し分ありません

ただし、PDFやGIFの入力に対応していなかったり、クラウド機能がイマイチだったりもするので注意してください

ソフト名本格読取 5
料金3,828円(ダウンロード版)
対応言語日本語・英語
入力ファイル形式JPEG
TIFF
PNG など
※PDFに非対応
出力ファイル形式DOC / DOCX (Word)
XLS / XLSX (Excel)
TXT
連携可能なクラウドサービスEvernote
入力ページ数(一括)最大999ページ
詳細ソースネクスト公式サイト

ダウンロード版の購入はコチラ→ソースネクスト公式サイト

ソースネクスト SOURCENEXT 本格読取 5

Google Drive

Googleのクラウドストレージサービスである「Google Drive」でもOCR機能を使えます

「有料ソフトは絶対に買いたくない!」という場合にはGoogleドライブを使うのもアリでしょう

使い方は非常に簡単です。

まずは、Googleドライブ(アプリ版ではなくブラウザ版)にテキスト化したい画像をアップロードしてください

アップロードした画像を開くと、上のほうに「アプリで開く」というボタンがあるのでクリックします

あとは「Googleドキュメント」を選ぶと、自動で読み取りが始まり、テキスト化された文書が表示されるはずです

無料(15GBまで)で簡単に使えるのは魅力的ですが、1つ1つ手作業で操作する必要があるので、複数のファイルを読み取る場合には向きません

また、Googleドライブにアップロードする必要があるので、社外秘のファイルのような機密性の高いファイルでは使わないほうがいいと思います

ソフト名Googleドライブ
料金無料(15GBまで)
対応言語日本語
英語など
入力ファイル形式JPEG
PNG など
出力ファイル形式Googleドキュメント形式

結局どれを使うべき?メリット・デメリットを比較

本記事で紹介したソフト・アプリについてメリット・デメリットをまとめたので、ぜひ参考にしてください(下の表は横スクロール可能です)

メリットデメリット
Adobe Scan・無料で使える・大量のファイルを一括で読み取ることはできない
・Adobeのアカウントが必須
読み取り革命
&本格読取
(公式サイト)
・高速
・読み取り精度が高い
・一括で読み取れる
・オフラインで使える
・アップロードする必要がない
・有料
・Windows限定
Google Drive・無料で使える(15GBまで)
・パソコンでもスマホでも使える
(ブラウザ版)
・オンラインでしか使えない
・機密性の高いファイルには使えない
・ドライブの容量を消費する
・大量のファイルを一括で読み取ることはできない

読み取り革命」や「本格読取」はソースネクストの公式サイトで購入できます

東大生が作った「努力家のためのSNS」爆誕!

先日、東大生が開発した新SNS「yalkey (やるきー)」がリリースされました!(僕も開発に関与してます!)

「努力家のためのSNS」をコンセプトとしており、一般的なSNSのように文章を投稿できるだけでなく、日々の努力を数値データとして登録しグラフ化・カレンダー化できるようになっています↓

登録できるデータは「時間(時間/分)」「整数」「小数」「ToDo (達成or未達成)」の4種類で、単位も自分でカスタマイズ可能。以下のような様々な用途に利用できます。

  • 勉強時間を記録してグラフ化
  • 読書したページ数を記録してグラフ化
  • 筋トレした日をToDoカレンダーで管理

登録したデータはCSVファイルで出力できるので、後からExcelで編集することも可能となっています。また、今後も新しい機能が追加していく予定です!

「努力すると決めたけど中々やる気がでない...」「日々の進捗をグラフ化して見える化したい!」という方にうってつけのアプリとなっています!

リリースしたばかりでユーザーが少ないので、登録してもらえるとめちゃくちゃ喜びます!もちろん完全無料です!(登録画面はこちら ※現在Web版のみ。スマホアプリ版は今後リリース予定。)

公式サイト → https://yalkey.com/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
クリックできる目次