【一括】オススメの自炊用OCRソフト
ヤゴコロ研究所に訪問いただきありがとうございます。東大生ブロガーの西片(@nskt_yagokoro)です
今回は自炊に役立つOCRソフトを紹介していきます
OCRとは?
オススメのOCRソフトを紹介する前に「OCRとは何か」について軽く説明しておきます。興味のない方は読み飛ばしてください
皆さんの中には「PDFファイルに書かれた文章をコピペしたいけど上手くいかない…」とか「コピペできたものの、文字化けや誤字・衍字が多い…」ってなった経験ありませんか?
こういった不具合が起きるのは「PDFファイルが正しいテキストを保持していないから」です
PDFファイルは、ユーザーから見える「画像」部分とユーザーからは見えない「透明テキスト」部分から構成されています。画像部分に書かれている文字と、見えないところにあるテキストの内容が違うとコピペが上手くいかないわけですね
では、正しいテキストをPDFファイルに保持させたい時にはどうすればいいか。そういうときに活躍するのが「OCR処理」です
OCR処理というのは、PDFや画像ファイルを直接読み取ってテキスト化する行為のこと。
簡単に言うと、PDFやら画像やらに含まれる文字を、Wordで打ち込んだ文字みたいに編集できるようにする処理のことです。OCR処理をすることでスキャン後のファイルをコピペ・編集できるようになります。
あと全文検索できるようになるのもGoodポイントです
その他、自炊した参考書の一部を抜き出してノートを作成したり、テキストファイルをPDF以外のファイル形式に変換したり、、、と様々な利用法が考えられます
スキャナーアプリ単体でスキャンからOCR処理まで完結する場合もありますが精度が低いのが普通です。
特に日本語の文章をOCR処理するのは難しいらしく、専用のOCRソフトを使わないとなかなか上手くテキスト化できないのが現状となっています
本記事では、自炊本で使えるOCRソフトをいくつか紹介していきます
自炊用OCRソフトの選び方
続いては、自炊用のOCRソフトを選ぶ際に重要になるポイントを解説していきます
読み取りの精度が最重要
当たり前ですが、OCRソフトは読み取り精度が最重要です。いくら安くても正しく読み取れなければ購入する価値はありません
特に日本語の文章を読み取る場合には、海外のOCRソフトだと力不足なことが多々あります。自分のスキャンしたい文書にあったOCRソフトを選びましょう
OCRソフトの中には、取り消し線(横棒)や手書き文字、下線付き文字などの特殊な文字に対応したソフトもあります。
入力&出力のファイル形式
OCRソフト選びで意外と見落としがちなのが「ファイル形式」でふ
未処理のPDFファイルをOCR化したPDFファイルに変換するのぎ一般的ですが、PDFファイル以外のファイル形式に対応ひたソフトも存在します
例えば、ソースネクストのOCRソフト「読み取り革命16」の場合、入力ファイル形式としてはPDFの他にJPEGなどの画像ファイルが、出力ファイルとしては、Word・Excel・PowerPointのファイル形式が選択可能です
読み取ったデータをそのままOfficeソフトに変換してくれるのは非常に便利な機能ではないでしょうか
クラウドサービスとの連携
一気に大量の自炊本をOCR化すると場合によっては膨大なデータが出力されます。
そういう場合には、DropboxやGoogleDriveなどのクラウドストレージに出力されたデータをそのまま保存できると便利です
普段からクラウドストレージを活用しているという方は、クラウド対応のOCRソフトを選ぶのがいいでしょう
ちなみにDropboxの有料版(2TB)をどこよりも安く買う方法については以下の記事で紹介しています
オススメの自炊用OCRソフト
読み取り革命16
読み取り革命16は、翻訳機「ポケトーク」でお馴染みのソースネクストが販売するOCRソフト。
パナソニック製の日本語用OCRエンジンを搭載していて、低品質な画像からでも精度良くOCR処理できるのが特徴です。
取り消し線で消された文字やドロップキャップ、手書きの英数字も読み取り可能となっています。
余白除去や翻訳、クラウド連携などに対応しているのも地味に便利です。
ソフト名 | 読み取り革命16 |
料金 | 12,980円(ダウンロード版) |
対応言語 | 日本語・英語 |
入力ファイル形式 | PDF JPEG TIFF BMP GIF など |
出力ファイル形式 | PDF DOC / DOCX (Word) XLS / XLSX (Excel) PPT / PPTX (PowerPoint) TXT HTML JPEG/BMP など |
連携可能なクラウドサービス | Dropbox Onedrive Google ドライブ |
入力ページ数(一括) | 最大999ページ |
詳細 | ソースネクスト公式サイト |
ダウンロード版の購入はコチラ→ソースネクスト公式サイト
e.Typist v.15.0
日本語・英語以外の言語を読み取りたい場合は「e.Typist v.15.0」を使いましょう
e.Typist v.15.0は活字に特化したOCRソフトで、日本語と英語以外にも中国語や韓国語など計58か国語に対応しているのが特徴です
読み取り精度も高く、つぶれている文字や斜体、かすれ文字もしっかり認識してくれるのが魅力的な製品となっています
ソフト名 | e.Typist v.15.0 |
料金 | 14,080円(ダウンロード版) |
対応言語 | 日本語 英語 中国語 韓国語 など計58か国語 |
入力ファイル形式 | PDF JPEG TIFF BMP XDW |
出力ファイル形式 | PDF DOC / DOCX (Word) XLS / XLSX (Excel) PPT / PPTX (PowerPoint) TXT HTML EPUB など |
連携可能なクラウドサービス | Evernote SugarSync |
入力ページ数(一括) | 記載なし |
詳細 | 商品ページを参照↓ |
本格読取5
「本格読取5」は、読み取り革命16の簡易版のようなソフト。読み取り革命16ほど多機能ではありませんが、3分の1程度の料金で購入可能です
簡易版とはいえ、読み取り革命16と同じパナソニック製の日本語用OCRエンジンを搭載しているので、読み取り精度に関しては申し分ありません
ただし、PDFやGIFの入力に対応していなかったり、クラウド機能がイマイチだったりもするので注意してください
ソフト名 | 本格読取 5 |
料金 | 3,828円(ダウンロード版) |
対応言語 | 日本語・英語 |
入力ファイル形式 | JPEG TIFF PNG など ※PDFに非対応 |
出力ファイル形式 | DOC / DOCX (Word) XLS / XLSX (Excel) TXT |
連携可能なクラウドサービス | Evernote |
入力ページ数(一括) | 最大999ページ |
詳細 | ソースネクスト公式サイト |
ダウンロード版の購入はコチラ→ソースネクスト公式サイト
まだスキャンしてないならスキャナーを借りるのもアリ
今回はスキャン済のファイルをOCR化する方法を紹介しましたが、まだスキャンしていないという場合にはスキャナーをレンタルするのもアリかと思います
専用のスキャナーがあれば、手動でスキャンするときよりも遥かに速くスキャンできます。1枚1枚紙を裏返す必要もありません
あと、専用のスキャナー機はOCR機能も備えているものが多いので、別途OCRソフトを買わなくて済みます
ただし、中には「スキャナーを買いたいけど、高すぎて手が出せない」という方もいるかもしれません。
そういう人はスキャナーをレンタルするのも1つの手です。短期間だけレンタルすれば、かなりの節約になるかと思います。業者によっては裁断機もセットで貸し出しています
スキャナーがレンタルできるサービスとレンタル料金については以下の記事にまとめてあるので、ぜひご覧ください