【翻訳も】PDFコピペ用ツール!改行の削除&濁点の結合
PDF内のテキストをコピーしてWord等に貼り付けたり、英語の論文を翻訳したりする際に使えるツールを作成したので公開します。テキストボックスに整形したい文章を入力してください。自動的に以下の処理が施されます(詳しい仕様は後述)
- 余計な改行・空白を取り除く(英語と日本語の両方に対応)
- 分離した濁点・半濁点の統合
(例)「ガ」→「ガ」(NFDからNFC) または 「カ゛」→「ガ」 - 整形後のテキストに対してDeepLとGoogle翻訳のボタンを生成
- 文字数をカウント
- 英文入力時に英単語数をカウント
↓ここに変換したいテキストを入力
【変換結果】文字数:0文字、単語数:15 words以下 (英文入力時のみカウント)
DeepLで翻訳 Google翻訳で翻訳※DeepL(無料プラン)やGoogle翻訳では一度に翻訳できる文字数の上限は5000文字となっています
※このページで入力したテキストや変換内容が本サービスのサーバーに送信されることはありません。安心してお使いください。
制作者:西片(@nskt_yagokoro)
翻訳も可能!PDFコピペツールの機能
改行・スペースの除去
PDFファイルをコピーすると以下のように不自然な位置に改行や空白が入ることがあります
親譲りの無鉄砲 で小供の時 から損ば
かりして いる。小学校 に居る時分学
校の二階 から 飛び降りて一週間ほど
腰を抜かした 事がある。なぜそん…
この文章を上の変換ツールで変換すると以下のようになります
親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそん…
本ツールは英語にも対応しています。英語を入力した場合には、単語間の空白は除去されないようになっています。
たとえば、以下のような文章を変換した場合
One morning, when Gregor
Samsa woke from troubled
dreams, he found himself
transformed in his bed in-
to a horrible vermin.
出力される文章は以下のようになります
One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.
英語の文章では、改行の際に単語をハイフンで区切る(いわゆるハイフネーション)ことがありますが、これにも対応しています(上の文章の”in-to”のところですね)
濁点・半濁点の統合
PDFからWord等の外部ソフトにテキストを貼り付ける際、濁点や半濁点が分裂して2文字になってしまうことがあります。
しかも、使用するソフトによっては分裂しているように見えないことがあるため、けっこう厄介です
例えば下の画像では、左が2文字、右が1文字として扱われているのですが、見た目だけじゃ判別できないですよね(左が「ガ」で右が「ガ」です)
「PDFのコピペの際に濁点・半濁点が分裂して困っている」という場合には、本ツールで修正してください
ちなみに、この問題はMacでコピペすると発生しやすいようです。詳しく知りたい場合には「NFD NFC」で検索してみてください
翻訳ボタンの生成
出力したテキストに対して翻訳ボタンを生成する機能も実装しました
現在使用できるのは「DeepL翻訳」と「Google翻訳」の2種類です
「PDFの英語論文を翻訳したい」という場合に有用かと思います
翻訳機能を使う場合には、変換したいテキストを入力したあと、出力されたテキストの下にあるボタンをクリックしてください
なお、DeepL(無料版)はGoogle翻訳には一度に翻訳できる文字数に制限がある(5000文字以下)ので注意してください
PDFが文字化けする場合は?
上のツールは、余計な改行を取り除いたり、分裂してしまった濁点・半濁点を統合するためのものなので、文字化けを完全に修復することはできません
文字化けを修復するためには「OCR」と呼ばれる文字起こし機能を備えたソフトを使う必要があります
おすすめのOCRソフトについては以下の記事にまとめてあるので、興味のある方は覗いてみてください
PDF上のテキスト等を編集するには?
PDFに書かれた文字を直接編集したい場合には専用のPDF編集ソフトを導入しましょう
PDF編集ソフトを使えば、PDF上のテキストを削除・編集できるようになるだけでなく、フォームに直接入力したり、画像を抽出したり、、、といったことが可能になります
おすすめのPDF編集ソフトについては以下の記事にまとめてあります