理系東大生が運営する人生攻略ブログ
※本ページには広告を含みます

【翻訳も】PDFコピペ用ツール!改行の削除&濁点の結合

このブログの管理人
管理人:西片(にしかた)
  • 東大(工学系)に所属している学生
  • PC、スマホ、ネット全般に詳しい(つもり)
  • 応用情報技術者などのIT系国家資格を複数所有
  • 開発協力→努力家のための新SNS「yalkey
  • 本ブログの更新情報発信してます!
    Misskey / Mastodon / Twitter

PDF内のテキストをコピーしてWord等に貼り付けたり、英語の論文を翻訳したりする際に使えるツールを作成したので公開します。テキストボックスに整形したい文章を入力してください。自動的に以下の処理が施されます(詳しい仕様は後述)

  1. 余計な改行・空白を取り除く(英語と日本語の両方に対応)
  2. 分離した濁点・半濁点の統合
    (例)「ガ」→「ガ」(NFDからNFC) または 「カ゛」→「ガ」
  3. 整形後のテキストに対してDeepLとGoogle翻訳のボタンを生成
  4. 文字数をカウント
  5. 英文入力時に英単語数をカウント

↓ここに変換したいテキストを入力

【変換結果】文字数:0文字、単語数:15 words以下 (英文入力時のみカウント)

DeepLで翻訳 Google翻訳で翻訳

※DeepL(無料プラン)やGoogle翻訳では一度に翻訳できる文字数の上限は5000文字となっています

※このページで入力したテキストや変換内容が本サービスのサーバーに送信されることはありません。安心してお使いください。

制作者:西片(@nskt_yagokoro)

クリックできる目次

翻訳も可能!PDFコピペツールの機能

改行・スペースの除去

PDFファイルをコピーすると以下のように不自然な位置に改行や空白が入ることがあります

親譲りの無鉄砲 で小供の時 から損ば
かりして いる。小学校 に居る時分学
校の二階 から 飛び降りて一週間ほど
腰を抜かした 事がある。なぜそん…

この文章を上の変換ツールで変換すると以下のようになります

親譲りの無鉄砲で小供の時から損ばかりしている。小学校に居る時分学校の二階から飛び降りて一週間ほど腰を抜かした事がある。なぜそん…

本ツールは英語にも対応しています。英語を入力した場合には、単語間の空白は除去されないようになっています。

たとえば、以下のような文章を変換した場合

One morning, when Gregor
Samsa woke from troubled
dreams, he found himself
transformed in his bed in-
to a horrible vermin.

出力される文章は以下のようになります

One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.

英語の文章では、改行の際に単語をハイフンで区切る(いわゆるハイフネーション)ことがありますが、これにも対応しています(上の文章の”in-to”のところですね)

濁点・半濁点の統合

PDFからWord等の外部ソフトにテキストを貼り付ける際、濁点や半濁点が分裂して2文字になってしまうことがあります。

しかも、使用するソフトによっては分裂しているように見えないことがあるため、けっこう厄介です

例えば下の画像では、左が2文字、右が1文字として扱われているのですが、見た目だけじゃ判別できないですよね(左が「ガ」で右が「ガ」です)

「PDFのコピペの際に濁点・半濁点が分裂して困っている」という場合には、本ツールで修正してください

ちなみに、この問題はMacでコピペすると発生しやすいようです。詳しく知りたい場合には「NFD NFC」で検索してみてください

翻訳ボタンの生成

出力したテキストに対して翻訳ボタンを生成する機能も実装しました

現在使用できるのは「DeepL翻訳」と「Google翻訳」の2種類です

「PDFの英語論文を翻訳したい」という場合に有用かと思います

翻訳機能を使う場合には、変換したいテキストを入力したあと、出力されたテキストの下にあるボタンをクリックしてください

なお、DeepL(無料版)はGoogle翻訳には一度に翻訳できる文字数に制限がある(5000文字以下)ので注意してください

PDFが文字化けする場合は?

上のツールは、余計な改行を取り除いたり、分裂してしまった濁点・半濁点を統合するためのものなので、文字化けを完全に修復することはできません

文字化けを修復するためには「OCR」と呼ばれる文字起こし機能を備えたソフトを使う必要があります

おすすめのOCRソフトについては以下の記事にまとめてあるので、興味のある方は覗いてみてください

あわせて読みたい
【文字おこし】画像やPDFにふくまれる文字をテキスト化する方法 ヤゴコロ研究所に訪問いただきありがとうございます。東大生ブロガーの西片(@nskt_yagokoro)です 今回は画像やPDFにふくまれる文字をテキスト化する方法とオススメのソ...

PDF上のテキスト等を編集するには?

PDFに書かれた文字を直接編集したい場合には専用のPDF編集ソフトを導入しましょう

PDF編集ソフトを使えば、PDF上のテキストを削除・編集できるようになるだけでなく、フォームに直接入力したり、画像を抽出したり、、、といったことが可能になります

おすすめのPDF編集ソフトについては以下の記事にまとめてあります

あわせて読みたい
【無料&有料】東大生厳選!おすすめのPDF編集ソフト比較【買い切り・Acrobat代替】 ヤゴコロ研究所に訪問いただきありがとうございます。東大生ブロガーの西片(@nskt_yagokoro)です 今回はAdobe Acrobatの代わりになるPDF編集ソフトを紹介していきます ...

東大生が作った「努力家のためのSNS」爆誕!

先日、東大生が開発した新SNS「yalkey (やるきー)」がリリースされました!(僕も開発に関与してます!)

「努力家のためのSNS」をコンセプトとしており、一般的なSNSのように文章を投稿できるだけでなく、日々の努力を数値データとして登録しグラフ化・カレンダー化できるようになっています↓

登録できるデータは「時間(時間/分)」「整数」「小数」「ToDo (達成or未達成)」の4種類で、単位も自分でカスタマイズ可能。以下のような様々な用途に利用できます。

  • 勉強時間を記録してグラフ化
  • 読書したページ数を記録してグラフ化
  • 筋トレした日をToDoカレンダーで管理

登録したデータはCSVファイルで出力できるので、後からExcelで編集することも可能となっています。また、今後も新しい機能が追加していく予定です!

「努力すると決めたけど中々やる気がでない...」「日々の進捗をグラフ化して見える化したい!」という方にうってつけのアプリとなっています!

リリースしたばかりでユーザーが少ないので、登録してもらえるとめちゃくちゃ喜びます!もちろん完全無料です!(登録画面はこちら ※現在Web版のみ。スマホアプリ版は今後リリース予定。)

公式サイト → https://yalkey.com/

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
クリックできる目次