デザインカッツ英語サイトの2ドル素材集セール

GoogleドライブでPDFや画像からテキストを書き出す方法

カフェでノートパソコンを使う男性

こんにちは! Keiko(@kmy_design)です。

先日仕事でPDFからテキストを抽出する機会がありました。

いつもならAcrobat Pro DCの「PDFを編集」モードで簡単に抽出できるんですが、今回はうまくいかず…ファイルが4年前に作成したものだったからかな…?なので別の方法を探ることにしました。

今回はGoogle ドライブを使って、画像ファイルをテキストに変換しました。精度もけっこう高いし簡単で、PDF以外の形式のファイルからも抽出できて便利!

今後のためにもぜひ覚えておきたいので、メモも兼ねて記事にしてみました。

では、早速プロセスをみていきましょう。

Googleドライブを使ってPDFや画像データからテキストファイルを抽出するプロセス

STEP.1
drive.google.comをひらく
まずはdrive.google.comにアクセスします。
STEP.2
Googleドライブにファイルを読み込む
左の列から「マイドライブ」を選んで右側の「ファイル」上にドラッグアンドドロップするか、左上の「新規」ボタンから「ファイルのアップロード」を選び、画像データをアップロードしてください。

アップロード画像の注意点

  • 明るさが均一で、コントラストがはっきりしたシャープな画像
  • テキストの高さは10pixel
  • ファイル形式は.JPEG、.PNG、GIF、PDFのいずれか。複数ページでもOK
  • ファイルサイズは2 MB 以下
  • ドキュメントは正しい向きに設定しておく
STEP.3
テキストを抽出したいファイルを右クリック
データをアップロードできたら、ファイルを右クリックします
STEP.4
アプリで開く > Google ドキュメント をクリック
右クリックしたら表示されるウィンドウで「アプリで開く」>「Google ドキュメント」を選択。テキスト化する間、少々待ちます。
STEP.5
テキスト化されたGoogle ドキュメントが完成!
テキスト化が完了したGoogleドキュメントが自動的に表示されます。念の為、文章が正しいか確認してください。間違っている箇所を訂正して完成です!

MEMO
要素が多い複雑な画像からテキストを抽出するときは、パーツ毎に画像をわければうまくいきます。

【その他】PDFをテキストに変換するツール

その他のテキスト変換を助ける便利なウェブサイトを紹介します。

PDF Candy

PDF Candy

PDF to Text

PDF to Text

ONLINE OCR

ONLINE OCR

 

不定期ですが、これからも私が困ったときに助けられたアプリなどを紹介できたらと思います。