GoogleドライブでPDFや画像からテキストを書き出す方法
先日仕事でPDFからテキストを抽出する機会がありました。
いつもならAcrobat Pro DCの「PDFを編集」モードで簡単に抽出できるんですが、今回はうまくいかず…ファイルが4年前に作成したものだったからかな…?なので別の方法を探ることにしました。
今回はGoogle ドライブを使って、画像ファイルをテキストに変換しました。精度もけっこう高いし簡単で、PDF以外の形式のファイルからも抽出できて便利!
今後のためにもぜひ覚えておきたいので、メモも兼ねて記事にしてみました。
では、早速プロセスをみていきましょう。
GoogleドライブでPDFや画像からテキストを書き出す方法
[timeline]
[tl label=’STEP.1′ title=’drive.google.comをひらく’] まずはdrive.google.comにアクセスします。 [/tl]
[tl label=’STEP.2′ title=’Googleドライブにファイルを読み込む’] 左の列から「マイドライブ」を選んで右側の「ファイル」上にドラッグアンドドロップするか、左上の「新規」ボタンから「ファイルのアップロード」を選び、画像データをアップロードしてください。
アップロード画像の注意点
- 明るさが均一で、コントラストがはっきりしたシャープな画像
- テキストの高さは10pixel
- ファイル形式は.JPEG、.PNG、GIF、PDFのいずれか。複数ページでもOK
- ファイルサイズは2 MB 以下
- ドキュメントは正しい向きに設定しておく
[/tl]
[tl label=’STEP.3′ title=’テキストを抽出したいファイルを右クリック’] データをアップロードできたら、ファイルを右クリックします [/tl]
[tl label=’STEP.4′ title=’アプリで開く > Google ドキュメント をクリック’]右クリックしたら表示されるウィンドウで「アプリで開く」>「Google ドキュメント」を選択。テキスト化する間、少々待ちます。 [/tl]
[tl label=’STEP.5′ title=’テキスト化されたGoogle ドキュメントが完成!’] テキスト化が完了したGoogleドキュメントが自動的に表示されます。念の為、文章が正しいか確認してください。間違っている箇所を訂正して完成です!
[memo title=”MEMO”]要素が多い複雑な画像からテキストを抽出するときは、パーツ毎に画像をわければうまくいきます。[/memo]
[/tl]
[/timeline]
【その他】PDFをテキストに変換するツールなど
その他のテキスト変換などを助ける便利なウェブサイトやツールを紹介します。
不定期ですが、これからも私が困ったときに助けられたアプリなどを紹介できたらと思います。