GoogleドライブでPDFや画像からテキストを書き出す方法

2022-01-12

URLをコピーしました！

先日仕事でPDFからテキストを抽出する機会がありました。

いつもならAcrobat Pro DCの「PDFを編集」モードで簡単に抽出できるんですが、今回はうまくいかず…ファイルが4年前に作成したものだったからかな…?なので別の方法を探ることにしました。

今回はGoogle ドライブを使って、画像ファイルをテキストに変換しました。精度もけっこう高いし簡単で、PDF以外の形式のファイルからも抽出できて便利！

今後のためにもぜひ覚えておきたいので、メモも兼ねて記事にしてみました。

では、早速プロセスをみていきましょう。

Contents

GoogleドライブでPDFや画像からテキストを書き出す方法

[timeline]
[tl label=’STEP.1′ title=’drive.google.comをひらく’] まずはdrive.google.comにアクセスします。 [/tl]
[tl label=’STEP.2′ title=’Googleドライブにファイルを読み込む’] 左の列から「マイドライブ」を選んで右側の「ファイル」上にドラッグアンドドロップするか、左上の「新規」ボタンから「ファイルのアップロード」を選び、画像データをアップロードしてください。

アップロード画像の注意点

明るさが均一で、コントラストがはっきりしたシャープな画像
テキストの高さは10pixel
ファイル形式は.JPEG、.PNG、GIF、PDFのいずれか。複数ページでもOK
ファイルサイズは2 MB 以下
ドキュメントは正しい向きに設定しておく

[/tl]
[tl label=’STEP.3′ title=’テキストを抽出したいファイルを右クリック’] データをアップロードできたら、ファイルを右クリックします [/tl]
[tl label=’STEP.4′ title=’アプリで開く > Google ドキュメント をクリック’]右クリックしたら表示されるウィンドウで「アプリで開く」>「Google ドキュメント」を選択。テキスト化する間、少々待ちます。 [/tl]
[tl label=’STEP.5′ title=’テキスト化されたGoogle ドキュメントが完成！’] テキスト化が完了したGoogleドキュメントが自動的に表示されます。念の為、文章が正しいか確認してください。間違っている箇所を訂正して完成です！

[memo title=”MEMO”]要素が多い複雑な画像からテキストを抽出するときは、パーツ毎に画像をわければうまくいきます。[/memo]

[/tl]
[/timeline]