Rindrics Mumbles

無料の OCR サービスを探したら PDF 24 Tools が優秀だった

本を読むならば紙に限ると思っている。 しかし最近は、収納スペースを気にして、その本の購入自体をためらうケースが多くなってきた気がする。 これでは本末転倒なので、利用できる場合にはなるべく電子書籍を買うようになってきた(電子書籍に慣れることを狙う目的もある)。

電子版を購入する努力と並行して、書棚の物理本の裁断とスキャンも細々と進めているのだけれど、私がスキャンに利用しているスキャナ(富士通 iX500)の OCR アドインは、残念ながら Mac OS に対応していない。 そこで、しぶしぶオンラインの OCR サービスを探すことにした。 できれば、無料だとなおありがたい。

やりたいこと

スキャンしっぱなしの PDF に OCR をかけて、検索可能な PDF にしたい

検索のコツ

“online free ocr” で検索するとたくさんのサービスがヒットするものの、これではよい結果は得られなかった。

ヒットしたものの多くは、PDF を .txt や .docx に変換するツールだったからだ。 例えば下のようなもの: - https://www.onlineocr.net/ - https://onlineocr.org/

いまやりたいことは “PDF → 検索可能 PDF” なので、”ocr searchable pdf” で再検索した。

OCR Space というサービスはなかなか良さそうだったが、アップロードする PDF にサイズ制限(5MB)制限があった。 スキャン時に横着したせいで、1 つあたりの PDF サイズが 10 MB を超えてしまっていたので諦めた(もちろん PDF を分割する方法もあるけど、そこまではしたくなかった)。

いいサービスを見つけた

決定打となったのは PDF24 Tools。 PDF を操作する単機能のツール群からなっているので、それらを組み合わせて使うといい。

PDF24 Tools のトップページ。たくさんの単機能ツールが並んでいる

PDF24 Tools のトップページ。たくさんの単機能ツールが並んでいる

まず OCR

まず、文字認識と PDF への埋め込みをするために PDF OCR を使った。

使い方は非常に簡単で、処理対象の PDF をアップロードしたうえで、言語と出力タイプを選んで “Start OCR” を押すだけ。 しかし驚くべきは、無料ツールであるにも関わらず、複数の PDF を一括処理できるところだ。

容量制限がないだけでなく、複数のファイルも一気に処理してくれる

容量制限がないだけでなく、複数のファイルも一気に処理してくれる

私の場合は、オプションとして「背景の除去」「ページのクリーンアップ」「強制 OCR」「歪み補正」「ファイルを結合」を選んだ。

処理速度は、さすがに速いとは言えなかった。だいたい 1 分間で 15 ページくらい。 しかしそもそも、画面に張り付いて作業しようと思っていたわけではなかったので、処理速度の遅さに関しては全く問題なかった。

ファイルサイズは、OCR によっておよそ 2 倍に膨らんだ。 Adobe Acrobat のように、 OCR 後にファイルサイズが小さくなることを期待していたので、これには少々困った (もっとも、埋め込まれたテキストぶん、サイズが大きくなるのは仕方がないことだけれど。Acrobat が OCR と同時にかけている最適化が優秀なだけかもしれない)。 私は、PDF 化した書籍をクラウドドライブに保管しているので、なおさらだ。

つづいて圧縮

ということで、Compress PDF を使って、OCR 済みの PDF を圧縮した。

こちらも使い方は簡単で、対象 PDF をアップロードしたうえで「DPI」「画質」「グレースケール化の有無」を選び、”Compress” を押すだけだった。

こちらも操作は直感的

こちらも操作は直感的

OCR と比べると圧縮はだいぶ早く、だいたい 1 秒間に 10 ページくらいの速さで処理が進んでいた。 660 ページ、148 MB の PDF を圧縮したのだが、仕上がりサイズは 80 MB。 1 分くらいで完了した。

また利用したい

こんなに便利で、しかも無料。すごいぞ PDF24 Tools。おすすめです。