初出 2023-02-01
追記 2023-04-04
- 自炊本を耳読書したい
- 「Adobe PDF」という仕組みは、英語文化の商品であり、OCR時に縦組み日本語文書のカラムを正常に構成できないと知る
- 文字列を画像として認識する不具合
- 日本語縦組み文書のカラムを正しい順番に修正するには?
- Android端末で、それでも読み上げさせたい。できたアプリ
- PDFからのテキスト抽出を試みてみた
自炊本を耳読書したい
本も漫画もだいぶ持ってたし今も本棚パンパンで、15年くらい前に漫画はだいぶ捨てた。青春の思い出の漫画たちだが読み返す頻度と本棚の家賃(東京の大都会エリア)を考えると処分に後悔はない。思い出が失われるのは寂しいが。
その時点で本の自炊は始めていたのだが、あまりにも大量なのと、自炊業者の著作権の扱いが問題視され始めた頃だったので、漫画はスキャンせずに段ボールごと大手古本屋に送った。
さて。
最近また本棚(と部屋)がひどいことになってきたので少しずつ自炊を始めているが、スマホの進化やAmazon Audibleの登場で、「OCRしたんだから耳読書させろ!」という熱がかなり高まっている。
「Adobe PDF」という仕組みは、英語文化の商品であり、OCR時に縦組み日本語文書のカラムを正常に構成できないと知る
古いScanSnapで読み取ると「検索可能なpdf」にまではしてくれるんだが、縦組みの文書の「カラムの順番」に弱い。
AndroidのAcrobat Readerで開いて、 Readerに搭載されている読み上げ機能(text to speach テキストトゥスピーチ、TTS)で読み上げさせるのだが、右から左に順番には読み上げてくれず、意味不明にカラムが別れ、あちらこちらに飛んでは戻る。
これでは耳読書できない!!!
すなおに右から左にOCRしてくれているものと信じていたので、この不具合に気がつくまで時間がかかった。
古いスキャンデータを調べてみると、15年前の自炊データもそうなっていた。
あの頃は、OCRした本を耳で聞くなんて思いもよらなかったから気がついていなかった。
文字列を画像として認識する不具合
どうやら、Adobeソフト・アプリとしては、縦組み日本語文字列をOCRはできていても、うまく処理できず、画像として認識したりして読み上げられない様子である。
http://monomania.sblo.jp/s/article/55737163.html
そもそも、 Readerの読み上げ機能を受け付けない文書もある。
OCRはされており、文字選択も可能で、なんなら選択した文字をコピー&ペーストもできるんだが、読み上げさせようとすると「このPDFは画像だから読み上げられないよ」と言われる。
画像じゃありませんけど!!!
Adobeのサポートに問い合わせたところ、同じファイルで検証してくれたが、結論としては、日本語縦組み文書への対応には限界があるのでご理解くださいという趣旨のことを言われた。
検証に使った時間返してくれー!
日本語縦組み文書のカラムを正しい順番に修正するには?
Adobeに課金すると、Adobe Acrobatでカラムの順番を指定し直せるが、何百ページにもなる本のすべてのページに編集を加えるのは気が遠くなるので、手を付けず無料体験期間終了前にサブスクを解約した。
縦組み日本語文書を右から左に素直にOCRしてくれるソフトが見つかれば、価格によっては課金したい。
Android端末で、それでも読み上げさせたい。できたアプリ
- 縦組みPDFを右綴じで展開可能(日本語縦組み本に自然なページめくり)
- 本家のAcrobat Readerだと「これは画像です!!!」とエラーが出て読み上げられないPDFも、このアプリだとTTS可能
- カラムを正常に認識できないのは作成されたファイルに起因する根本的問題でアプリ側では改善できないようだ。このアプリでTTSする場合もカラムが飛ぶ
- カラムが飛んだら読み上げを停止して目視で戻る必要がある
- Googleの日本語読み上げは、@Voiceに慣れていると不自然でイマイチ
- PDF Readerという名前だが、読書モード、楽譜モード?などあり、その他多機能で使い勝手が良さげ
- 複数端末を使用している場合、Googleアカウントを使用した動機機能があるので、他端末で続きをスムーズに読み始められる
- どうやら、ハイライト機能がない。
- 本アプリで登録したブックマークは本アプリ内でしか機能しない様子。
- すでにAdobeReaderでハイライトされているマークはそのまま再現されるんだが、それを読み込む(一覧からタップして飛ぶ)機能はない。
- 本アプリでは、それまで他のソフト・アプリで登録したブックマークは再現されない。
- クラウドからファイルを開くことには対応していないので、端末にファイルをダウンロードする必要がある(個人的にはDropboxから直接開いて、アプリを閉じた際に同期がかかり、メモなども含めてアップロードされるのが理想。こちらのアプリを利用する場合、端末のストレージを開放するためにファイルを削除するとブックマークは失われてしまうのだろう。読み終わったらオンラインストレージなどにそのまま移動させるなどする必要がある。移動したファイルを再度ダウンロードして開いたときに、ブックマークは保持されているのだろうか? AdobeReaderはクラウドサービスから直接開くことができて、アプリ終了時には同期がかかる)
ただ精読したり聞き流しておくにはいいかもしれないけど、記録が残らないですね。
記録と保存という点ではAdobe Readerのほうが上だなぁ。
一長一短ですなー。悩ましい。
PDFからのテキスト抽出を試みてみた
すべてのテキストをコピペしてみた
PDFのテキストをすべて選択→テキストエディタに貼り付けた結果
欧米風に左から右にコピペしていて、話にならない。
オンラインサービスHiPDFの結果
無料で試せるのは最大20メガバイトまでとのことだったので、PDFファイルの一部を抽出して試した結果がこちらです。
話にならない。
いい情報あったら教えて下さい。