AlexのEPDで丁度良い自炊の仕方について
以前自炊と称される小説や漫画、切り抜き等をスキャン&OCRしてコンテンツを自作するというのが良く話題になった気がします。
自分もそのうちビュワー端末を購入したいと思って居たので、間違ってダブって買ってしまった小説を使ってどんな点に注意すれば良いかをテストしていました。
PCで見る分やノートで見る分には重いですが問題は無かったのですが、alexではエラーで開くことが出来ませんでした。
はじめはPDFのバージョンかな?と思ったのですが(組込み系は古いモノしか対応していない場合があるなど・・・)
PDF/XやPDF/Aなんてサブセットがつくられている訳ですし。
しかし、残念ながら最新のバージョンのPDFも問題なく開けているようです。
次に疑ったのがサイズでした。
AlexのEPDはSVGA(600×800)の16階調とマニュアルには記載されていました。
サイズを小さくすれば大丈夫なのではないかと一度PDFをPNG画像に書き出して見ました。
そしたら…。
1ページが2532×3554ピクセル…。
さらにこの本は440ページ有り、サイズも187MBありました。
まず間違いなくメモリ不足でしょう(滝汗
一度全ページをPNGで書き出し、600×800に収まるようにリサイズを行って再度PDFにして見ました。
見事に再生は出来る用になったのですが解像度が低く、16階調のEPDではとても読みにくい。
2値化すると文字がかすれてしまってさらに読みづらい。
さらに何故かフルスクリーンで表示を期待したのに小さく表示されてしまう事が発生。
拡大表示は出来ますが、かすれてしまいとても視認性の劣化が激しいです。
そんなPDFから再度PNGで書き出しを行ってサイズを確認してみるとどうやら600×800を1ピクセルオーバーしているようです。
誤差拡散か何かで少しサイズが大きくなっていたのが問題のような気がしてきました。
Windowsのペイントブラシで600×800から少し小さめのキャンバスで画像を作りPDFへ変換。
どの程度のサイズがきれいに表示出来るかの調査をしてみました。
590×780というサイズの時にそれなりに良い塩梅になったのですが、EPDの上下のヘッダー部とフッター部に隠れてしまいます。
さらにしたのLCDでスクロールする事も出来ず困ったことに。
結果として 590×730 というサイズがベストでは無かろうかと個人的に落ち着きました。
ギリギリの縁の所に1ピクセルで四隅に線を引いています。
この線画きちんと表示されればベストなサイズと考えます。
左上が原点の用ですし、このサイズであればスクロールの必用も無く利用することが出来そうです。
しかし、590×730というサイズでの取込は小さすぎる気がします。
電子化するメリットの一つとして場所を食う紙を電子化するという事があります。
今回のテストに用いた文庫本1冊でも厚さ的にも重さ的にもalexの方が薄くて軽いです。
しかし、断裁してスキャンして断裁済みの本を廃棄すると考えた場合低解像度のスキャンは気が乗りません。
PC等での鑑賞や、後で参照を考えると解像度が低すぎます。
それにOCRを行うのは厳しい解像度となってしまいます。
そこで、
- 一度目は高めの解像度で取込OCR処理を行う
- alexで持ち運ぶ用に変換を行う
この2段構成で行くことにしました。
しかし、手動でやるのは大変だと思って居ましたら
とても良いソフトがありました。
ChainLPというSony Reader や Kindle や iPod 等用にデータ変換をバッチ処理するアプリケーションがありました。
それに今回割り出した590×730というサイズで
ePub形式に変換してみた結果がこちら。
このソフトのすごいところは余白の削除などの機能やスキャン時の傾き補正などの機能も同時に行ってくれるようです。
非常に多機能でまだアプリの全体像が把握出来ません。
また、減色を行う場合にも裏移り等の除去が出来るレベルを判定してくれているようで、非常に便利です。
このソフトの出会いと、サイズの洗い出しにより
カラーで大きめにスキャンしたものを原本として、断裁済みの小説は廃棄、PDF化した電子データをバックアップとして保管。
パスワードもかけることが出来ますし安心ですね。
alexに入れて持ち運ぶ資料や読み物についてはChainLPを用いて最適化を行う運用を予定しています。
この方法であればカラー化されたE-Ink端末(現行のカラーE-Inkは不満ですが、そのうち良いEPDがでると信じて)や画面サイズが変った際に再エンコードを行うことが出来ます。
これで「うしおととら」(漫画)のように置き場所に困って処分をして、読みたくなって全部買い直し、置き場にやはり困って処分してワイド版で買い直すという連鎖から解放されるかもしれません(笑
沈黙の艦隊も置く場所に困り、じゃじゃ馬グルーミングアップも置き場所に困り…。
結構資料として残しておきたい雑誌も多いのです。SoftwareDegin 等の特集は後で参照しそうな情報が満載でバックナンバーが溜まり、流石に置き場所に困るという自体も発生していますし、OCR化して蓄積・検索性の向上、そして参照するものはAlexに入れて手元において参照する。
こんな環境が早く作れると良いなと思って居ます。
ちなみに今回テストした440ページのハヤカワSFの小説は間違って2冊買ってしまったモノでテストをしているのですが、まだ満足のいく結果が出ていないので輪ゴムで止めて原本は管理しているのです。
定規とカッターで数ページ毎切り、Canon MP-950という古めでオートドキュメントフィーダもない複合機のフラットベットスキャナ部で一枚一枚裏表順番にスキャンしたものを利用しています orz
スキャン後の効率化の目処も立ちましたし、参照用のデバイスの準備も出来ました。
後は裁断機やドキュメントスキャナとやる気と購入資金でしょうかね(笑)
また、青空文庫のデータをePub形式に変換して見ましたが、alexがでEPDに最適に表示出来るようにラスタライズされているため非常に読みやすくてやはりきれいです。
ePubもオープンであるが故にエンジンが乱立して一時期のHTMLのようにCSSハックが出来る人が居ないとバカ高いオーサリングツールが必用なうえオープンな仕様で有りながら端末依存になってしまったり、折角のXHTMLなのに再利用も出来ない電子書籍になったりしないかと少し心配な今日この頃。
HTMLは5で一様動作は統一しましょうねという方向を向いたと思って居たのですが…。
大丈夫ですよね?