PC Watchのコラム「山田祥平のRe:config.sys」に、本をスキャンしてPDF化する話が載っていた。
山田祥平のRe:config.sys ~ グーテンベルクの願い、アルダスの夢
内容をおおざっぱにまとめると、こんな感じ。
・フェデックスキンコーズの裁断サービスを使って、本をばらす
・それを高速両面スキャンができるScanSnapにかけて、PDF化
・文庫本1冊をスキャンするのに15分程度
・後処理で、検索用のOCR(文字認識)結果をPDFに付加することも可能
今や、おおげさな業務用機械を使わずに、そこそこのコストと手間で書籍のデジタル化ができるんだな。
個人が「書籍や書類などをデジタル化する」試みと言えば、美崎薫さんが有名だ。 “目にしたもの全てを記録(記憶)する”というラディカルな方法論による「記憶する住宅」。その思想・実践についての詳しい記事がMYCOMジャーナルにある。
【特集】記憶する住宅 ~ITリフォームから電脳住宅へ~ (2003年)
美崎さんの場合は、書籍のデジタル化手法が「フラットベッドスキャナによる手作業→デジタルカメラで撮影→スキャニングを外注」という変遷をたどっている。OCRは(記事の時点では)重視しておらず、300dpiのJPEGファイルとしてアーカイブしている。「読みました!」というブログによると、2005年の時点で、3000冊以上取り込んでいるらしい。トテツモナイことだ。
====
個人的には、書籍のスキャンまでは手を出していないが、雑誌の記事の切り抜きをスキャンするようになってもう5年くらいになる。なかなか捨てられない雑誌をすっきり捨てたい、ということで当時安くなってきたキヤノンのA4スキャナを購入。これまで1400枚あまりをスキャンしている。ちょっとした書類とかマニュアル類も、一枚紙のものはなるべくスキャンして捨てるようになった。
記事スキャンの方向性としては、以下のような感じでやっている。
・画像(JPEGファイル)として残す
・傾き、コントラスト、シャープネスなどを手動補正(ちょっと手間)
・見開きの記事はなるべく一枚の画像にまとめる
・データ容量と可読性の兼合いで、125dpi程度まで縮小して保存
・OCRは使っていない(ちょっと試したが)
・検索用に、画像ファイルと同名のテキストファイルを作成(手作業でキーワード入力)
スキャンした記事は、スクリーンセーバー(Windows XP標準の「マイ ピクチャ スライドショー」)でランダム再生させるようにしている。 結構おもしろい。
ちなみに、125dpi程度でも、一般的な週刊誌くらいのサイズ(見開き)を画面上に表示させようとすると、 2048x1280 くらいの解像度が必要になる。 24インチクラスの液晶モニタ(ワイド)でも 1920x1200 のものが一般的。今は、XGAの17インチCRTモニタを使っているので、縮小された全画面表示では本文を読むことは難しい。
Apple の 30インチ Cinema Display くらいの解像度(2560x1600)があれば余裕なのだが。
ま、Windows Vista が安定してきた頃に検討しよう。