書籍のデジタル化〜OCR〜AIの活用へ

ブログ

本日はある大企業A社さんとその大企業が所有する図書館を管理運用する会社B社さんと、新たな取り組みに関するキックオフ会が開催されました。

所有する書籍を大川印刷がデジタル化〜その目的は?

A社は約1000冊弱の学術書を所有していますがこれまで業務の提案や企画を行う際、関係各部署へその都度貸し出しされ、関係する複数の部署でそれら書籍を参考にしながら業務の提案を行っていました。

それら学術書をデジタル化することによって共有をしようとするものです。そして更にOCRを行い、検索やAIの活用ができるようすることを目的にしています。

※OCR(光学文字認識)とは、画像やPDFなどに含まれる文字を認識して、デジタルな文字データに変換する技術です。紙の文書を検索・編集可能にするのに使われます。

その課題は?

一番の課題は著作権の問題です。

一般的に著作権者の承諾が得られるかの前に著作権者が見つかるかどうか、連絡が取れるかどうか、が問題となります。これが一つ目のハードルです。そして二つ目のハードルがどのような著作権の契約ができるか協議が必要であることです。

書籍を非破壊でデジタル化する方法とは? 

これまで書籍をデジタル化するには複合機などに連続して読み込ませるためには書籍の背の部分※を裁断して紙をバラバラにする必要がありました。

※書籍の「背」とは、タイトルや著者名が印刷され本棚等に並べた時に見える部分のこと。

それが背を切り落とさないでスキャニングできるようにしたものが「スキャンロボット」です。大切な本を形を傷つけずに高速でデジタル化することが可能です。

1時間に2500ページ、脅威のスピード

その「スキャンロボット」の動画が以下のものです。

(1分10秒位から機械動きが見られます)

動画の書籍は1023ページ。少し速度を落としましたが45分でデジタル化終了です。

そしてその後、こちらの作業がOCRです。ちなみに1023ページは2時間半かかりました。それでもこの作業を終えれば全文検索やAIの活用が可能になります。

OCRの様子

ここまでくれば全文検索やAI、chatGPTなどの活用ができるようになります。

PDF=電子化完了、なのか?

よく「電子化は既に終わっている」とおっしゃる方も少なくないですが、PDFのままでは全文検索やAIの活用はできません。OCRの作業が必要となります。

また電子化は手段であって目的ではないのではないか?とも思います。

情報を電子化することも大切ですが、それら情報を活用していくことの方がもっと大切であると思います。目的は情報の有効な活用なのではないでしょうか。

これらの作業を再エネ100%で対応

県南注目されるAIの活用で消費電力が莫大に増加すると言われており対策は更に進めないといけません。

一方で少しでもできることをということで、これらのスキャニング〜OCRの作業も大川印刷では再生可能エネルギー100%で対応しています。納品形態はお客様のご要望に応じて異なりますが、ハードディスクにデータを入れて納品、という形が多いです。

地域や企業の文書資産を未来へ残す

このように企業や地域社会にはこれまで築いてきた歴史と共に、社史や図面、文献など、書籍以外にも所蔵されている文書資産をお持ちのことと思います。それら文書資産を気象災害や劣化などから守り、未来に残していくためにも、文書資産のデジタル化と活用は望まれることだと思います。

是非お気軽にお問い合わせください。

お問い合わせは→こちら

タイトルとURLをコピーしました