カレントアウェアネス-E
No.372 2019.07.11
E2154
国立国会図書館,次世代デジタルライブラリーを公開
国立国会図書館(NDL)では,次世代の図書館システムの開発を目指し,調査研究を行っている。これまでの成果の一つとして,2019年3月29日にNDLラボのウェブサイトから「次世代デジタルライブラリー」というウェブサービスを公開した。
次世代デジタルライブラリーの目的は,全文テキスト検索機能,機械学習(AI技術)を応用した自動画像処理機能,IIIF API(E1989参照)等の次世代図書館システムへの実装が期待される新たな機能の技術的有効性を検証することである。本サービスで先端的な機能を実験的に一般公開し,利用者やエンジニアからのフィードバックを得ることによって,正式サービスに導入する技術を検討する際の見通しを立てやすくなると考えている。収録資料は,国立国会図書館デジタルコレクション(デジコレ)でインターネット公開されている著作権保護期間満了資料のうち日本十進分類法(NDC)6類(産業)の資料の一部であり,6月20日現在,OCR等の処理を行った約2万1,000点の資料を提供している。NDC6類を最初の対象に選択した理由は,図版を含む多様な資料が含まれ,機械学習技術のデモンストレーションに適していると考えられたためである。収録資料の範囲は,今後少しずつ拡大予定である。以下,検索系機能と提供系機能に分けて,次世代デジタルライブラリーが現時点で備えている機能を紹介し,今後の展望を述べる。
検索系機能としては,全文テキスト検索機能と画像検索機能を有する。
全文テキストについては,OCR処理により作製されたテキストデータをそのまま使用している。そのため検索の精度に改善の余地があるものの,人手によるコストをかけることなく,全文テキスト検索機能の提供を実現した。また,検索結果の詳細画面では,検索キーワードを含む前後100文字分をスニペット表示させ,あわせて検索キーワードを含むページの画像コマへのリンクも用意している。
画像検索機能は,テキスト検索とは異なる情報探索手段を提供することを目的としたもので,一つの図版を選ぶことで,類似する図版を掲載している別の資料を検索することができる機能である。本機能の実現のために,セマンティックセグメンテーションと呼ばれる機械学習の一手法を応用し,資料の「文章の段落」や「図版」といったレイアウトを,さながら塗り絵のように塗り分ける自動認識を行っている。自動で塗り分けられた結果から「図版」として塗られた部分だけを切り出して画像の特徴を抽出し,似た特徴を持つ他の「図版」を検索結果に表示する。
提供系機能としては,背景白色化機能と縦長表示のための自動加工機能を有する。
背景白色化機能は,経年変化等で可読性の損なわれた資料のデジタル化画像を読みやすくするための機能である。本機能はpix2pixと呼ばれる,画像間の変換方法を学習する機械学習の一手法を利用して,紙面が変色した資料画像に対して,紙面の背景のみを白く加工することで可読性を向上させる画像修正を自動処理により行っている。
縦長表示のための自動加工機能は,デジコレで提供されている画像の多くが横長の2ページ見開き画像であるのを,スマートフォン等の縦長の画面で見やすくするための機能である。本機能も機械学習を利用しており,資料の見開きの中心にある「のど元線」を物体検出する方法と,画像にある資料の輪郭を認識する方法とを組み合わせている。これにより,デジコレで提供している画像から資料の輪郭線よりも外の部分を取り除き資料の写っている部分のみを自動的にくり抜くこと,さらにのど元位置でページを左右に分割することで,縦長の画面に適した1ページごとの表示を可能とした。
また,画像の表示には,デジコレが2018年度から提供している国際的な画像の相互運用のための規格であるIIIF APIを利用した。ビューワにはオープンソースの軽量な画像ビューワであるLeafletをカスタマイズして利用している。
今後も調査研究を継続し,有用と考えられる機能を開発・公開していきたいと考えている。既に公開した機能についても,より高い性能を発揮できるよう,最新の技術動向を取り入れ,学習用データセットを拡充しながら改善を試み続けていきたい。
さらに,今回の次世代デジタルライブラリーを構築するにあたって使用した学習用データセットや実験に用いたソースコードを公開し,館外に向けて広く活用を促すことも次のミッションと認識している。次世代デジタルライブラリーに実装された機能や今後実装される機能によってエンジニアの注目を集め,NDLが提供するデータセットから新たなサービスを生み出す意欲を喚起することができれば本望である。
進展目覚ましい機械学習技術の知見を取り入れることで,これまでデジタルアーカイブを提供する各機関が整備・提供してきたデータ資源の魅力に新たな側面から光を当てることができると信じている。「先ず隗より始めよ」と心得て引き続き取り組んでゆきたい。
電子情報部電子情報企画課次世代システム開発研究室・青池亨
Ref:
https://lab.ndl.go.jp/
https://lab.ndl.go.jp/dl/
https://www.ndl.go.jp/jp/news/fy2019/__icsFiles/afieldfile/2019/04/04/pr190405_02.pdf
http://dl.ndl.go.jp/
http://iiif.io/
http://dl.ndl.go.jp/ja/help_iiif.html
https://conf2018.jadh.org/files/Proceedings_JADH2018.pdf
http://id.nii.ac.jp/1001/00192359/
https://arxiv.org/pdf/1802.02611.pdf
https://arxiv.org/pdf/1611.07004v1.pdf
https://leafletjs.com/
E1989
E2117