E2334 - 米国議会図書館の検索ツールNewspaper Navigatorについて

カレントアウェアネス-E

No.404 2020.12.10

 

 E2334

米国議会図書館の検索ツールNewspaper Navigatorについて

電子情報部電子情報企画課次世代システム開発研究室・木下貴文(きのしたたかふみ)

 

●はじめに

   2020年9月15日,米国議会図書館(LC)は,米国の歴史的な新聞に掲載された写真等を探すための検索ツール“Newspaper Navigator”を公開した。このツールは,LCのInnovator-in-Residenceプログラム(以下「IIR」)の一環として,米国のワシントン大学博士課程のリー(Benjamin Charles Germain Lee)氏が作成したものである。IIRは,専門的な知見を持った個人を短期的に招き,LCが保有する資源の革新的かつ創造的な活用を支援するプログラムである。具体的には,アートや,インタラクションデザイン,デジタル人文学,データジャーナリズム等の分野でのプロトタイピング等の実施が想定されている。リー氏はIIRの2020年度の採択者である。

●検索対象

   Newspaper Navigatorの検索対象は米国の歴史的な新聞のデジタル化画像に含まれる156万枚の写真等である。これは,同じくLCが公開している「Newspaper Navigatorデータセット」のうち,1900年から1963年までの間に出版された新聞から自動抽出されたものである。このデータセットは,米国の歴史的な新聞のデジタル化画像のデータベース(本稿執筆時点で3,000紙以上の約1,700万ページを収録)であるChronicling America(E684参照)のデータをもとに作成された。

●Newspaper Navigator の機能

   検索は,キーワード検索と,画像の類似度による検索の2つが可能である。前者は,写真等のキャプションからOCR処理で読み取ったテキストを対象とした検索であり,後者は,Newspaper Navigator内から選択した特定の画像に対し,それに類似する画像を検索できるという機能である。検索対象となる画像が複数選択可能であり,また,検索から除外したい画像を選択することもできるという点に大きな特徴がある。この機能は,AI Navigatorと呼ばれるもので,ユーザが選択した画像(の特徴ベクトル)から,その場で画像の類似度を計算し,サービス内の画像を類似する順に並べ替えることで実現している。

   その他,写真等の詳細の表示や抽出元の新聞記事画像へのリンク,気に入った画像のブックマーク(My Collection)などの機能がある。

●画像抽出手法の概要

   このようなサービスを開発するに当たって技術的に解決すべき点の一つは,新聞のページ単位の画像から写真等を自動抽出する機械学習プログラムの開発である。この場合は,全体の画像から写真等の部分を検出するモデルの選定と,そのモデルを学習させるための教師データ(新聞のページ単位の画像のレイアウトを認識してどの座標に何があるかを記したメタデータの組)の作成が開発の主要な部分となる。このうち,モデルの方はDetectron 2(Facebook AI Researchが開発・公開している,画像等から物体検出を行うためのライブラリ)に実装された,Faster-RCNNを採用している。

   教師データは,Chronicling Americaに収録された画像のデータに対して作成されたメタデータを元に,見出しや広告といったカテゴリーを追加するなどの調整を施すことによって作成されている。元になったメタデータは,LCが2017年に立ち上げたクラウドソーシング・イニシアティブBeyond Wordsで作成されたものである。最終的に,教師データは,Chronicling America内の第一次世界大戦期の新聞3,559ページ分となった。

●成果物のライセンス

   Newspaper Navigator上の画像はすべてパブリックドメインであり,自由に再利用可能である。また,Newspaper Navigatorデータセットや,機械学習プログラム,検索サービスのコードなど,多くの資源が自由に再利用可能な形で公開されている。

●おわりに

   筆者が所属する国立国会図書館(NDL)の次世代システム開発研究室でも,当館がデジタル化した著作権保護期間満了済みの資料画像に対して同様の画像抽出・類似画像検索技術の開発を行っている。2019年3月にリリースした実験サービス「次世代デジタルライブラリー」(E2154参照)では,2020年8月末に,NDLデジタルコレクションでインターネット公開されている図書および古典籍の著作権保護期間満了分約33万6,000点全てに対し,図版やイラスト等の画像を抽出し,類似画像の検索を可能とした。作成した教師データや関係するコードもGitHub上で公開している。キャプションのテキストを用いた画像の検索や特定の画像に類似する画像を除外する機能など,Newspaper Navigatorから参考にできる点は多い。当室では,このような先進的な図書館サービスの動向を踏まえつつ,当館のデジタル化資料のより良い活用の仕方について検討していきたい。

Ref:
Newspaper Navigator.
https://news-navigator.labs.loc.gov/search
Lee, Benjamin. Compounded Mediation: A Data Archaeology of the Newspaper Navigator Dataset. Humanities Commons, 2020.
http://dx.doi.org/10.17613/k9gt-6685
“About”. Newspaper Navigator.
https://news-navigator.labs.loc.gov/search/about
“Newspaper Navigator”. LC Labs.
https://labs.loc.gov/work/experiments/newspaper-navigator/
“LibraryOfCongress/newspaper-navigator”. GitHub.
https://github.com/LibraryOfCongress/newspaper-navigator
“Issue 16: Newspapers”. europeana pro. 2020-10-16.
https://pro.europeana.eu/page/issue-16-newspapers
Chronicling America.
https://chroniclingamerica.loc.gov/
“Chronicling America Data Visualizations”. LC.
https://www.loc.gov/ndnp/data-visualizations/
“Innovator in Residence Program”. LC.
https://labs.loc.gov/about/opportunities/innovator-in-residence-program
NDLラボ.
https://lab.ndl.go.jp/
次世代デジタルライブラリー.
https://lab.ndl.go.jp/dl/
“ndl-lab”. GitHub.
https://github.com/ndl-lab
全米電子新聞プログラム(NDNP)の進展. カレントアウェアネス-E. 2007, (112), E684.
https://current.ndl.go.jp/e684
青池亨. 国立国会図書館,次世代デジタルライブラリーを公開. カレントアウェアネス-E. 2019, (372), E2154.
https://current.ndl.go.jp/e2154