E1907 – L-Crowdによる日本の書誌誤同定/書誌割れ問題の解決に向けて

カレントアウェアネス-E

No.324 2017.04.27

 

 E1907

L-Crowdによる日本の書誌誤同定/書誌割れ問題の解決に向けて

 

 日本の図書館における課題の1つに,図書の情報を表す書誌データが統一されていないという問題がある。この問題は書誌データの作成方法が担当者によって異なることや,入力ミスなどにより発生するものであるが,複数館の所蔵データを同時に扱う横断検索等において,本来同じ図書を別のものとして扱う書誌割れ,別の図書を同じものとして扱う誤同定などの原因となっている。

 この状況に対し,「都道府県総合目録の将来像に関する研究プロジェクト」が2016年11月に開始された。これは,2016年3月の京都府立図書館と株式会社カーリルとの連携協定を基礎に,同志社大学図書館情報学研究室,筑波大学知的コミュニティ基盤研究センター,千葉大学附属図書館/アカデミック・リンク・センター及び国立国会図書館(NDL)の参加を得て行われるものである。本稿ではその取り組みを紹介する。

●プロジェクトの概要

 このプロジェクトでは,まず京都府内の図書館等の蔵書を一括して検索できる京都府図書館総合目録ネットワーク(K-Libnet)の書誌データをNDLが運用する全国書誌データと突合し,機械的に完全に一致してはいないが,同じ図書である可能性が高いデータの組を抽出する。さらに,これらの組について人手による確認作業を行うことで書誌データのクリーニングを行うことを企図している。人手による確認作業に際しては,インターネット上において群衆の力で問題の解決を図るクラウドソーシングプラットフォームの一種であり,大勢の図書館ボランティアが活動を行う場であるL-Crowdを利用した。L-Crowdでは,誰でも1組あたり数十秒程度で同定作業(本プロジェクトでは「タスク」と呼ぶ)を行うことができる。また,タスクはユーザ登録をした上でのボランティア参加のほか,ユーザ登録を行わずに匿名で参加することも可能である。プロジェクト開始から60日経った2017年4月14日現在で累計7万5,936タスクが実施され,ユーザ登録者は81人である。

●同定処理について

 本プロジェクトでは,まずK-Libnet内でISBNが空欄となっている書誌データ約200万件と,NDLが運用する全国書誌の図書のデータ約300万件を対象として機械的に同定作業を行った。同定作業の結果として,各図書間には似ている度合いを示す数値(一種の距離)が付与される。たとえば,全ての書誌事項(著者名,タイトル,出版社名,出版年など)の値が完全に一致する場合には距離はゼロとなり,違う部分が増えるほど距離は大きくなる。図書間の距離が非常に小さい場合には同一の図書と機械的に判断することが可能であり,逆に距離があまりにも大きい場合には異なる図書と判断することができる。問題は距離が中間の値である場合であるが,経験的に機械的には判断が難しい場合でも人間であれば判断できるケースも少なくない。そこで本プロジェクトでは,一定の距離を持つ図書の組合せ約8,000通りについて,人手による判断を行うこととした。このように機械的には難しい図書の組合せの同定作業が正しく行われることは,ISBNが付与されていない書誌が数多く含まれているために書誌割れ(同じ図書が別の図書として検索結果などで表示されてしまう状況)が発生しているK-Libnetの表示内容の修正をはじめとして大きな効果があると考えられる。

 なお,訓練を受けていないボランティアによる判断であるため,似ているかどうかの判断が難しい図書については誤った判断が下されることもある。しかし,同じ組み合わせについての作業を何人もの人が行うことで判断の誤りによる影響を極小化することができると考えている。また,プロジェクト開始後一定期間が経過した時点で,実際に同定結果の詳細な検証を行い対象とする図書の組み合わせを変更することも計画している。

 この取り組みを技術的視点から捉えれば,これまで図書館が蓄積してきた「暗黙知」のアルゴリズム化を行っていると表現することもできる。今回得られたクラウドソーシングの結果を同定アルゴリズムの改善にフィードバックすることにより,人の目で判定したデータだけではなく今後機械的に処理する結果についても大幅に改善することができるだろう。

●目指す未来の姿・今後の課題

 本プロジェクトの当面の目標はK-Libnetで運用している書誌データのクリーニングに加え,NDLが運用するデータと接合することによる,書誌情報自体の充実化である。これらにより書誌割れが解消することで京都府内の図書は格段に探しやすくなり,また書誌情報が充実することで豊富な情報が入手できるようになることが期待される。将来的には,全国の公立図書館が運用する書誌データとNDLが運用する書誌データを接合する仕組みを構築することを目標としている。

 今後の課題として,タスクの改良が挙げられる。本プロジェクトはタスクを行っている貢献者に支えられているため,タスクが少しでもやりやすくなるよう,フィードバックを元に段階的にタスクの改良を進めていきたい。なお,2017年5月中にタスクの大規模な修正を行う予定であるので,是非ご確認いただき,タスクに取り組んで頂ければ幸いである。

千葉大学アカデミック・リンク・センター(国立国会図書館非常勤調査員)・池田光雪

Ref:
https://crowd4u.org/ja/projects/lcrowd#unicat
http://crowd4u.org/ja/projects/ranking#group133
http://www.library.pref.kyoto.jp/?p=8373
http://blog.calil.jp/2016/12/lcoud.html
http://www.library.pref.kyoto.jp/?p=9196
http://www.arg.ne.jp/node/8833
http://www.ndl.go.jp/jp/library/news/170303_04.html