E1517 - 図書館データとWikipediaをつなぐVIAFbot

カレントアウェアネス-E

No.251 2013.12.26

 

 E1517

図書館データとWikipediaをつなぐVIAFbot

 

 デジタル時代において,今までOPACなど閉じたシステムの中でしか利用できなかった図書館データをウェブ上でアクセスしやすくし,新たに付加価値を持たせ有効活用することの意義は大きい。図書館データの活用事例として,本稿ではVIAF(バーチャル国際典拠ファイル;CA1521参照)とWikipediaの記事の相互リンクプロジェクトについて紹介する。

 本プロジェクトは,OCLCリサーチのウィキペディアン・イン・レジデンス(E1345参照)であるクライン(Max Klein)氏と,英国図書館のウィキペディアン・イン・レジデンスであるグレイ(Andrew Gray)氏が主導したものである。2013年10月14日の“Code4Lib Journal”誌にクライン氏らによる“VIAFbot and the Integration of Library Data on Wikipedia”と題する記事が掲載されており, 約25万件の図書館個人名典拠データを英語版Wikipediaの人物に関する記事に追加したプロセスとその利点,そして今後の可能性についてまとめている。この記事を主に参照しながら,プロジェクトについて紹介する。

 VIAFは,各国の国立図書館等から典拠データの提供を受けて,個人,団体といった同一の実体に対する典拠レコードを同定し,相互にリンクさせるシステムで,米国議会図書館,ドイツ国立図書館,OCLC,及びフランス国立図書館が中心となり推進されてきた。2012年4月にOCLCへ移管され,OCLCのサービスの一つとなっている。また,同年夏からは,Wikipediaとの相互リンクが開始されている。本プロジェクトは,クライン氏らがWikipediaユーザーへ提案し,意見募集を行い,Wikipediaコミュニティから賛同を得て,正式なプロジェクト開始に至ったという。

 英語版Wikipediaの人物に関する記事(例: Lewis Carroll)をご覧頂きたい。ページの最下部に“Authority Control”(日本語版では「典拠レコード」)という項目があり,VIAFへのリンクがあることがおわかり頂けるだろう。プロジェクトは,この“Authority Control”テンプレートに,VIAFリンクを追加するものである。

 仕組みは次のとおりである。まず,英語版Wikipediaの人物に関する記事とVIAFデータを個人名,生年,没年といった属性を元にアルゴリズムでマッチングを行った。続いて,対象となる英語版のWikipediaの記事に, 既に“Authority Control”が存在する場合は,そのVIAF ID,さらに,英語版記事に対応するドイツ語版Wikipediaに“Authority Control”に該当する“Normdaten”があればそのVIAF IDとも比較した。一致した場合は,VIAFbotがVIAFへのリンクを“Authority Control”に(“Authority Control”が存在しない場合は“Authority Control”テンプレートも含めて)追加し,不一致がみつかったものは, 手作業での修正分として記録された。

 なお,英語版に対応するドイツ語版のWikipediaの記事109,087件のうち,“Normdaten”を持つ記事は92,253件あり,そのうちVIAF IDを持つ記事は74,864件であった。英語版Wikipediaの“Authority Control”,ドイツ語版Wikipediaの“Normdaten”とVIAF.orgのVIAF IDが不一致であった確率は,10.5%から15.9%であった。

 他言語版Wikipediaへの典拠データの追加を念頭に,Wikidataの作成も行われている。プロジェクト開始当初,Wikipedia全285言語へのリンク移行には,言語ごとに対応するしかなく,一か所で修正が行われた場合,全体に反映されず,データの同期が保証されないという問題点があった。この解決策として,言語間リンクによる全ての関連ページのグループのセマンティックデータの集積であるWikidataが作成された。まずは「典拠レコード」に相当するテンプレートを持つドイツ語版,フランス語版,イタリア語版への典拠データの追加が検討され,その後計7つの典拠データから計100万件に近い典拠データレコードがWikidataに追加されている。

 プロジェクトの結果,VIAF.orgのウェブサイトへのアクセスが3倍に増加したとのことである。また,Wikidata によりVIAFやVIAF参加館のデータと,Wikipediaのデータがリンクされ,それぞれの比較や分析が可能になった。性別データを例に取ると,米国議会図書館は性別を(変更が判明したものは)その変更年とともに記録するなど,Wikidataより多様な情報を持っているため,それらを活用したり,VIAFとWikidataいずれかに性別データがない場合,相互補完も可能になったという。

 クライン氏らは,先の記事で,個人名以外の典拠データや分類,件名標目などのデータをWikipediaにリンクするといった類似の試みの今後の可能性に触れている。記事に分類記号をリンクすることで,Wikipediaの読者がWorldCatのリンクをたどり,図書館で関連文献を探せるようにしたり,Wikipedia記事の引用文献の件名標目に基づき,記事自体の件名標目を決定する等だ。また,Wikipediaから構造化データを抽出するプロジェクトであるDBpediaもこうした試みのパートナーになりうるとしている。

 世界で最もアクセスのあるサイトの一つであるWikipediaとVIAF個人名典拠データをつないだ本プロジェクトは,図書館データ,さらには図書館自体への認知度やアクセス向上につながると記事は結んでいる。データのリンクにより,新たな分析やデータ利用方法が可能になり,新たなサービスの提供にもつながる。今後も図書館データのさらなる有効活用を期待したい。

OCLCカナダ・石橋恵

Ref:
http://journal.code4lib.org/articles/8964
http://www.oclc.org/viaf.en.html
http://viaf.org/
http://www.oclc.org/research/news/2012/12-07a.html
http://en.wikipedia.org/wiki/Lewis_Carroll
https://en.wikipedia.org/wiki/Wikipedia:VIAF/errors
http://www.wikidata.org/wiki/Q38082
http://hangingtogether.org/?p=2877
http://hangingtogether.org/?p=2986
http://hangingtogether.org/?p=2452
CA1521
E1345