E1843 – OCLC,世界のLinked Dataプロジェクトを調査<文献紹介>

カレントアウェアネス-E

No.311 2016.09.15

 

 E1843

OCLC,世界のLinked Dataプロジェクトを調査<文献紹介>

 

Karen Smith-Yoshimura. Analysis of International Linked Data Survey for Implementers. D-Lib Magazine. 2016, 22(7/8).

 2015年6月1日から7月31日まで,OCLCの研究開発部門であるOCLC Researchが,2014年(E1625参照)に続きLinked Dataを用いたプロジェクトやサービス(以下プロジェクト)の実態調査を,プロジェクトの実務担当者を対象に行った。本稿では,その結果をまとめた文献を紹介する。

◯調査の概要
 71機関から回答を得ており,168件のプロジェクトが報告された。そのうち,文献では一定程度詳細な回答が得られた112件のプロジェクトを分析対象としている。また,71の機関のうち国立図書館が14館,学術図書館が23館,公共図書館が5館を占め,行政機関や学術的プロジェクトなども回答した。また,国別で見ると米国が43%(39件)を占め最も多く,続いて,スペイン,英国,オランダなどであった。

◯プロジェクトの概況
 現在稼働しているものは67%(75件)で,そのうち2年以上継続中のものが61%(46件)を占める。Linked Dataを使用及び提供しているものが64件で,また,使用するだけのものは38件である。そして,69%(77件)が,大学や研究機関,図書館など外部と連携している。また,98件が現有の人員にプロジェクトを担当させている。プロジェクトの資金については,約4分の3(82件)が図書館や文書館のほか母体となる機関からの資金提供を受けている。また,助成金を獲得しているものが25件あった。

 その他,調査ではプロジェクトの成功についても尋ねている。多くは初期の段階にあるため,「成功」「おおむね成功」と回答したものは46件にとどまる。また,どういった点で成功であるかという点も,データの再利用,発見可能性の向上,多言語対応などによって新しい知識がうみ出される,Linked Dataに取り組むというリーダーシップの提示,セマンティックWebに向けた準備,など様々である。

◯Linked Dataの提供
 提供するデータは,書誌(56件)や典拠(45件)が多く,記述メタデータ(43件)がそれに続く。その他,オントロジー・語彙(30件),デジタルコレクション(26件),地理データ(18件),データセット(16件),博物館の所蔵品に関するデータ(10件)なども挙げられている。また,各プロジェクトが提供するデータセットは小規模なものが多い。データセットの大きさについて回答があった67のプロジェクトのうち,トリプル数(RDFで記述されたデータの基本単位)が1,000万未満のプロジェクトが39件を占める。一方でトリプル数が10億以上であったプロジェクトは3つ(書誌・典拠・図書館とその関連機関に関するデータを提供する,ドイツのノルトライン=ヴェストファーレンライブラリーサービスセンターの“lobid”,ノルウェー科学技術大学(NTNU)の書誌や典拠データ等を提供するプロジェクト,OCLCのWorldCat.org)にすぎなかった。なお,提供する理由についても言及があるが,2014年の調査とあまり変わらない結果となり,ウェブ上でのデータの存在感を高めることなどが挙げられている。

 データを表現する語彙やオントロジーには様々なものが用いられている。使用頻度の高い順に,SKOS(Simple Knowledge Organisation System),FOAF(Friend-Of-A-Friend),DCMIメタデータ語彙,ダブリンコアメタデータ基本記述要素集合(The Dublin Core Metadata Element Set:DCMES),schema.orgとなっている。また,ライセンスは,何も表示しないものと“CC0 1.0 Universal”を表示しているものがそれぞれ26件ずつで最も多かった。また,Linked Dataを提供する74件のプロジェクトのうち,19件は機関内でのみアクセス可能なものである。残り55件は,複数の方法を用いて公開しており,ウェブサイトが最も一般的である。続いて,コンテントネゴシエーション,SPARQLエンドポイントなどで提供している。Linked Dataを提供する技術は様々で,10以上のプロジェクトで使用されているのは,SPARQL, Java, XSLT, Zorbaである。提供の際の課題としては,スタッフの技術習得,古いデータの不整合性,データを表現する適切なオントロジーの選択などが挙げられている。

 また,提供するLinked Dataの利用状況については,過去6か月間で,利用が1日平均で1,000件未満にとどまるプロジェクトが大半である。その一方,1日に10万件以上の利用があるデータセットもあり,Europeana,ゲティ研究所の用語データベース“Getty Vocabularies”,米国議会図書館(LC)の“id.loc.gov”,日本の国立国会図書館サーチ(NDL Search),“lobid”,WorldCat.org,バーチャル国際典拠ファイル(VIAF)などである。

◯Linked Dataの使用
 よく用いられるLinked Dataのデータソースは,VIAF,DBpedia(Wikipediaの情報をLinked Open Data化したもの),GeoNames(地名に関するデータベース),id.loc.gov,自機関のデータの順となる。文献では,図書館のプロジェクトはDBPediaとGeoNamesなどを除き,図書館以外のデータソースを使用しないことが指摘されている。

 Linked Dataを使用する目的は,利用者へのサービス向上,Linked Dataを用いることによる自機関等のデータの拡張が挙げられている。また課題としては,データソースとLinked Dataのマッチング,語彙のマッピング,Linked Dataが再利用できない場合があることやURIの欠落,典拠コントロールの欠如,データセットが更新されないこと,などが挙げられている。

◯まとめ
 文献では調査結果から,Linked Dataをめぐる状況は未だ発展途上にあると結論づけられ,より良いサービスのためには,多様なデータソースを活用し,他分野のデータセットを統合することが求められるであろう,としている。また,組織内にLinked Dataの専門家がいない場合など,他機関との連携の有効性も指摘している。そして最後にプロジェクト実施を検討する人々に向け,技術的なスタッフではなく,達成したいことを重視すべき自らの所属する機関等を巻き込むなどしながら,他の機関等にないデータを用いて特色ある価値を付加するプロジェクト開始当初から法的な問題にも目を配り,情報を集めながら,Linked Dataの構造や利用できるオントロジー,自機関が保有するデータに関する理解を深めるという提言とともに,“Start now! Just do it!”と呼びかけ,締めくくっている。

関西館図書館協力課・葛馬侑

Ref:
http://doi.org/10.1045/july2016-smith-yoshimura
http://hangingtogether.org/?p=5672
http://www.oclc.org/content/dam/research/activities/linkeddata/oclc-research-linked-data-implementers-survey-2014.xlsx
http://www.getty.edu/research/tools/vocabularies/
http://lobid.org
http://www.ntnu.no/ub/data/
http://www.ndl.go.jp/jp/aboutus/standards/index.html
http://www.ndl.go.jp/jp/aboutus/standards/translation.html
http://doi.org/10.1241/johokanri.58.127
E1625
E1192
CA1746