カレントアウェアネス-E
No.281 2015.05.21
E1675
NDLにおけるLODの作成と試行提供:ISILを対象として
国立国会図書館(NDL)は,Linked Open Data(LOD;CA1746参照)の提供とその利活用を促進するため,様々な取組を行っている。その一つとして,2015年4月27日,「図書館及び関連組織のための国際標準識別子(ISIL)」(CA1715,CA1757参照)のLODを作成し,試行提供を開始した。国立国会図書館ホームページの「オープンデータセット」のページにおいて,RDF/XML形式のデータをパブリックドメインマーク付きで公開している。本稿では,既存データを元にしたISILのLOD作成から試行提供開始までの,約半年間の取組を通して得られた知見等を紹介する。
●ISILの概要
ISILは,図書館をはじめ博物館,美術館,文書館等の類縁機関に付与される国際的な識別子である。国際標準規格(ISO 15511)であり,日本では,NDLが国内登録機関となり,2011年10月からISILの付与と管理を行っている。ISILのID,機関名,住所等の機関情報は,「ISIL管理台帳」で維持管理しており,国立国会図書館ホームページからCSV形式及びExcel形式のデータをダウンロードして自由に利用することができる。ISIL管理台帳は随時更新されており,今回の試行提供では,2014年12月18日時点のデータ,約7,500件を使用した。
●データモデルの作成
LODの作成に当たっては,英国図書館やドイツのベルリン州立図書館等,海外の先行事例を調査した。また,セマンティックウェブの専門家である神崎正英氏の助言を受けながら,データモデルを作成した。その際,蔵書検索システム等の図書館業界のシステムに限らず,広くウェブで利活用されるように,汎用性のあるデータモデルを目指した。使用するメタデータの語彙は,LODの相互運用性と使い易さの観点から,ウェブの世界で広く使われているDCMIメタデータ語彙(E1077参照)やSchema.org(E1192参照)等の既存の語彙から選択した。詳細は,「オープンデータセット」のページで公開しているデータモデルを参照されたい。
●外部リソースへのリンクとデータの充実
LODを「つながる」データとするために,ウェブ空間でリソースを一意に識別できる,URI(Uniform Resource Identifier)を持つ外部リソースへのリンクを充実させた。具体的には,「国立国会図書館サーチ」の所蔵機関コードと,以下のURIを可能な限り含めた。各URIは,「北海道立図書館」の例である。
- 「Web NDL Authorities」の名称典拠データ
例:http://id.ndl.go.jp/auth/entity/00265285 - 「国立情報学研究所総合目録データベース」の図書館ID
例:http://ci.nii.ac.jp/library/FA010697 - DBpedia Japanese
例:http://ja.dbpedia.org/resource/北海道立図書館 - 統計センターの「次世代統計利用システム」の「標準地域コード」
例:http://statdb.nstac.go.jp/lod/sac/C01217
また,東京大学空間情報科学研究センターが提供する「CSVアドレスマッチングサービス」を用いて,ISIL管理台帳の住所に緯度・経度情報を追加した。さらに,公共図書館や大学図書館,専門図書館といった図書館の種別を表す語彙として,新たに「図書館館種コード」を定義し使用した。
●データのクレンジング
作業の中で最も困難であったのは,データのクレンジング(修正等の整備)であった。外部リソースへのリンクの生成と,データのRDF/XML形式への変換には,ウェブで無料提供されているオープンソースソフトウェア“OpenRefine”を用いた。“OpenRefine”は,直感的な操作が可能で,プログラミングの技術がなくてもRDF用クエリ言語のSPARQLを用いたデータ抽出が可能であるほか,外部リソースへのリンクを作成する機能がある等,LODの作成に有用なツールとされている。しかし,作業をしてみると,ISIL管理台帳のデータは,約7,500件と件数が多く,外部リソースへのリンクの生成等に多大な時間がかかることが分かった。そのため,“OpenRefine”で扱いやすいようにデータを修正・正規化する等のデータのクレンジングを担当者が手動で行った。
●利用条件の明示
データをオープン化するに当たっては,その利用条件を明示する必要がある。そこで,ISILのLODには,当該データが著作権保護の対象外であることを示すパブリックドメインマークを付け,営利・非営利の目的を問わず自由に利用できることを分かりやすく明示することとした。NDLが公開するデータにこうしたマークを付与するのは初の試みであり,今回の試行提供を通じて,マークを表示することによる効果を探りたいと考えている。
ここで紹介したISILのLODは試行版であり,URIについて一部技術的な課題が残っている。今後,より使い易いものとしていくため,データモデルや利用条件のマーク表示等について,ご意見をいただければ幸いである。ISILのLODの試行提供によって,図書館等の情報がウェブの世界で広く利活用されることを期待している。
電子情報部電子情報流通課・福山樹里
Ref:
http://ndl.go.jp/jp/aboutus/standards/lod.html#activity
http://ndl.go.jp/jp/aboutus/standards/opendataset.html#ISIL_trial
http://ndl.go.jp/jp/library/isil/
http://dublincore.org/documents/2012/06/14/dcmi-terms/
http://www.stat.go.jp/index/seido/9-5.htm
http://statdb.nstac.go.jp/system-info/api/api-spec/
http://newspat.csis.u-tokyo.ac.jp/geocode-cgi/geocode.cgi?action=start
http://openrefine.org/
CA1746
CA1715
CA1757
E1077
E1192