E2391 - NCR2018年版が規定するエレメント等の語彙のRDFデータ公開

カレントアウェアネス-E

No.414 2021.06.10

 

 E2391

NCR2018年版が規定するエレメント等の語彙のRDFデータ公開

慶應義塾大学文学部・谷口祥一(たにぐちしょういち)

 

  筆者が委員として参加している日本図書館協会(JLA)目録委員会は,日本目録規則2018年版(以下「NCR2018」;CA1951参照)が規定している実体,エレメント,語彙のリストの用語,関連指示子のそれぞれについて,その定義データをRDF(メタデータ記述の汎用的な構文枠組みの規定)に基づいた形式でCC BY 4.0の条件の下で2020年12月に公開した。これはLOD(Linked Open Data;CA1746参照)の実現に向けた取り組みの最初の一歩と位置づけられる。その後,2021年4月にも一部データの修正を行っている。

●経緯

  目録委員会は2019年3月から,NCR2018が規定する実体,エレメント,語彙のリストの用語,関連指示子について,XLSX形式ファイルおよびCSV形式ファイル(その後,TSV形式に変更)で定義データの公開・提供を行ってきた。将来的な展開を意図してのデータ公開であった。その後,同年7月と2020年12月に,一部のデータに対してより整合的なデータとなるよう修正を加えるとともに,RDA(Resource Description and Access;CA1766CA1767CA1837参照)の対応するエレメントや語彙のリストの用語等に付与されたURIを新たに定義データに追加した。

  並行して目録委員会は,これらNCR2018語彙定義のRDF形式データ公開に向けて,必要な仕様等の検討を重ね,2020年12月にデータ公開に至った。仕様の策定においては,先行して公開を始めているRDAの語彙のRDF定義データを参考にしている。ただし,RDA語彙は全体として複雑であり,その全てに従うことは得策ではないと判断し,RDA語彙定義の方式には必ずしも依拠していない。併せて,JLAの分類委員会が公開している日本十進分類法(NDC)新訂8版・9版のRDFデータとも可能な範囲で整合させるが,必ずしもそれに依拠しない方針とした。

●URIとRDFデータ提供形式

   NCR2018が規定する実体やエレメント等の語彙に用いる「ベースURI」は,( http://jla.or.jp/term/ncr2018/ )とし,語彙定義用に新規に導入した独自プロパティのベースURIは,( http://jla.or.jp/vocab/ncr2018# )とした。当面は, RDFデータの提供はTurtleとJSON-LDの形式によるファイルで行い,URI参照に対する参照解決(HTTP URIリクエストに対する返戻)については,今後実現方法を検討することとした。

●語彙定義のデータ項目などの変更

   NCR2018語彙に対するRDFデータの項目は,XLSX形式・TSV形式データで公開しているものを基本としているが,RDFデータ用に追加したものもある。また,RDFデータ化に当たっては,NCR2018が依拠する概念モデルをそのまま表現するのではなく,個々のエレメントにおける実際の記録方法などを考慮した。それゆえ,XLSX形式・TSV形式データで公開している定義情報とは,主に下記の点において異なる。

  1)XLSX形式・TSV形式データで公開している定義情報では,関連のエレメントおよびすべての関連指示子において「値域」(関連先となる実体の名称)を指定している。しかし,実際の値の記録方法には複数の方法が認められており,必ずしもURIをもつ実体インスタンスが記録されることにはならないため,RDF語彙定義データにおいてはそれらエレメントや関連指示子を表すプロパティの値域は指定していない。

  2)サブエレメントの場合の「上位」項目の扱い(例:サブエレメント「本タイトル」・「並列タイトル」等とエレメント「タイトル」との関係指示)や,関連指示子が適用される「対応エレメント」と「上位」の扱い(具体的には,関連指示子がより上位の指示子をもつかによって区別した扱い)など,両者において相違がある。

  3)RDFデータにおいて語彙定義を整合的に行う目的で新たな実体(「NCR2018実体」,「書誌的実体」,および「行為主体」)に対応するクラスを導入し,エレメントの定義域の指定などに利用している。同様に,著作に対する典拠形アクセス・ポイント,著作に対する異形アクセス・ポイントなど,アクセス・ポイントについてもエレメントに準じたものとしてURIを付与しプロパティの定義としている。なお,これらについてはXLSX形式・TSV形式データにも遡って追加している。

●語彙定義に用いるプロパティを追加で定義

  上記のRDF定義データとするため,既存のプロパティに流用できるものがあればそれを採用するが(例:rdf:type,rdfs:label,rdfs:subPropertyOfなど),既存語彙に利用できるプロパティがないものは,新規に定義した。新規に定義したプロパティには,id(ID),type(語彙種別),instructionNumber(条項番号),relatedElement(対応エレメント)などがある。

●今後について

  より充実した語彙定義とすべく検討を継続するとともに,これら語彙定義を適用したメタデータ(体現形メタデータ,著作メタデータ,個人メタデータなど)を適用例として公開していく予定である。ご意見などを,目録委員会に適宜,お寄せいただけると幸いである。

  また,筆者は上記のRDF語彙定義の仕様を検討する過程において,多様なRDF定義が可能でかつそれぞれが両立しがたいという悩ましい状況における選択の問題に対して,利用目的に従い語彙定義を導くことができるよう,1つの考え方(フレームワーク)を個人的に提案した(『日本図書館情報学会誌』67(2)に掲載予定)。当然ながら,その射程には限界があるが,1つの試行として受け止めていただけると幸いである。

Ref:
“NCR2018年版エレメント・語彙等データ提供”. 日本図書館協会目録委員会. 2021-04-21.
https://www.jla.or.jp/Portals/0/data/iinkai/mokuroku/ncr2018//tabid/795/Default.aspx
日本図書館協会目録委員会. NCR2018語彙のRDFデータ提供. 2021, 11p.
https://www.jla.or.jp/Portals/0/data/iinkai/mokuroku/NCR2018vocabularies.pdf
谷口祥一. 日本目録規則2018年版の語彙をRDFによって定義する:フレームワークアプローチ. 日本図書館情報学会誌, 2021, 67(2), 掲載予定.
渡邊隆弘. 『日本目録規則2018年版』のはじまり:実装に向けて. カレントアウェアネス. 2019, (340), CA1951. p. 12-14.
https://doi.org/10.11501/11299455
武田英明. Linked Dataの動向. カレントアウェアネス. 2011, (308), CA1746. p. 8-11.
https://doi.org/10.11501/3192158
和中幹雄. RDA:ウェブの世界に乗り出す目録規則(解説). カレントアウェアネス. 2012, (311), CA1766. p. 16-17.
https://doi.org/10.11501/3487219
バーバラ B. ティレット. 『RDA』:図書館をセマンティック・ウェブに適したものに. カレントアウェアネス. 2012, (311), CA1767. p. 17-23.
https://doi.org/10.11501/3487220
柴田洋子. ウェブで広がる図書館のメタデータを目指して―RDAとBIBFRAME. カレントアウェアネス. 2014, (322), CA1837. p. 18-22.
https://doi.org/10.11501/8836977