E1946 – 研究データリポジトリの現状<文献紹介>

カレントアウェアネス-E

No.331 2017.08.24

 

 E1946

研究データリポジトリの現状<文献紹介>

 

Maxi Kindling et al. The Landscape of Research Data Repositories in 2015: A re3data Analysis. D-Lib Magazine. 2017, 23(3/4).

 本文献は,2015年末(12月3日)時点で,DataCite(E1537参照)が運営する研究データリポジトリ(RDR)のレジストリ“re3data.org”に登録されている1,381のRDRについて,リポジトリの運営機関・種別・主題,リポジトリへのアクセス条件などを分析する。RDRは,それぞれ提供するサービスレベルなどの点で違いがあり,それらは主として各主題分野の事情の違いによるものであると指摘している。

●運営機関等

 開発・維持・資金提供等の面でRDRに関与する機関は,合計で4,311機関に達する。それらの機関の所在地を国別にまとめると,多い順に米国(1,936),ドイツ(521),英国(378),カナダ(216)などとなる。これには,2015年末まで,re3data.orgへの登録に際して英語のGUIを備えていることをRDRに求めていたことが影響しているかもしれないと本文献は指摘している。

●リポジトリ種別

 86.2%のRDRは主題リポジトリ,29.5%は機関リポジトリである。その他,ポータルサイトや商用のデータストレージサービスなどがある。たとえば特定の主題のみを扱う研究機関のリポジトリなど,主題リポジトリでありかつ機関リポジトリであるRDRは,19.5%である。

●主題とコンテンツ種別

 収録対象とする主題は,自然科学(Natural Sciences)が51.5%,生命科学(Life Sciences)が49.8%と多い。人文・社会科学(Humanities and Social Sciences:HSS)は27.1%,工学(Engineering Sciences)は12.0%である。

 RDRが収録しているコンテンツの種別で最も多いのは“Scientific and statistical data formats”(SPSSなどの科学データ・統計データ)であり,881(63.8%)のRDRが収録している。以下“Standard office documents”(ワープロや表計算などのオフィスソフトのファイル)が786(56.9%),“Plain text”(テキストファイル)が690(50.0%)などとなっている。主題別では,人文・社会科学において,“Standard office documents”,“Plain text”,“Images”(JPEG,GIFなどの画像ファイル)が比較的多く,とくに“Plain text”が多い。生命科学においては,他の主題よりも“other”(その他)に分類されるコンテンツを収録するRDRが多く,“Structured text”(XML,SGMLなどの構造化テキスト),“Software”(ソフトウェア),“Scientific and statistical data formats”,“Structured graphics”(CADなどの構造化グラフィックス)なども若干多かった。自然科学においては,“Images”,“Raw data”(測定結果など機器固有の生データ),“Scientific and statistical data formats”が比較的多かった。工学においては,“Audiovisual data”(WAVE,MP4などの音声ファイルや動画ファイル)や“other”が比較的多かった。

●ポリシー

 85.4%が何らかのポリシーを提示していた。アクセス,収録データ,メタデータ,保存,データ登録,利用規約,品質などに関する内容を盛り込んでいるものが多い。本文献は,ポリシーにはポリシー名,目的,基本方針,適用範囲,権利関係,アクセス・利用,データ保持期間などの一般的な事項や,発効日・連絡先・参考文献・用語集などの形式的な事項を含めるべきである,としている。

●アクセス・利用制限

 re3data.orgでは,リポジトリ(database),研究データそのもの(data),データ登録のためのサービス(upload)のそれぞれへのアクセス・利用について,「オープン(open)」「制限(restricted)」「非公開(closed)」を区別している。研究データに対しては,「エンバーゴ(embargoed)」も使用される。

 リポジトリへのアクセスについては,95.5%がオープンである。研究データについても,86.2%が何らかのオープンな研究データを提供している。研究データへのアクセスを制限するケースには,「登録が必要」(33.9%),「有料」(7.4%),「機関会員のみアクセス可能」(1.2%)などがある。

 アクセス・利用制限についても主題ごとに特徴があり,たとえば人文・社会科学ではオープンな研究データを提供するRDRは比較的少なく,また生命科学では,エンバーゴ期間が設定された研究データを提供するRDRが比較的多い。

●分析と結論

 これらの分析結果から,RDRは主題の性格に大きな影響を受けていると結論付けている。実際,RDRの属性の多くは,サービス対象の主題と有意な相関関係がある。また,収録している研究データへのオープンアクセスはもはや当然のものとなっていること,RDRのウェブサイト上に研究データの利用規約やアップロードの条件などを明示することが重要であること,研究データの保存について信頼性を得るために研究データやそのメタデータ自体の質を保証する標準に準拠すべきことなども言及している。

●提言

 最後に,次のような提言を行っている。

  • RDRの可視性を高めるために,re3data.org等のレジストリに登録したり,レジストリに登録されている他のRDRのメタデータをレビューして自己に反映させるべきである。
  • 永続的識別子の付与,利用条件の明示,APIの提供,リポジトリの標準化などを行うべきである。

関西館図書館協力課・阿部健太郎

Ref:
https://doi.org/10.1045/march2017-kindling
E1537
E1888