E2462 – 米・医学分野データリポジトリの評価指標に関する調査

カレントアウェアネス-E

No.428 2022.01.13

 

 E2462

米・医学分野データリポジトリの評価指標に関する調査

科学技術振興機構バイオサイエンスデータベースセンター・八塚茂(やつづかしげる)

 

  米国国立衛生研究所(NIH)は2021年10月,NIHのワーキンググループ“Lifecycle and Metrics Working Group”(以下「WG」)およびサブグループの“Metrics for Repositories Working Group”(以下「MetRe」)による報告書“Metrics for Data Repositories and Knowledgebases: Working Group Report”(以下「本報告書」)を公開した。本稿では,その概要を紹介する。

  本報告書では,生物医学分野のリポジトリにおいてどのようなメトリクス(評価指標)が収集されているかについて調査を行い,これらのリポジトリで共通に収集されるメトリクスを特定している。

  調査は2つのフェーズに分けて実施された。

  フェーズ1はMetReを中心に実施された。ここでは,米国国立医学図書館(NLM)において特定されたメトリクス,および近年の文献の中から抽出されたメトリクスを合わせたメトリクスマスターリストが作成された。また,NIHが運営または資金提供する132のリポジトリの中から,NIH全体で行われた研究を可能な限り代表する13のリポジトリが選別された。MetReは,13リポジトリの管理者に対してヒアリングを実施し,これらのリポジトリにおいてどのようなメトリクスが収集されているかを調査した。

  調査の結果多くのリポジトリにおいて収集されていることが判明したメトリクスおよびWGによって重要と判断されたメトリクスは以下の通りである。

(1)利用者の行動

  • 特性に関するメトリクス
  • 利用者数・ページビュー数
  • ファイルダウンロード数
  • 利用者の地理的分布
  • 新規利用者数/再訪者数
  • データ登録者数
  • 再訪頻度(利用者がリポジトリを再訪する間隔)
  • アクセス頻度(一定時間におけるリポジトリへのアクセスリクエスト数)

(2)科学への貢献・インパクトに関するメトリクス

  • 登録されているプロジェクト/研究の数
  • 登録されている対象の数(例えば疾患のデータベースであれば患者数など)
  • リポジトリに含まれる文献情報の数

(3)リポジトリの運営に関するメトリクス

  • ストレージのコスト
  • 1データセットあたりにかかるストレージのコスト
  • ハードウェア全体のコスト
  • 全データダウンロードにかかるコスト

  (1)に分類されるメトリクスは多くのリポジトリで収集されており,収集のためのツールとしてはGoogle Analyticsが最もよく利用されている。一方,(3)に分類されるメトリクスはあまり収集されていない。また,メタデータの完全性やデータの品質に関連するメトリクスも,あまり収集されていない。

  フェーズ2はWGを中心に実施された。WGは,フェーズ1の調査結果に基づいてアンケートを作成し,生物医学分野のコミュニティに対してアンケート調査を実施した。アンケート調査では,主にフェーズ1で特定されたメトリクスの収集の有無について質問している。

  アンケート調査では119人から回答を得られ,そのうち,92人(本調査の対象であるリポジトリの管理者または資金提供者)からの回答に焦点を当てて分析された。アンケート調査の結果のサマリは以下の通りである。

  • (1)および(3)に分類されるメトリクスの収集に関しては,フェーズ1の結果と同様の傾向を示している。
  • (1)に分類されるメトリクスを収集するためにはGoogle Analyticsが最もよく利用されており,これはフェーズ1と同様である。
  • 本来は収集したいが能力もしくはインフラの問題で収集できないメトリクスを挙げてもらったところ,この設問に回答した88人のうち65%にあたる57人が(2)に分類されるメトリクスを挙げている。
  • 収集されるメトリクスは,リポジトリの専門分野に関係なく概ね一致している。
  • 回答者のうち75人は,リポジトリが収集したメトリクスを資金提供者と共有することを希望している。

  フェーズ1およびフェーズ2の調査結果をふまえ,本報告書では以下のようにコメントされている。

  • 本調査結果は,この分野のリポジトリで最も使用されているメトリクスを明示している。この調査ではサンプル数が少ないにもかかわらず,メトリクス収集のパターンが観察された。上記(1)に分類されるメトリクスが各リポジトリによって収集される最も一般的なメトリクスであることが示されたが,データ品質やメタデータの完全性など,データセットのFAIR度(E2052参照)を評価するのに役立つ可能性のあるメトリクスは,調査対象となったリポジトリ全体ではあまり収集されていない。
  • リポジトリによって頻繁に収集されるメトリクスについては,簡単に利用できる既存のツールが存在することが多い。一方で収集をサポートするツール,インフラ,インセンティブなどの欠如により,一部のメトリクス(相互運用性,運用コストを追跡するためのメトリクスなど)の収集の採用率が低い可能性がある。
  • 本調査の課題は,対象リポジトリが比較的少ないこと,および事前に決定されたリストに対してフィードバックするアプローチだったことである。このためリポジトリが関心を持っていたはずの一部のメトリクスが把握されない可能性がある。より広範なコミュニティの活動を参照することや,特定の領域でより的を絞った調査研究等が必要になる場合がある。

Ref:
Metrics for Data Repositories and Knowledgebases: Working Group Report. NIH. 2021, 21p.
https://datascience.nih.gov/sites/default/files/Metrics-Report-2021-Sep15-508.pdf
八塚茂. FAIR原則と生命科学分野における取組状況. カレントアウェアネス-E. 2018, (353), E2052.
https://current.ndl.go.jp/e2052