E2088 – 研究データの利用評価指標の実務指針

カレントアウェアネス-E

No.360 2018.12.20

 

 E2088

研究データの利用評価指標の実務指針

 

 2018年9月,Make Data Count(MDC)が,研究データの利用評価指標の実務指針である“COUNTER Code of Practice for Research Data Usage Metrics Release 1”(以下「CoP for RD1」)を公開した。本稿ではその内容を概観する。

 CoP for RD1はMDCで活動するメンバーによって執筆された。MDCは2014年にスタートしたデータレベルの利用統計の指標を作成するプロジェクト(発足時の名称はMaking Data Count)である。DataCite,DataONE,米・カリフォルニア電子図書館(CDL)からのメンバーで構成されたチームは,各データリポジトリやプラットフォーム(データプロバイダ,大学や研究機関)が標準化された研究データの利用状況総計値(Usage Metrics)を公表できるようになることを目指している。

 先行調査として2014年に行われた「データレベルのメトリクス(指標)開発に向けた調査」の報告によると,研究者は指標としてダウンロード数を被引用数に次いで2番目に重要視している。そこでMDCは,CoP for RD1の開発にあたり,同調査のダウンロード数を公開すべきという指針の実現を目指した。2015年にかけてプロトタイプを作成,2016年にはそれを受けて研究データの標準の必要性を明確にし,データレベルの指標の開発が始まった。2017年から2019年の最後のフェーズにCoP for RD1を刊行した。

 利用状況総計値としては,電子ジャーナルや電子ブックなどテキストベースの電子リソースの利用統計の標準としてCOUNTER(CA1512参照)が先行するが,MDCはCOUNTERとも連携しながらプロジェクトを進めた。CoP for RD1を新たに作成した背景にはそれらの電子リソースとは異なる研究データ独自の特徴がある。例えばオープンアクセス(OA)を基本とすること,データセットの利用が中心であること,データセットのバージョン管理の重要さ,機械的なアクセスが多い点があげられよう。

 CoP for RD1はデータセットの利用統計のレポートに関する3章から5章を中心とした全8章と付録で構成される。6章以降はログの処理,レポートデータ処理規則,研究データのためのSUSHIプロトコル,参考文献,用語解説がつづく。ここでは,レポートを中心に必要な技術実装とその詳細について取り上げる。

 レポートの基本的な構成は2017年に公開されたCOUNTER Code of Practice Release 5(以下「CoP5」)と同じであるが,OAを基本とするため,購読機関を示す項目は持っていない。また,レポートはtsvとJSON形式で提供しなければならないとされる。

 レポートはヘッダと具体的な値を記述する本体で成立し,これに加えてマスターレポートが存在する。マスターレポートはどのようなレポートを出力するのかを設定するために用いる。ここでは下記のヘッダと本体の説明で取り上げる,Metric_TypesやReport_Attributesを用いたフィルタを適用して,利用者の需要に沿ったレポートを作成できるようにしている。CoP for RD1では,マスターレポートにはReport_ID,Report_Name,Host_Typesを含むことが期待されている。

 ヘッダはReport_Name,Report_ID,Release,Metric_Types,Report_Filters,Report_Attributes,Exceptions,Reporting_Period,Created,Created_byの10要素で構成される。このうちMetric_Typesとは,COUNTERレポートの利用属性であり,そのデータセットに対する動作(activities)を同定するものである。具体的にはCoP5でも登場するRequestとInvestigationの2種類が存在する。Requestとは,データセットのURLをクリックする等,データセットのコンテンツそのものが「取得された(retrieved)」動作を表す。Investigationとは,抄録の閲覧,プレビュー表示,リゾルバへのリンクなど,データセットに関する情報(抄録,解説,参考文献などインターフェイスによる違いが生じる)が「調査された(examined)」動作を表す。Requestはデータそのものへの要求を,Investigationはデータセットへの関心を含めて表現しており,前者は後者に含まれる。データセットの利用全体をカウントするTotalと,ユーザセッションごとの利用をカウントするUniqueの値を出すために,Metric_Typesには,Total_Dataset_Investigations,Unique_Dataset_Investigations,Total_Dataset_Requests,Unique_Dataset_Requestsの4種類が存在する。同じデータセットの同じユーザセッションで生じた動作は複数であっても,そのデータセットに対する動作は「1」(Unique)とカウントされなければならない。このUniqueの値を出すためには,データセットはDOI等の識別子を用いて,ユーザセッションはIDと年月日と時刻を組み合わせて同定する。また,Report_Attributesとは,その値を使用することでCOUNTERレポートの表示方法を変更する。ロボットアクセスの除去や,多重アクセスを1とカウントするフィルタリングとは異なり,利用統計の値そのものには影響しない。Report_Attributesには,年,アクセス元(機械的アクセスか否か),バージョン,Metric_Types,月別詳細の除外が存在する。

 次にレポートの本体に記述される各要素は,Dataset_Title,Publisher,Publisher_ID,Metric_Type,Reporting_Period_Total,mmm-yyyy(ここまで必須項目),DOI,Other_ID,URI(いずれか必須),Creators,Publication_Date,Dataset_Version,YOP,Access_Method(選択可)で構成される。

 MDCでは現在,フィードバックを受け改良を進めると同時に,各地でのワークショップの開催や研究データ刊行元への実装のための技術協力を行っている。研究データ公開や活用がさらに進み,公開した研究データのインパクトを測りたいという需要は増していくだろう。研究データの利用統計の比較や評価にCoP for RD1がどのように貢献するのか,今後の動向にも期待したい。

神戸大学附属図書館・末田真樹子

Ref:
https://www.projectcounter.org/counter-code-practice-research-data-usage-metrics-release-1/
https://makedatacount.org/
https://doi.org/10.1241/johokanri.58.844
https://www.projectcounter.org/counter-code-practice-release-5-now-published/
CA1512