E2052 – FAIR原則と生命科学分野における取組状況

カレントアウェアネス-E

No.353 2018.08.30

 

 E2052

FAIR原則と生命科学分野における取組状況

 

    近年,学術研究の世界においてはいわゆる「オープンデータ」の潮流が世界的に広がっている。すなわち,研究の成果であるデータを公開し,共有することが科学の発展のために強く推奨されるようになった。さらに,データの公開・共有化もただやみくもに行えば良いのではなく,一定のルールに基づくべきだとされるようになった。このルールの中で現在最も世界的に人口に膾炙していると思われるのが,FAIR原則である。

    FAIR原則とは,「Findable(見つけられる),Accessible(アクセスできる),Interoperable(相互運用できる),Reusable(再利用できる)」の略で,データ公開の適切な実施方法を表現している。FAIR原則は2014年にFORCE11(欧米の研究者,図書館員,出版関係者等から構成される団体)によって提案されたもので,提案に至る過程には生命科学分野の研究者も多数参加している。

    FAIR原則の原文は絶えず議論や指摘を受けて更新が繰り返されており,2018年8月現在では,Original Draft版,Living Document版,議論反映版の3つの版が存在する。この中では議論反映版が最新かつ参照可能であるため,以下「FAIR原則」という記載は全て議論反映版を指すものとする。

    4つのFAIR原則のそれぞれは,もう少し具体的な数個の小項目に分かれており,それを要約すると以下のようになる。

  • Findable:グローバルに一意で永続的な識別子(ID)をデータに付与する,十分なメタデータを付与する,など
  • Accessible:IDがわかれば誰もが利用できる通信プロトコルを使ってデータにアクセスできる,など
  • Interoperable:広く適用可能な記述言語によりデータ・メタデータが記述されている,など
  • Reusable:データに明確なライセンスが付与されている,データが研究コミュニティ内の標準を満たすものになっている,など
   それでは,このFAIR原則は実際の研究データの公開・共有化の取組とどう対応しているのだろうか。生命科学分野の研究データにおける取組の例として,筆者が所属するバイオサイエンスデータベースセンター(NBDC)での2つの事例を簡単に紹介したい。

    1つ目は,生命科学系データベースアーカイブである。本アーカイブは,国内の各研究機関で作成されたデータセットを集約して維持・公開することを目的として2009年3月にサービスを開始した(サービス開始時はライフサイエンス統合データベースセンターから公開)。とりわけ競争的資金による研究プロジェクトで作成されたデータセットは,研究プロジェクト終了後にその維持・公開が困難になるケースが多くあるが,本アーカイブでは研究プロジェクトからデータセットの寄託を受け,その維持・公開を継続することで,データセットへのアクセスを保証する。

   本アーカイブはサービス開始以来,全てのデータセットに統一フォーマットによるメタデータと,クリエイティブ・コモンズ・ライセンスをベースとする明確でオープンな利用許諾を付与している。また,2016年3月からは永続的識別子としてのDOIも付与している。利用者にとっては,メタデータやDOIを使ってデータセットが見つけやすくアクセスしやすいものになるだけでなく,権利面でも躊躇なくデータセットを再利用できるようにしている。

    2つ目は,2015年11月に公開したNBDC RDFポータルである。生命科学分野では,異なる用語や形式で記述されているデータセットが数多く存在し,統合的な利用の妨げとなることが多い。本ポータルでは,これら多種多様なデータセットを,RDF(Resource Description Framework)形式で統一して記述することで相互運用性を高め,連携を容易にしている。

   もちろん,本ポータルにおいてもメタデータは統一フォーマットで記述され,データの利用許諾も多くはクリエイティブ・コモンズ・ライセンスをベースとする,明確でオープンなものを用いている。

   以上,生命科学分野における研究データ公開・共有化の取組の事例を紹介してきたが,比較的データの公開・共有化が進んでいると言われるこの分野においても,メタデータフォーマットやデータ記述言語や検索アルゴリズムなどの技術的な課題,容量が指数関数的に増え続ける一方のデータの維持コストの負担などの制度的課題において未解決の点は多い。こうした課題を解決するためにも,研究者・図書館員など研究データに関わる多くの人々が分野を超えて対話を行い,知恵を共有することが今後ますます重要になってくると思われる。

科学技術振興機構バイオサイエンスデータベースセンター・八塚茂

Ref:
https://doi.org/10.18908/a.2018041901
https://www.force11.org/about
https://www.force11.org/group/fairgroup/fairprinciples
https://dbarchive.biosciencedbc.jp/index.html
https://integbio.jp/rdf/
https://doi.org/10.1241/johokanri.59.232