GoogleのDataset Searchに基づいたデータセットの公開・利用についての分析(記事紹介)

2020年8月25日、Google AIのブログ“Google AI Blog”で、オンラインで公開されているデータセットの分析に関する記事が投稿されました。この分析はGoogleが提供するDataset Searchを使用して実施されています。なお、この記事は、セマンティックウェブに関する国際会議である2020 International Semantic Web Conference (ISWC 2020)に採択された論文“Google Dataset Search by the Numbers”を要約したものとなっています。

Dataset Searchはschema.orgの標準に沿ったメタデータから、データセットを収集しています。Dataset Searchにインデックスされているデータセットの件数は3,100万件以上であり、4,600件以上のインターネットドメインからそれらが収集されていることが報告されています。分野別では、社会科学、地球科学のデータセットが多いことが述べられています。理由としては、Dataset Searchの開発当初にそれらの分野にフォーカスしたこと、地球科学の分野ではFAIR原則の適用が進んでいることが挙げられています。

データセットへのDOIの付与状況については、約11%のデータセットにのみDOIが付与されていることが報告されています。ライセンスについては、34%のデータセットがschema.orgのメタデータプロパティを通してライセンスを明記していることが述べられています。

ユーザによる検索で結果として表示されたデータセットの分野の分布についても述べられています。前述のインデックスしているデータセットの分野の分布と比較すると、生物学と医学のデータセットの割合が高くなっていることが報告されています。理由として、この分析が実施された2020年5月は、新型コロナウイルス(COVID-19)の感染が拡大していた時期であったことが挙げられています。

以上の分析に基づき、学術的なデータセットを公開する際のベストプラクティスが挙げられています。機械可読な形式でのライセンスの明記やDOIの付与といったことが述べられています。

なお、分析の途中で得られた、DOIやその他の永続的識別子が付与された300万件以上のデータセットのメタデータは、データセットとして公開されており、読者によるさらなる分析が促されています。

An Analysis of Online Datasets Using Dataset Search (Published, in Part, as a Dataset)(Google AI Blog, 2020/8/25)
https://ai.googleblog.com/2020/08/an-analysis-of-online-datasets-using.html

Google Dataset Search by the Numbers
https://research.google/pubs/pub49385/

参考:
Google、“Dataset Search”を正式公開
Posted 2020年1月30日
https://current.ndl.go.jp/node/40103

Google、“Dataset Search”(ベータ版)を公開
Posted 2018年9月10日
https://current.ndl.go.jp/node/36633