E1755 – 国立情報学研究所におけるデータセット共同利用の取組

カレントアウェアネス-E

No.296 2016.01.21

 

 E1755

国立情報学研究所におけるデータセット共同利用の取組

 

 近年,情報学及び関連の学術分野においては,実際のサービスや事業で生成された大規模データが必須の研究資源となってきた。それらがWeb上で提供されていれば研究者自らが収集して解析を行うことも不可能ではないが,その場合多大なコストや権利侵害のリスクに加えて,研究者間でデータを共有できないためにデータの同一性や研究の透明性・再現性の確保が問題となる。一方,民間企業においては,社会貢献,将来の共同研究や人材確保などの動機に基づき,保有している大規模データを学術研究目的に提供しようという機運が生じてきているものの,データの準備や権利処理のコスト,及び権利侵害や経済的損失のリスクを考えると慎重にならざるを得ない。このように,情報学などの学術分野では,実験や観測などによる大規模データのオープン化を進めている自然科学の諸分野とはデータ共有の状況が大きく異なる。これに対処するためには,データの保有者及び研究者の双方がメリットを受けるような仕組みを作ることが課題となる。

 国立情報学研究所(NII)は情報学分野における大学共同利用機関として,個々の研究者や大学などでは整備できない研究資源を整備して大学などの研究者に提供すること(これを「共同利用」という)を使命の一つとしている。その一環として,上記課題に対処するために2010年に「情報学研究データリポジトリ」(IDR)を設置し,データ保有者および研究者それぞれに対する窓口となって,契約手続や利用者管理,データ配布などを引き受けることで,民間企業等からのデータ提供を図ってきた。その結果,近年ではさまざまな企業からデータ提供の申し出を受けるようになり,取り扱うデータの種類や利用者数が増加するだけでなく,利用者の研究分野も多様化してきた。

現在,IDRが配布している主なデータセットは以下の通りである。

    (1)Yahoo!データセット(Yahoo!知恵袋データ)
    (2)楽天データセット(楽天市場データ,楽天レシピデータなど6種類)
    (3)ニコニコデータセット(ニコニコ動画コメント等データ,ニコニコ大百科データ)
    (4)リクルートデータセット(ホットペッパービューティーデータ)
    (5)クックパッドデータセット(レシピデータ,献立データ)
    (6)HOME’Sデータセット(賃貸物件データ,画像データ)
    (7)国文研データセット(古典籍書誌データ,画像データ(E1754参照) 

     他にNTCIRテストコレクション(情報アクセス技術評価用データセット)や音声コーパス,映像コーパスなどの配布も行っている。詳細はIDRのWebサイトを参照されたい。

     これらのうち,民間企業提供のデータセット(1)~(6)の2015年12月末時点での利用者数は,のべ470研究室(ニコニコデータセットを除く),個人でも利用可能なニコニコデータセットの利用者数は1,331人であり,新規データセットの提供に伴い,年々加速度的に増加している。利用動向については,初期は,データの特性上,投稿内容やレビューの解析といった自然言語処理分野での利用が多かったが,データの種類や内容の幅が広がるにつれ,利用者の所属や利用目的も経営学や農学,医学,建築学,環境学などへと拡大している。

     また(7)については2015年11月10日にクリエイティブコモンズの「表示-継承」(CC BY-SA)ライセンスで公開して以来,12月末時点で1万回あまりのダウンロード(ロボット及び同一IPアドレスからの重複アクセスを除く)があった。正確な利用者数や利用者属性などは不明であるが,一般利用者からのアクセスも相当数にのぼると推測される。

     今後も,上記データセットへのデータの追加や更新,新規データセットの提供などを予定している。また,さらに安全なデータ共有方法を開発し,研究者にとってより魅力的なデータの提供を行うとともに,データ提供者も巻き込んだ研究コミュニティの活性化,研究成果の収集や可視化などに努め,データセットを中心とした研究を推進したいと考えている。

    国立情報学研究所・大須賀智子,大山敬三

    Ref:
    http://www.nii.ac.jp/dsc/idr/
    http://www.nii.ac.jp/dsc/idr/ntcir/ntcir.html
    http://www.nii.ac.jp/dsc/idr/speech/speech.html
    E1754