論文1億本超から抽出された単語・短いフレーズの巨大インデックス“The General Index”の公開(記事紹介)

Nature誌のオンライン版に、2021年10月26日付けで記事“Giant, free index to world’s research papers released online”が掲載されています。論文1億本超(有料のものを含む)から抽出された単語・短いフレーズの巨大インデックス“The General Index”が、10月7日に無料でオンライン公開されたことを紹介しています。

“The General Index”は、米・カリフォルニア州の非営利法人“Public Resource”による支援の下、同法人の設立者であるCarl Malamud氏により作成されました。3,550億以上の単語やフレーズを、それらが掲載されている論文の横に並べた表を収録しています。

Malamud氏は、“The General Index”には論文全文は含まれておらず、5語以内のフレーズのみであることから、今回の公開は有料論文再利用に係る出版社の規約に抵触するものではないと見なしています。一方、記事に掲載されている法学者のコメントによれば、インデックスの作成プロセスにおいて規約に抵触した可能性もあるとしています。

Giant, free index to world’s research papers released online(Nature, 2021/10/26)
https://doi.org/10.1038/d41586-021-02895-8

The General Index(Internet Archive)
https://archive.org/details/GeneralIndex