米国国立衛生研究所(NIH)所蔵の原稿がテキストマイニング等のため最適化

米国国立衛生研究所(NIH)は、同所の支援した科学者の、2008年以来の、30万以上の原稿をPubMed Central(PMC)で公開してきましたが、NIHは今回、テキスト分析が可能な状態で原稿を公開したと発表しています。

NIHが支援した著者原稿の全てのPMCのコレクションが、XMLもしくはテキストファイルのパッケージでダウンロードすることができるとのことです。
パッケージには画像や図表、動画などは含まれておらずテキストのみであり、テキストマイニングを促進するものとのことです。

NIH Manuscript Collection Optimized for Text-Mining and More(NLM Technical Bulletin,2015/12/4)
https://www.nlm.nih.gov/pubs/techbull/nd15/brief/nd15_text_mining_nih_manuscripts.html

Author Manuscript Collection
http://www.ncbi.nlm.nih.gov/pmc/about/mscollection/