CrossRef、論文PDFから参考文献情報を抽出するツールをオープンソースで公開

論文のリンキングサービスを提供するCrossRefが、学術雑誌論文のPDFファイルから参考文献の情報を抽出する“PDF-Extract”というツール(Rubyスクリプト)をオープンソースで公開しました。同ツールのウェブ版インタフェース“Extracto”も用意されており、APIも提供されています(ただし、サーバが貧弱なので注意とのこと)。出版社がCrossRefに参加して自社コンテンツへのDOI(Digital Object Identifier)を付与する際には、そのコンテンツに含まれる参考文献にDOIを使ったリンクを設定しないといけないそうで、中小規模出版社にとっては負担となるこの作業を容易にするためにこのようなツールを作成したと説明されています。

PDF-Extract(GitHub)
https://github.com/CrossRef/pdfextract

Extracto
http://extracto.labs.crossref.org/

PDF-Extract(CrossRef Labs)
http://labs.crossref.org/styled-6/pdf_extract.html

PDF-Extract(CrossTech 2012/4/17付け記事)
http://www.crossref.org/CrossTech/2012/04/pdf-extract.html

CrossRef Labs
http://labs.crossref.org/