100年超分の論文引用データを機械的に抽出・整形 BMJとScholarcyの取り組み

論文閲読補助サービスScholarcyが、BMJ社の依頼を受け同社の発行する雑誌に掲載された100年超分の論文の引用データを機械的に抽出・整形したプロジェクトの概要を紹介しています。

BMJ社はI4OCに提供・公開する引用データを作成するために、Scholarcyにデータの抽出・整形を依頼したとのことです。I4OCで引用データを公開するにはCrossRefのXML形式で引用データを持つ必要がありますが、BMJ社が刊行する雑誌の過去分については、PDFデータしか存在しないものが多数ありました。そこでBMJ創刊当時の1840年代から1998年までの約20万件の論文について、Scholarcyに対しPDFからの引用データの自動抽出と、XML形式への整形が依頼されたとのことです。

Scholarcyは読むべき論文リストの作成や重要箇所のハイライト、引用付きの要約作成、引用文献の自動収集等を行うことで論文の閲読を補助するサービスを手掛けています。今回のプロジェクトにあたっては、29種類の異なる参考文献書式への対応、OCR、そもそも参考文献セクションが存在しない古い文献への対応、1つのPDFに複数論文が入っている場合への対応といった課題に向き合う必要があったとされていますが、最終的には12週間で200万件以上の引用情報を抽出・整形することに成功したとされています。また、99.9%の精度で人間による修正なしでXMLデータを作成できた、とのことです。

抽出・整形されたデータはすでにCrossRefに反映されており、オープン・サイテーションとしての利用もできるようになっています。

Unlocking 100 years of scientific papers: How Scholarcy partnered with BMJ to further I4OC(Scholarcy、2019/5/8付け)
https://www.scholarcy.com/unlocking-100-years-of-scientific-papers-how-scholarcy-partnered-with-bmj-to-further-i4oc/

参考:
引用データのオープン化を推進するイニシアティブI4OC立ち上げ
Posted 2017年4月11日
http://current.ndl.go.jp/node/33824

引用データのオープン化を推進するイニシアティブI4OC、新たに16の出版者が参加
Posted 2017年7月13日
http://current.ndl.go.jp/node/34360

引用データのオープン化を推進するイニシアティブI4OC、Crossrefに登録された雑誌論文の参考文献のOA率が50%を超えたと発表
Posted 2017年11月27日
http://current.ndl.go.jp/node/35061

I4OC、出版者に参考文献データの公開を求めるオープンレターを発表 Elsevier社等を名指し
Posted 2017年12月12日
http://current.ndl.go.jp/node/35149

引用データのオープン化を推進するイニシアティブI4OC、立ち上げから1周年
Posted 2018年4月5日
http://current.ndl.go.jp/node/35799

【イベント】2019年度京都大学図書館機構講演会「オープン・サイテーションと機関リポジトリの展開」(5/20・京都)
Posted 2019年4月9日
http://current.ndl.go.jp/node/37983