DOIにマッチする正規表現(記事紹介)

CrossRefのブログ“CrossTech”で、DOI(デジタルオブジェクト識別子)にマッチする正規表現についての記事が掲載されています。

それによると、7,490万件のCrossRef DOIのうち、7,440万件は

/^10.\d{4,9}/[-._;()/:A-Z0-9]+$/i

という正規表現でマッチすることができますが、残り50万件に対応するためには

/^10.1002/[^\s]+$/i
/^10.\d{4}/\d+-\d+X?(\d+)\d+<[\d\w]+:[\d\w]*>\d+.\d+.\w+;\d$/i
/^10.1021/\w\w\d++$/i
/^10.1207/[\w\d]+\&\d+_\d+$/i

というパターンも必要で、しかもこれでも7.2万件はマッチできずに残ってしまうということです。

DOIs and matching regular expressions(crosstech 2015/8/11付記事)
http://crosstech.crossref.org/2015/08/doi-regular-expressions.html