2021年7月26日、ルクセンブルク国立図書館(BnL)が、人工知能(AI)を活用した、新たなOCRソフトウェア“Nautilus-OCR”をGitHubで公開したと発表しました。
同館は、2006年から光学文字認識(OCR)を利用した歴史的な新聞のデジタル化を行っていますが、紙や印刷の品質・経年劣化等により、文字を正確に認識できなかったと述べられています。今回公開されたソフトウェアは、AIを用いた課題解決を推進する政府のイニシアチブAI4GOVの支援のもと、同館により開発が行われました。
発表によると、“Nautilus-OCR”は、METS/ALTO形式のOCR結果の質向上や通常のOCRエンジンとして利用でき、行の自動特定、フォントの分類、精度向上の予測等のモジュールが含まれています。その他、パブリックドメインの新聞記事を基にした、手書き文字のOCRデータセットや、機械学習モデルも公開されています。オープンソースライセンス“GNU General Public License(GPL)”のバージョン3で提供されています。
Nouveau logiciel pour la reconnaissance optique de caractères (OCR)(BnL, 2021/7/26)
https://bnl.public.lu/fr/actualites/articles-actualites/2021/nautilus-ocr.html
natliblux / nautilusocr(GitHub)
https://github.com/natliblux/nautilusocr
関連:
The AI4Gov initiative(gouvernement.lu)
https://gouvernement.lu/en/dossiers.gouv_digitalisation%2Ben%2Bdossiers%2B2021%2BAI4Gov.html
参考:
GNU GPL/LGPLバージョン3の日本語訳
Posted 2007年9月5日
https://current.ndl.go.jp/node/6423
E2334 – 米国議会図書館の検索ツールNewspaper Navigatorについて
カレントアウェアネス-E No.404 2020.12.10
https://current.ndl.go.jp/e2334