E2891 – NDLOCR-Liteの公開とその背景

カレントアウェアネス-E

No.525 2026.06.25

 

 E2891

NDLOCR-Liteの公開とその背景

国立国会図書館電子情報部電子情報企画課次世代システム開発研究室・青池亨(あおいけとおる)

 

  国立国会図書館(NDL)電子情報部電子情報企画課次世代システム開発研究室(次世代室)では、次世代の図書館システムの開発に役立てるための調査研究を行っている。近年は、所蔵資料へのアクセス性を改善するためにデジタル化資料をテキスト化する技術として、光学文字認識(OCR)に関する研究開発と開発したOCRソフトウェアのオープンなライセンスでの公開に特に力を入れて取り組んでいる。

  2026年現在、次世代室が開発・公開しているOCRには、「NDLOCR」「NDL古典籍OCR」と、それぞれの軽量版(Lite版)がある。NDLOCRは明治期以降の活字資料を対象とするOCRであり、2021年度から2022年度にかけて、主に外部委託によって開発・公開し、2024年1月から主として新規デジタル化資料のテキスト化のためNDLの館内システムで利用している。また2022年度からは、くずし字等を含む古典籍資料を対象とするNDL古典籍OCRを次世代室職員が内製によって開発・公開し、研究者からのフィードバックを得ながら現在も改善を続けている。

  これらは高い水準の文字認識性能を有している一方で、動作環境にGPU(Graphics Processing Unit。画像処理装置)を必要とする重量級のOCRであり、公開自体は歓迎されたものの「使い方が難しい」「GPUの準備が負担である」といった声も多く寄せられた。

  こうした課題に対応するべく、2024年度から軽量版の内製開発を開始した。まずは、内製開発したことでOCR内部の技術要素を次世代室職員が熟知していたNDL古典籍OCRを対象に、構成する技術要素を、車載カメラにおける画像分析などに用いられる軽量な手法へと徐々に置き換えていくことで、軽量版の開発を進めた。完成した軽量版をNDL古典籍OCR-Liteと名付けて2024年11月に公開したところ、人文系の研究者やNDL内からも大きな反響があった。

  活字資料を対象とするNDLOCRの軽量版を望む声も高まったことから、NDL古典籍OCR-Liteに実装した技術を出発点として、NDLOCR-Liteの開発にも着手した。まずはNDL内の業務効率化のため、希望する部署の職員に開発中のプロトタイプを提供し、フィードバックを受けての改良や機能検討を重ね、2026年2月に一般向けに公開することができた。

  NDLOCR-Liteの特徴は、NDLOCRとほぼ同様の文字認識性能を保ちつつ、一般的なノートPCで高速に動作する軽量性にある。メモリに概ね1GB程度の空きがあれば動作し、外部との通信を行わずに処理が完結する。WindowsやmacOS等で利用できるデスクトップアプリケーションを用意しており、マウス操作だけで画像選択、OCR実行、結果確認を行える。NDL古典籍OCR-Liteと比較して対象紙面に含まれる文字数が多い傾向にあることから、処理すべき情報が増加し処理時間が長くなることが課題であったが、紙面上において大きな処理時間を割いて読むべき箇所と、軽い処理で十分な箇所を自動判定し、対象に応じて処理を効率的に使い分ける仕組みを実装することで、非力なコンピュータであっても高速なOCR処理を実現した。

  使用するコンピュータへのアプリケーションの導入は、GitHub上のリリースページからOSに応じたzipファイルをダウンロードし、展開後に実行ファイルを起動するだけの簡単なものである。展開先フォルダ名に日本語等の全角文字を含めないようにする点には注意が必要である。OCR処理結果の出力形式は、TXT、JSON、XML、TEI、透明テキスト付PDFから選択でき、ユーザーインターフェース(UI)上に表示される処理結果をコピー&ペーストすることも可能である。

  NDL内の業務ニーズを満たすために実装した機能として、画像上から選択した任意の範囲だけを処理するCrop&OCRモードや、現在表示している画面から範囲を指定して直接読み取るキャプチャモードも備える。

  コマンドラインから呼び出してバッチ処理をさせることもでき、またOCRモデル部分を可搬性の高いONNX(Open Neutral Network Exchange。機械学習モデルを環境に依存せずに実行するための共通形式)として提供しているため、他のプログラムに組み込んで独自のアプリケーションを開発することも容易である。例えば、NDLOCR-Lite Web版は橋本雄太氏(国立歴史民俗博物館、NDL非常勤調査員)が開発した、ブラウザ上で動作するNDLOCR-Liteの派生アプリケーションである。

  2026年4月には、2025年度にNDLの資料所管課の協力を受けて手書きの憲政資料やタイプライターで作成された占領期資料を選定し、それを基に、外部委託で作成した学習用データセットを用いてNDLOCR-Liteの文字認識性能の強化を実施した。性能改善や機能追加は、NDL内の関係部署や外部関係機関等と連携しながら今後も行っていく予定である。

  また現在、更なる業務効率化ツールの検討として、館内サーバ上で稼働しているローカルLLM(大規模言語モデル)とNDLOCR-Liteを連携させ、構造化、情報抽出、機械翻訳、要約等の加工を、外部との通信なしにNDLOCR-Lite上の操作だけで行う実証実験も進めている。

  NDLOCR-Liteを始めとする、次世代室が開発した技術を可能な範囲で自由に使える形で公開することで、世の中全体の日本語OCR技術を向上させるとともに、デジタルアーカイブにおける日本語資料のアクセス性が改善されることを期待している。是非お試しいただきたい。

Ref:
“NDLOCR-Liteの公開について”. NDL Lab. 2026-02-24.
https://lab.ndl.go.jp/news/2025/2026-02-24/
ndl-lab. “ndlocr-lite”. GitHub.
https://github.com/ndl-lab/ndlocr-lite/
ndl-lab. “ndlocr-lite, Releases”. GitHub.
https://github.com/ndl-lab/ndlocr-lite/releases
“NDLOCR-Liteの使い方”. NDL Lab.
https://lab.ndl.go.jp/data_set/ndlocrlite-usage/
ndl-lab. “ndlocr_cli”. GitHub.
https://github.com/ndl-lab/ndlocr_cli
ndl-lab. “ndlkotenocr_cli”. GitHub.
https://github.com/ndl-lab/ndlkotenocr_cli
ndl-lab. “ndlkotenocr-lite”. GitHub.
https://github.com/ndl-lab/ndlkotenocr-lite
“Guidelines for Electronic Text Encoding and Interchange”. TEI.
https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html
NDLOCR-Lite Web.
https://ndlocr-liteweb.netlify.app/