2023年12月5日、国立国会図書館(NDL)が、「次世代デジタルライブラリー」に資料画像に含まれる表から表形式の構造化テキストデータを作成する新機能を追加しました。
資料画像の表示画面でデジタル化資料の表領域を選択することによって、当該領域内のOCRテキストデータをHTML又はTSV形式に構造化して取得することができるというものです。
併せて、新機能実現のためのプログラムのソースコードと開発時に作成したデータセットをGitHub上で公開しています。
次世代デジタルライブラリーへの新機能(表の構造化)の追加及び新機能のソースコード及びデータセットの公開について(NDL Lab, 2023/12/5)
https://lab.ndl.go.jp/news/2023/2023-12-05/
次世代デジタルライブラリー
https://lab.ndl.go.jp/dl/
NDLTSR (NDL Table Structure Recognition)(GitHub)
https://github.com/ndl-lab/ndltsr
NDLTableSet(GitHub)
https://github.com/ndl-lab/ndltableset
参考:
国立国会図書館、「次世代デジタルライブラリー」の画像検索に機能追加等を実施 [2023年03月06日]
https://current.ndl.go.jp/car/173645
国立国会図書館、「次世代デジタルライブラリー」への古典籍資料のテキストデータ投入を完了:「NDL古典籍OCR」のソースコード等を公開 [2023年01月31日]
https://current.ndl.go.jp/car/171792
国立国会図書館、「次世代デジタルライブラリー」の全文検索対象を古典籍資料に拡大:江戸期以前のくずし字資料等約6万点が追加 [2022年11月01日]
https://current.ndl.go.jp/car/47094
E2533 – NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
カレントアウェアネス-E No.442 2022.09.01
https://current.ndl.go.jp/e2533
E2154 – 国立国会図書館,次世代デジタルライブラリーを公開
カレントアウェアネス-E No.372 2019.07.11
https://current.ndl.go.jp/e2154