カレントアウェアネス-E
No.454 2023.03.23
E2588
2022年度NDLデジタルライブラリーカフェ<報告>
電子情報部システム基盤課・村田祐菜(むらたゆうな)
2023年1月18日,国立国会図書館(NDL)は,2022年度NDLデジタルライブラリーカフェ(E2081,E2372参照)をオンラインで開催した。7年目の実施となる今回は「NDLOCRを使ってみた―全文テキスト活用のススメ―」と題し,NDLで開発した光学的文字認識(OCR)処理プログラム「NDLOCR」の活用に関する話題提供とディスカッションが行われた。NDLOCRは2021年度以降にNDLがデジタル化する資料のテキスト化を目的として,開発・公開され,オープンソースのため自由に二次利用が可能である。
第一部は開発者,技術者,研究者の各立場の講師による話題提供が行われた。NDL電子情報部次世代システム開発研究室の青池亨からは,NDLOCRとオープンデータセットの概要が紹介された。NDLOCRの特徴として,旧字体を含む文献の認識精度の高さや,レイアウト情報の付与による要素(本文,注釈,柱等)ごとのテキスト抽出が可能であること,オプションが設定できること等が紹介された。また,OCRとしての利用だけではなく,NDLOCRのソースコードや手法を二次利用し,「みんなで翻刻」(E2353参照)の成果物等と組み合わせることでくずし字等の古典籍資料をテキスト化できるようにした「NDL古典籍OCR」が紹介された。最後に,全文テキストや学習データ,語句の統計情報等の各種データセットを紹介し,活用を呼びかけた。
東京大学史料編纂所の中村覚氏は,技術者の立場からNDLOCRの利用デモと応用事例を紹介した。デモは,中村氏が開発したGoogle Colaboratory上の実行環境で行われ,プログラミングになじみのない利用者でも気軽にNDLOCRを試すことができる工夫をしたと述べた。システム開発事例としては「史料集版面ギャラリー」「幕末維新史料・横断検索システム」が紹介された。前者は史料編纂所で公開中の版面画像データベースをもとに,NDLOCRと様々な技術を組み合わせ,史料の横断検索,レイアウト情報を生かした柱からの時間情報の抽出と可視化,Ngram Viewer(E2533参照)等の機能が追加され,多様な側面から史料の検索・分析が可能である。このように,画像のみが公開されていたコンテンツに対するテキスト検索や,複数の機関が公開する史料を合わせ,特定の研究分野に有用な史料群の横断検索が提供できることがNDLOCRの利点であると述べた。
東京大学史料編纂所の箱石大氏は,研究者の立場から,日本史研究において全文テキスト検索がもたらす研究方法の変化と期待を述べた。膨大な史料集から手作業で研究材料を集める従来の方法から,刊行史料という文献範囲内ではあるが,短時間で悉皆的に情報抽出が可能になったことは画期的であるとした。また,特定の目的のための情報抽出だけではなく,意外な文献から用例を発見するなど,調査の過程で新たな研究テーマの発見も期待できると述べた。今後の課題としては,従来の研究方法に慣れている研究者へのアプローチとして操作の簡便化や学会等の場で周知の必要性を指摘した。さらに,膨大な史料のテキスト検索が可能な研究環境において,研究者が収集した膨大な情報をどのように処理・分析するか,史料の文脈をどう読み取るかという新たな課題が生じること,検索システムに依存し史料の通読をしなくなる可能性に留意すべきであると述べた。
第二部のカフェタイムでは,参加者を交えてNDLOCRや全文テキストの活用可能性,活用のあり方に関して議論が交わされた。
まず,NDLOCRの活用について,古典籍や漢詩,系図等の資料への活用例が共有され,講師の青池からは,本文のテキスト化や読み上げを主目的に開発したため,図表や系図等の認識精度には課題が残るとの説明があった。また,全文テキストについて,研究利用にはより正確なテキストであることが望ましく,資料の知識を持った各分野の専門家やクラウドソーシング等により,コンテンツの優先順位を付けて校正を行いテキストの品質を向上していく等の取り組みや,それをNDLにフィードバックしてサービス改善に生かす仕組みも考えられるのではないかという議論があった。
オープンソースソフトウェアとしての今後の発展に関しては,外部の開発者がGitHubで修正や機能追加をリクエストする等の想定はあるかという質問が寄せられ,講師の青池からは外部の開発者によるコントリビュートは歓迎するとの回答があった。
コンテンツの見せ方について,検索結果を実際の活用につなげるには,コンテンツの文脈がわかりやすく辿れることが望ましく,どのような情報をどのように提示したらよいのかという点について,アクセス数等のデータをオープンにすることも一案ではないかとの意見があった。さらに,アルゴリズムによるランキングと研究における資料の重要性は必ずしも一致しない,誤認識の問題や類似語がキーワード検索では統合しにくい等の課題もあるため,研究者側でも従来の方法と併用しつつ利用していくべきであるという意見が寄せられた。
総じて,様々な分野の資料への活用事例が報告され,NDLOCRの活用の広がりが感じられた。NDLOCRは2022年度も継続して開発中であり,さらなる機能の向上に期待したい。本イベントの記録はNDLウェブページ及び公式YouTubeチャンネルで公開されている。詳細については,そちらを参照されたい。
Ref:
“2022年度「NDLデジタルライブラリーカフェ」” . NDL Lab.
https://lab.ndl.go.jp/event/digicafe2022/
“2 令和3年度OCR処理プログラム研究開発”. NDL Lab.
https://lab.ndl.go.jp/data_set/ocr/r3_software/
“ndl-lab/ndlocr_cli”. GitHub.
https://github.com/ndl-lab/ndlocr_cli
“古典籍資料のOCRテキスト化実験”. NDL Lab.
https://lab.ndl.go.jp/data_set/r4ocr/r4_koten/
“Google Colabを用いたNDLOCRアプリのVersion 2を作成しました。”. Zenn. 2022-10-29.
https://zenn.dev/nakamura196/articles/b6712981af3384
“史料集版面ギャラリー”. 東京大学史料編纂所.
https://www.hi.u-tokyo.ac.jp/publication/dip/
青池亨. 2018年NDLデジタルライブラリーカフェ<報告>. カレントアウェアネス-E. 2018, (358), E2081.
https://current.ndl.go.jp/e2081
鈴木遼香,髙橋美知子. 2020年度NDLデジタルライブラリーカフェ<報告>. カレントアウェアネス-E. 2021, (411), E2372.
https://current.ndl.go.jp/e2372
橋本雄太, 加納靖之. みんなで翻刻:歴史資料の市民参加型翻刻プラットフォーム. カレントアウェアネス-E. 2021, (408), E2353.
https://current.ndl.go.jp/e2353
青池亨. NDL Ngram Viewerの公開:全文テキストデータ可視化サービス. カレントアウェアネス-E. 2022, (442), E2533.
https://current.ndl.go.jp/e2533