カレントアウェアネス-E
No.490 2024.10.31
E2744
帝国議会会議録検索システム、全期間本文テキストデータ公開
調査及び立法考査局議会官庁資料課、
電子情報部電子情報企画課次世代システム開発研究室
2024年8月23日、国立国会図書館(NDL)は、帝国議会の速記録の画像を閲覧できる「帝国議会会議録検索システム」において、戦前・戦中期分(1890(明治23)年11月~1945(昭和20)年8月)の画像(約27万ページ)からOCR処理により作成した本文テキストデータを公開した。これにより、既に提供していた戦後期分(1945(昭和20)年9月~1947(昭和22)年3月)と合わせて、帝国議会の全期間にわたり速記録に掲載された質疑や議案本文などの全文検索とテキスト表示が可能になった。本稿では、今回のOCRテキスト化に関する取組を紹介する。
●本文テキストデータの作成方法
帝国議会会議録検索システムは、2005年7月のサービス開始当初から戦後期分の本文テキストデータの一部を公開し、2006年3月には戦後期分の全ての本文テキストデータを公開した。この戦後期分の本文テキストデータは、人力でテキスト化され、校正を経て作成されたものであった。
一方、今回新たに公開した戦前・戦中期分の本文テキストデータは、昨今急速に進展しているAI技術を用いたOCR処理により作成し、校正はほとんど行っていない。これは、国立国会図書館デジタルコレクション収録のデジタル化資料約247万点を対象に実施した「令和3年度デジタル化資料のOCRテキスト化」事業で利用したAI-OCRを転用したものである。明治期以降の活字に対して高度な認識能力はあるものの、帝国議会の速記録のために特別に学習させたAI-OCRではない。このため、帝国議会会議録検索システムへの本文テキストデータ投入に先立って、このAI-OCRの精度評価を実施した。
●AI-OCRの認識性能評価
帝国議会の速記録に対するAI-OCRの認識性能を評価するため、戦前・戦中期分の速記録の画像27万ページの中から100ページを無作為抽出して、人力により作成し校正した正解テキストデータと比較した。AI-OCRの精度は、画像ごとに文字単位で算出したF値(認識性能を示す指標)で0.983(中央値)であった。全体の評価値とするには正解テキストデータの数量が十分ではないため参考値ではあるが、おおよそ100文字のうち2文字程度の認識間違いがある精度といえる。
●テキストデータの読み順整序
帝国議会の速記録は、大半が多段組のレイアウトである。上記OCR処理では段組が認識されず、作成された本文テキストデータが正しい文章にならなかった。そのため、資料画像とOCR処理結果から行・段組等のレイアウトを認識できるプログラムを開発し、認識されたレイアウト情報に従ってテキストデータの読み順を整序した。
●発言単位の切り出しとマッチング作業
帝国議会会議録検索システムは、速記録ならではといえる機能をもつ。発言者情報(発言者の氏名・よみがな、所属会派、肩書等)が付与されており、発言者に絞った全文検索や発言単位での本文テキストデータのダウンロードができる。このため、作成した本文テキストデータを発言単位で切り分けて、既存の発言者情報とマッチングする仕組みが必要となり、発言単位での文章の切り出しとマッチングプログラムの開発も行った。
これらの取組の結果、全文検索には十分に役立つレベルの本文テキストデータを用意できた。本文テキストデータの公開後もデータ整備を継続して実施できるようシステム改修を行った上で、この度の公開に踏み切った。
●今回公開した本文テキストデータの特徴
戦後期分の本文テキストデータは、カタカナをひらがなに、旧字体をJIS第一・第二水準の漢字に変換するなどして読みやすくしていた。一方、今回公開した戦前・戦中期分は、画像の文字をそのままテキスト化したため、カタカナはカタカナのままであり、JIS第一・第二水準以外の漢字も含まれている。
ただし、本システムでは、通常の検索(詳細検索画面の「厳密な検索」にチェックをしない)において、カタカナとひらがなの区別、異体字の区別をしない検索ができる。なお、残念ながら今回のテキスト化では「教」「清」の旧字体等のJIS第一・第二水準範囲外の異体字が読み取れず、認識不能を意味する「〓」(ゲタ)に置き換わっていることがしばしばある。そのため、〓を旧字体の代わりの文字として検索時に使うと、探している情報が見つかる場合がある(例:教育⇒〓育)。
●おわりに
戦前・戦中期分の本文テキストデータの公開から2か月が経過した。X(旧Twitter)のポストで見られた反響はどれも好意的であった。完全形ではなくとも公開できたのは、AIの利便性と共に限界に対する理解が社会的に進んだお陰でもある。例えば、AI-OCRの場合、日本語を自動推定して単語を生成することがある。その結果、明治・大正期には存在しなかった現代の言葉が混入することがある。今回公開した戦前・戦中期分の本文テキストデータにもその事例は見られる。
本文テキストデータの間違いは、専用フォームを設けて随時指摘を受け付けている。悉皆的に誤字・脱字や〓をなくすのは、砂を数えるような非常に時間と手間のかかる課題である。今後もデータ整備を継続しつつ、一歩一歩理想形に近づけていきたい。
Ref:
“帝国議会会議録検索システムで全期間の本文テキストデータが利用できるようになりました(付・プレスリリース)”. NDL. 2024-08-23.
https://www.ndl.go.jp/jp/news/fy2024/240823_01.html
帝国議会会議録検索システム.
https://teikokugikai-i.ndl.go.jp/
“1 令和3年度デジタル化資料のOCRテキスト化”. NDL Lab.
https://lab.ndl.go.jp/data_set/ocr/r3_text/