カレントアウェアネス-E
No.442 2022.09.01
E2533
NDL Ngram Viewerの公開:全文テキストデータ可視化サービス
電子情報部電子情報企画課次世代システム開発研究室・青池亨(あおいけとおる)
国立国会図書館(NDL)は,次世代の図書館システムの開発に役立てるための調査研究を行っており,最近では特に,デジタル化資料の新たな利活用を想定した実験サービスを構築・提供している。
2021年度,NDLはデジタル化資料の光学文字認識(OCR)テキスト化事業に取り組み,国立国会図書館デジタルコレクション(デジコレ)に収録されているほぼ全てのデジタル化資料247万点(2億2,300万画像)のOCRテキストデータを作成した。このOCRテキストデータを活用したサービスとして,2022年5月31日にNDLラボのウェブサイトから実験サービス“NDL Ngram Viewer”を公開した。2022年8月現在,著作権保護期間の満了した図書資料約28万点のテキストデータに対して,検索結果の可視化機能を提供するサービスとして運用している。
“ngram”は,検索を容易にする目的で文字列をn文字ごとに分割する手法を指すが,一般に“ngram viewer”と言った場合,書籍の全文テキストデータを利用して,特定の単語やフレーズの頻度を出版年代に沿って可視化できるサービスを指し,2010年に公開された“Google Books Ngram Viewer”がその端緒である。Google Books Ngram Viewer は,Googleが“Google Books”サービスのために資料のデジタル化とOCR処理を進めてきたことにより蓄積された全文テキストデータの活用方法の一つとして考案されたサービスで,英語やフランス語,中国語等の資料について,出版年代ごとの単語やフレーズの利用頻度の推移を可視化することができる。
似た取組としてこれまでに,HathiTrust(E1389,CA1760参照)の“Bookworm”プロジェクトや,フランス国立図書館の電子図書館Gallica収載の全文テキストデータに含まれる語の頻度を高機能に可視化できる実験サービスである“Gallicagram”といったプロジェクトが公開されている。
しかし,2022年現在,先行する各種のngram viewerでは,“Bookworm”プロジェクトの一部のコレクションを除いて日本語の検索クエリに対応していない。また,日本語はアルファベットを中心に表記する言語圏と比較して利用する文字種が多い。文字のOCRの読み取りミス(例えば,「己」と「巳」は活字の不鮮明等でOCRテキストに混同が生じやすい)や表記の不統一によって,本来同一として扱いたい単語が複数に分かれて存在する(例えば,「関ヶ原」「関ケ原」「関が原」の表記の違いが該当する)可能性があるため,これらの単語を一括して検索する機能があると望ましい。
単語を一括して検索できる機能として,たとえばGoogle Books Ngram Viewerは任意の文字列を検索クエリの中に含めることのできるワイルドカード(*)検索を持つ。英語の全文テキストデータに対して,例えば「in * to」のように検索することで「in」と「to」の間に入りやすい単語を調べることができる。一方,日本語の全文テキストデータにおいては,「関」から始まって「原」で終わるフレーズを調べると,「関が原」や「関ケ原」だけでなく,「関白太政大臣藤原」といったフレーズも含まれてしまう。本来調べたいキーワードが明らかに不要なキーワードに埋もれてしまうことは望ましくない。そこでNDL Ngram Viewerでは,ワイルドカードに加え,例えば文字種や文字の長さといった,Google Books Ngram Viewerの機能にない細やかな条件を設定可能とする「正規表現」による検索を実現した。
正規表現とは,同じパターンを持つと見なせる複数の文字列を,ルールに則り一つの書き方で簡潔に表記する方法である。NDL Ngram Viewerでは,例えば,「関」と「原」の間に任意の1文字を含むキーワードを調べたいときには「関.原」と検索できる。任意の文字の文字数を1文字以上3文字以内に拡大したければ「関.{1,3}原」と検索できる。また,予め調べたい文字が分かっている場合には,「関(ケ|ヶ|が)原」とすると,「関ヶ原・関ケ原・関が原」の3種類に絞って検索できる。検索結果は,NDL Ngram Viewerと同じくNDLラボのウェブサイトから公開している実験的な検索サービスである「次世代デジタルライブラリー」の検索クエリへリンクしており,全文検索結果を参照することが可能である。
2022年8月時点のNDL Ngram Viewerは,著作権保護期間が満了した図書28万点のみを対象としているため,1950年代以降に出版された資料については,年代ごとの母集団と出現頻度がいずれも小さくなる点や,あくまでOCRが読み取った結果の文字列であり誤りも含まれる点に注意が必要である。可視化結果は目安であることに留意し,全文検索結果と併用しながら活用してほしい。なお,2022年12月,デジコレがリニューアルに伴い全文検索の対象資料を拡大する。同じ頃,NDL Ngram Viewerの対象範囲も拡大していく予定である。
OCRテキストデータを利用した全文検索機能は,利用者に高度な情報探索体験をもたらすが,表記ゆれ等の原因によって検索キーワードにヒットしない資料が見落とされる懸念は従来の書誌検索と変わらない。NDL Ngram Viewerが提供する新しい検索機能も活用することで,利用者が有用な検索キーワードを視覚的に発見し,より多くの必要な資料に到達できることになれば幸いである。
Ref:
国立国会図書館デジタルコレクション.
https://dl.ndl.go.jp/
“1 令和3年度デジタル化資料のOCRテキスト化”. NDL Lab.
https://lab.ndl.go.jp/data_set/ocr/r3_line/
“NDL Ngram Viewerの公開について”. NDL Lab. 2022-05-31.
https://lab.ndl.go.jp/news/2022/2022-05-31/
NDL Lab.
https://lab.ndl.go.jp/
NDL Ngram Viewer.
https://lab.ndl.go.jp/ngramviewer/
“NDL Ngram Viewer”. NDL Lab.
https://lab.ndl.go.jp/service/ngramviewer/
Google Books Ngram Viewer.
https://books.google.com/ngrams/
bookworm: HathiTrust.
https://bookworm.htrc.illinois.edu/develop/
Gallicagram.
https://shiny.ens-paris-saclay.fr/app/gallicagram
次世代デジタルライブラリー.
https://lab.ndl.go.jp/dl/
総務部支部図書館・協力課. 講演会「HathiTrustの挑戦」<報告>. カレントアウェアネス-E. 2013, (230), E1389.
https://current.ndl.go.jp/e1389
田中敏. デジタル化資料の共同リポジトリHathiTrust―図書館による協同の取り組み. カレントアウェアネス. 2011, (310), CA1760, p. 14-19.
https://doi.org/10.11501/3485918