カレントアウェアネス-E
No.382 2019.12.19
E2213
オランダ王立図書館による件名の自動出力に関する検証
収集書誌部収集・書誌調整課・舛田航平(ますだこうへい)
2019年8月,オランダ王立図書館(KB)は,メタデータの自動作成に関する調査の中間報告書“Exploration possibilities Automated Generation of Metadata”を公開した。
KBでは,同国の共同目録“Gemeenschappelijk Geautomatiseerd Catalogiseersysteem”等外部由来の利用可能なメタデータがあれば,必要な情報を追記し,なければRDA(CA1766参照)に従って新しいレコードを作成する,というプロセスでメタデータ作成を行っている。本調査は,ボーンデジタルの資料やウェブサイトの増加によって,より多くの出版物を保存する必要が予期されることから,メタデータ作成の最適化の可能性を調査する目的で行われた。
中間報告書では,目録作業のうち,時間がかかり,誤りも発生しやすい件名付与作業を対象に,自動化による効率化および正確性の向上の可能性を検証した結果が報告された。
●学術文献に対する件名の自動出力の検証
検証は,主に,2019年1月にオランダ科学研究機構(NWO)が開催したワークショップで行われた。以下,ワークショップの報告書の内容も交えながら,検証の概要を説明する。
ワークショップは「学術文献に関連する件名を自動的に付与できるか」をテーマとし,KB職員,OCLC職員,大学の研究者等13人が参加した。参加者は,学位論文のタイトルや要約,大学が学位論文に付与した件名(以下「Unikeys」)や,学位論文に対してKBの目録作業者が付与したKB独自のオランダ語のシソーラス“Brinkman onderwerpen”に基づく件名(以下「Brinkeys」)等を材料に,自然言語処理や機械学習を用いた複数のアプローチによって,論文に付与するBrinkeysの自動出力を試みた。
まず,最低限の精度を測定するための最も簡易な手法を用いた二つのベースラインモデルが考案された。その上で,高度な三つの手法,二つのツールを用いて検証された。各アプローチは,自動出力されたBrinkeysと,正解としてKBの目録作業者が付与したBrinkeysとの比較に基づく再現率(正解に含まれる全てのBrinkeysのうち,取りこぼさずに自動出力されたBrinkeysの割合)と適合率(自動出力されたBrinkeysのうち,正しいBrinkeysの割合)により評価された。将来的な作業工程として,KBの目録作業者が自動出力されたBrinkeysの候補リストの中から実際に付与するものを選択する,という業務フローが想定されたため,再現率の評価がより重視された。以下,各アプローチの再現率に付記した括弧書きの出力数は,そのアプローチにおいて,自動出力されたBrinkeysの数を示している。
・ベースラインモデル
一つ目のベースラインモデルでは,論文タイトルとBrinkeysの全件名を照合し,完全一致する単語を論文に付与するBrinkeysとして判断した。二つ目に,UnikeysとBrinkeysを比較し,一致する件名を確認した。どちらも,オランダ語のBrinkeysと照合するため,英語のタイトルやUnikeysの翻訳処理に苦労し,再現率は,一つ目が16.9%,二つ目が11.6%(ともに出力数1)と低かった。また,目録作業者はBrinkeysの全件名から付与する件名を選ぶが,研究者はその範囲に限定されず,論文のニュアンスに即した件名を付与するといった,BrinkeysとUnikeysでの件名付与の傾向の違いも明らかになった。
・高度な手法
一つ目に,Naive Bayes classifierというベイズの定理に基づいた手法を用いた。論文のタイトルや要約に基づき,Brinkeysを出力したが,再現率はベースラインモデルよりも低く,再現率3.5%(出力数1)であった。二つ目のMultilingual Word Embeddingsという手法は,異なる言語間での単語の意味上の関連を測定し,最も関連性の高いBrinkeysを出力することが可能で,再現率は24.8%(出力数20)を記録した。この手法は,有望で研究の余地があると評価された。三つ目に,Facebookの開発したfastTextというテキスト分類のための手法で,タイトル,要約,Unikeys,研究者の所属機関名に基づき,Brinkeysを出力したところ,再現率40.3%(出力数20)とスコアが高かった。
・ツール
一つ目に,フィンランド国立図書館によって主題目録作業の自動化のために開発されたオープンソースのAnnifを用いた。タイトルと要約から件名を出力する手法では再現率は16.7%(出力数10)と低かったが,Annifは自然言語処理と機械学習のモジュールを組み合わせることができるため,他の構成や手法を試すことで大幅に改善の余地があるとされた。二つ目に,OCLCによって開発されたAriadneを用いた。Ariadneは事前に大量の学術文献を用いて機械学習を行っており,入力するテキストの特性に基づいて,書誌情報を解釈し検索することができる。オープンソースではないため詳細仕様等が把握できない欠点はあるものの,最高スコアの再現率56.9%(出力数20)を記録した。
結論として,fastTextとAriadneの高スコアから,件名の自動出力は可能であるとされている。
●件名の自動出力のデモページ
成果として公開されているデモページでは,論文のアイコンを分析フォームにドラッグするとBrinkeysの候補が一覧表示される。論文のタイトルと要約から作業者が候補を選択して“Check resultaat”というボタンを押下すると,実際に付与されたBrinkeysとの一致と不一致が色別に示され,適合度合を確認することができる。
●次なる段階
検証の反省点として,検証の材料として使用したデータの量が限定的であった点や,より適切なBrinkeysの出力のために,質的な評価や分析の余地があった点が挙げられた。KBはそれを踏まえ,以下のような次なる段階の検証を検討している。
・Annifの応用可能性と件名の自動出力の質に関する検証
Annifについて,自然言語処理と機械学習のモジュールのより効果的な組み合わせを検証する。また,ワークショップでは,Annifで学位論文のタイトルと要約を用いた自動付与を分析したが,学位論文以外の形式の資料に関して,どのように機能するのか,および,全文テキストを用いた場合とタイトル・要約等の部分を用いた場合との自動出力される件名の質の差を検証する。
・Digital Library of Dutch Literatureのテキストへのメタデータ自動付与の検証
オランダの文学,言語学,文化史のテキストを公開するウェブサイトDigital Library of Dutch Literatureのテキストは,著者,タイトル,地名等の関連情報への参照を含むXML-TEI形式で手作業によって作成されている。同形式のテキストを機械学習させて,同ウェブサイトのテキストへのメタデータ自動付与を検証する。具体的には,テキストに出現する人名,団体名等の固有名詞や日付等の数値表現といったコンテンツ関連メタデータ,見出しやページ番号,表といった資料の構造に関わる要素である構造メタデータの自動付与を試みる。
報告書の結びに「自動出力は目録作業者の仕事に完全に置き換わるものではなく,その作業効率を上げるべきものである」とあるように,件名の自動出力は,目録作業者が積極的に活用する姿勢を持つことによって,真価を発揮すると考える。本検証は,実用可能性のある成果を残したこともさることながら,多角的なアプローチから,既存の業務の自動化を試みたということにも,価値があるのではないだろうか。
Ref:
https://www.kb.nl/en/news/2019/kb-explores-artificial-intelligence-to-generate-metadata
https://doi.org/10.5281/zenodo.3375192
https://www.oclc.org/nl/ggc.html
https://www.kb.nl/bronnen-zoekwijzers/zoekwijzers/meer-informatie-over-zoeken/trefwoorden-in-de-kb-catalogus
http://www.kbresearch.nl/brinkeys/report.pdf
https://fasttext.cc/
http://annif.org
https://www.oclc.org/research/themes/data-science/ariadne.html
https://lab.kb.nl/tool/brinkeys-tool
http://www.kbresearch.nl/brinkeys/
https://www.dbnl.org/
CA1766