カレントアウェアネス-E
No.505 2025.07.17
E2809
ドイツ国立図書館(DNB)における自動主題目録システムEMaの開発と運用<文献紹介>
国立国会図書館収集書誌部収集・書誌調整課・下村秋(しもむらしゅう)
Poley, C. et al. Automatic Subject Cataloguing at the German National Library. LIBER Quarterly. 2025, 35(1), p. 1-29.
https://doi.org/10.53377/lq.19422
2025年4月、欧州研究図書館協会(LIBER)の査読誌“Liber Quarterly”35巻1号に、ドイツ国立図書館(DNB)における件名付与や分類などの主題目録作業の自動化に関する取組を紹介する記事“Automatic Subject Cataloguing at the German National Library”が掲載された。近年、DNBはオンライン資料の主題目録作業の完全な自動化を目指し、積極的な研究開発を行ってきた。本稿では、この記事に基づき、DNBの主題目録作業の自動化に関する直近の取組を紹介する。
●背景
ドイツでは、国内で刊行されたオンライン資料について、2006年から納本制度に基づく網羅的な収集を行ってきた。近年のドイツにおける電子出版物の年間出版点数の増加は著しく、2023年の統計では、有体資料の納入数が約90万点であったのに対し、電子出版物は約260万点にものぼった。その内訳は、電子雑誌の記事約190万点、電子新聞約34万点、電子書籍約18万点、大学等研究機関の出版物約2.3万点、ウェブサイトのスナップショット約1.2万点である。
組織化対象資料のさらなる増大に対応するため、DNBでは2000年代半ばから段階的に主題目録作業の自動化を推進してきた。2012年からはデューイ十進分類法(DDC)に基づく主題の自動分類、2014年からは統合典拠ファイル(GND)に基づく識別子の自動付与、2018年には言語コードの自動付与を実装した。しかし、これらの自動化はいずれも外部で独自に開発されたプロプライエタリソフトウェア(所有権のあるソフトウェア)によるものであり、今後の拡張性と持続可能性に課題があった。
●自動目録システムEMaについて
これらの課題を解決するため、フィンランド国立図書館が中心となって開発したオープンソースフレームワークであるAnnifが採用された。Annifは主題分類作業の自動化のためのツール群を備えるほか、自然言語処理や機械学習のためのモジュールを簡単に後付けできるなど、優れた特徴をもつ。このAnnifを中核とした自動主題目録システムEMa(Erschließungsmaschine)は、2019年に開発が始まり、2022年から運用されている。
EMaの機能はすべてオープンソースソフトウェアと内製によって供給され、拡張性とメンテナンス性が確保された。また、EMaは主題目録作業の完全な自動化を目指し、一連の作業がシステム内で完結するように設計された。作業対象はファイル形式がPDFかEPUBのいずれかで、かつ、ドイツ語か英語の資料である。自動分類・件名自動付与は、教師あり機械学習によるモジュールと、単純なパターンマッチによるモジュールを組み合わせて実現されている。実際の作業の大まかな流れは以下のとおりである。
- 作業対象のファイル(PDF、EPUB)からプレーンテキストデータを抽出する
- ファイルに対応するメタデータから必要なもの(タイトルなど)を呼び出す
- 言語コードを自動付与する
- 自動分類・件名自動付与
- 得られた主題と件名を所定の形式(MARCと同様に複数のフィールド・サブフィールドをもつ構造化された書誌データフォーマットであるPICA+)に変換する
●評価と今後の展望
自動分類については、作業対象約5.9万点のうち、紙資料と重複して収集しているもの(全体の約11%)に付与された主題がサンプルとして比較され、サンプルの正答率は約80.5%であった。なかでも、法律や医学・健康では高い性能を示したが、一部の分野では誤答が多くみられた。分野ごとに学習データの量と分類性能を比較すると、学習データ量の多い分野(医学・健康、法律、神学・キリスト教)では分類性能も高くなる傾向があった。
件名自動付与については、定量的評価のほか、主題索引に携わる熟練作業者によって四段階(とても有用、有用、少し有用、誤答)の評価が行われた。その結果、誤答であると判断されたものは全体の10%であった。この原因としては、機械学習の進展により高性能な言語モデルが利用可能になったことのほか、学習データの取捨選択によって効率的なチューニングを行ったことも挙げられている。また、使用回数の少ない件名を学習データから除外し、使用頻度が高く重要な件名の学習に注力することも、品質を向上させている。
自動分類・件名自動付与の双方において、学習データが少ない領域で性能が低下する傾向がみられた。このような領域では、パターンマッチモジュールで補完を試みている。一方で、熟練作業者が付与した正答データは機械学習のための貴重な学習データセットともなるため、人間と機械の協力は今後の自動化の推進に不可欠としている。
2024年10月から2025年3月まで、DNBは自然言語処理を用いたドイツの学術文献の自動分類・件名自動付与に関する研究開発を行っていた(成果は現時点で未公開)。これによって得られる大規模言語モデルに関する知見をEMaに適応することで、さらなる進展が望めるとしている。
Ref:
Gömpel, Renate; Svensson, Lars G. Managing legal deposit for online publications in Germany. IFLA WLIC 2011. San Juan, 2011-08-13/18. IFLA, 2011, p. 1-9.
https://www.ifla.org/past-wlic/2011/193-goempel-en.pdf
“PICA-format”. VZG format.
https://format.gbv.de/pica
“Automatisches Erschließungssystem”. DNB. 2024-06-18.
https://www.dnb.de/DE/Professionell/ProjekteKooperationen/Projekte/KI/ki_node.html
“Inhaltliche Erschließung von wissenschaftlichen Publikationen durch Machine Learning”. DNB. 2024-10-22.
https://www.dnb.de/DE/Professionell/Services/WissenschaftundForschung/DHStipendien/laufendeProjekte/projektHerterichSchaible/projektHerterichSchaible.html
オンライン出版物の法定納本制度の行方は?:DNBの試みスタート. カレントアウェアネス-E. 2008, (141), E870.
https://current.ndl.go.jp/e870
ドイツ国立図書館へのオンライン出版物の法定納本手続き. カレントアウェアネス-E. 2009, (149), E922.
https://current.ndl.go.jp/e922
舛田航平. オランダ王立図書館による件名の自動出力に関する検証. カレントアウェアネス-E. 2019, (382), E2213.
https://current.ndl.go.jp/e2213
渡邉斉志. ドイツにおけるオンライン出版物の法定納本制度. カレントアウェアネス. 2006, (290), CA1613, p. 7-8.
http://current.ndl.go.jp/ca1613
鴇田拓哉. ドイツ国立図書館(DNB)におけるオンライン資料を対象にした自動分類. カレントアウェアネス. 2017, (331), CA1894, p. 14-17.
http://doi.org/10.11501/10317595