米国議会図書館(LC)、機械学習と人による作業を組み合わせる“Humans in the Loop”の結果に関するレポートを公開

2021年11月30日、米国議会図書館(LC)は、LC Labsがデータ管理ソリューションプロバイダーAVPと共同で実施した取組“Humans in the Loop”結果に関するレポートの公開を発表しました。

“Human in the Loop”は、機械学習と人による作業を組み合わせた手法であり、人間が機械学習に必要な構造化されたデータの生成とアルゴリズムによる作業結果の継続的訓練・検証を行うというフィードバックループを構築することで、信頼性の高い構造化データを得ることができると述べられています。また、文化機関にとっては、コレクションの文字起こし、構造化データの抽出、画像の分類等に活用可能であると述べられています。

LCは、2020年9月から2021年6月にかけて、電話帳のデジタル化画像のテキスト化を対象に、クラウドソーシングにより一般の人々等からの協力を得て“Human in the Loop”を検証する取組“Humans in the Loop”を実施していました。

レポートでは、対象コレクションの選定・仕組みの構築といった検証プロジェクトのプロセスや、各段階における困難・推奨事項、結果等についてまとめています。今回検証した手法はLCのコンテンツへのアクセス性を高めるために効果的である一方、人員とリソースに多くの投資が必要になること等が述べられています。

Old Phone Books Teach New Lessons in Digital Scholarship(LC, 2021/11/30)
https://www.loc.gov/item/prn-21-074/old-phone-books-teach-new-lessons-in-digital-scholarship/2021-11-30/

Humans in the Loop(LC Labs)
https://labs.loc.gov/work/experiments/humans-loop/

Humans-in-the-Loop RECOMMENDATIONS REPORT [PDF:96ページ]
https://labs.loc.gov/static/labs/work/reports/LC-Labs-Humans-in-the-Loop-Recommendations-Report.pdf

参考:
E2334 – 米国議会図書館の検索ツールNewspaper Navigatorについて
カレントアウェアネス-E No.404 2020.12.10
https://current.ndl.go.jp/e2334

E2272 – データサイエンス,機械学習,AIの責任ある運用のために
カレントアウェアネス-E No.393 2020.06.25
https://current.ndl.go.jp/e2272

E2121 – 米国議会図書館の新たな戦略計画
カレントアウェアネス-E No.366 2019.03.28
https://current.ndl.go.jp/e2121

米国議会図書館(LC)、図書館等における機械学習の応用・実践の現状を示したLC Labsによる委託調査報告書“Machine Learning + Libraries”を公開
Posted 2020年7月31日
https://current.ndl.go.jp/node/41631

米国議会図書館(LC)、LC Labsにおいて、既存のテキスト化ツールを用いた、米国民俗センター所蔵の録音資料のテキスト同時自動生成に関する概念実証を開始
Posted 2020年7月9日
https://current.ndl.go.jp/node/41464