機械学習とWorldCat:書誌レコードの改善に向けたOCLCの取組(記事紹介)

2023年8月14日付けのOCLC Researchのブログ“Hanging Together”に、機械学習を用いてWorldCat上の書誌レコードを改善する取組について紹介した記事“Machine Learning and WorldCat: improving records for cataloging and discovery”が掲載されています。

記事では、WorldCat上では書誌レコードの品質改善のため、1か月あたり平均約1万1,000件の重複レコードが手動で、約100万件の重複レコードが自動化ソフトウェアによって機械的に削除されているとした上で、重複レコード削除のプロセスを改良するために、機械学習を用いて重複レコードの特定を目指す取組について紹介しています。主に2022年に、機械学習モデルの精度向上のために、OCLC参加館等の協力で実施されたトレーニングデータ作成作業について触れられています。

また、この取組の成果として、2023年8月19日に約100万件のレコードを対象として、最初の機械学習モデルが実行され、WorldCat上の約50万件の重複するレコードが統合されるとしています。

Machine Learning and WorldCat: improving records for cataloging and discovery(Hanging together, 2023/08/14)
https://hangingtogether.org/machine-learning-and-worldcat-improving-records-for-cataloging-and-discovery/

Leveraging machine learning technology as part of ongoing WorldCat quality measures(OCLC, 2023/8/14)
https://www.oclc.org/en/news/announcements/2023/leveraging-machine-learning-for-worldcat-de-duplication.html

参考:
OCLC、WorldCat.orgとWorldCat Findアプリで人工知能(AI)生成の書籍推奨機能を試験提供 [2023年06月30日]
https://current.ndl.go.jp/car/184506

OCLC Research、図書館でのデータサイエンス・機械学習・人工知能の利用における課題と推奨事項をまとめたポジションペーパーを公開 [2019年12月16日]
https://current.ndl.go.jp/car/39750