大規模言語モデル「GPT-4o」を用いたウェブアーカイブのメタデータ作成:シンガポール国立図書館庁(NLB)の事例(文献紹介)

2024年11月8日付けでプレプリントサーバーarXivに、大規模言語モデル(LLM)のGPT-4oを用いたウェブアーカイブのメタデータ作成に関する記事“Web Archives Metadata Generation with GPT-4o: Challenges and Insights”が掲載されています。著者はシンガポール国立図書館庁(NLB)のAbigail Yongping Huang氏らです。

記事では、NLBが提供するウェブアーカイブ“Web Archive Singapore”を対象として、ウェブサイトのタイトルや抄録等のメタデータをGPT-4oを用いて自動生成する実験を行った結果がまとめられています。

GPT-4oを用いることで、コスト削減や効率化が実現できる一方、人が作成したメタデータの方が品質や精度が優れていること、大規模言語モデルは人間のカタロガーを代替するものではなく補完するものとして捉えるべきであること等が指摘されています。

Huang, Abigail Yongping et al. Web Archives Metadata Generation with GPT-4o: Challenges and Insights. 2024, arXiv:2411.05409.
https://doi.org/10.48550/arXiv.2411.05409

参考:
ChatGPTからCatGPTへ:目録作成におけるAIの影響(文献紹介) [2023年09月29日]
https://current.ndl.go.jp/car/193509

E2663 – 第88回IFLA年次大会目録分科会<報告>
カレントアウェアネス-E No.472 2024.01.25
https://current.ndl.go.jp/e2663

E2724 – 2024年IIPC総会・ウェブアーカイビング会議<報告>
カレントアウェアネス-E No.485 2024.08.08
https://current.ndl.go.jp/e2724