米・テキサス大学、AIを用いたデジタル化資料のテキスト化プロジェクトの実施を発表

2020年12月21日、米国のテキサス大学が、プロジェクト“Unlocking the Colonial Archive: Harnessing Artificial Intelligence for Indigenous and Spanish American Historical Collections”を実施することを発表しました。

同プロジェクトは、同大学オースティン校の学際プログラム“Teresa Lozano Long Institute of Latin American Studies(LLILAS)”と、英・ランカスター大学の“Digital Humanities Hub”、英・リバプール・ジョン・ムーア大学の連携により実施されます。

文字の筆記方法や使用されている言語が原因で「読めない」、デジタル化された先住民の言語やスペイン語の資料を、人工知能(AI)を用いて読めるようにするプロジェクトです。また、全米人文科学基金(NEH)から15万ドル、英国芸術・人文科学研究会議(AHRC)から25万ユーロの助成を受けて実施すると述べられています。

発表の中では、目標として以下が挙げられています。

・最先端の手書き文字認識技術を用いて資料のテキスト化を促進すること
・Linked Open Data(LOD)や自然言語処理技術を活用した語彙オントロジーにより、情報のリンクや識別を自動化すること
・画像処理を用いた自動検索、画像要素の分析を行うこと

UNLOCKING THE COLONIAL ARCHIVE: GRANT WILL BRING ACCESS TO A TROVE OF DOCUMENTS(Tex Libris, 2020/12/21)
https://texlibris.lib.utexas.edu/2020/12/21/unlocking-the-colonial-archive-grant-will-bring-access-to-a-trove-of-documents/

NEH, UK Grants Fund AI Transcription Project(University of Texas Libraries, 2021/1/4)
https://www.lib.utexas.edu/about/news/neh-uk-grants-fund-ai-transcription-project

参考:
Latin American Digital Initiatives(LADI)リポジトリのリニューアル版が利用可能に:ラテンアメリカ7機関のアーカイブコレクションから6万点以上の画像を提供
Posted 2020年6月16日
https://current.ndl.go.jp/node/41236

テキサス大学オースティン校、所蔵する50万冊以上のラテンアメリカコレクションを電子化 HathiTrustから利用可能に
Posted 2016年10月11日
https://current.ndl.go.jp/node/32705

全米人文科学基金(NEH)、人文学に関する213件のプロジェクトに総額3,280万ドルの助成を実施
Posted 2020年12月23日
https://current.ndl.go.jp/node/42843