人文学オープンデータ共同利用センター(CODH)、「つくし」プロジェクトのページを公開:くずし字資料の自動テキスト化、現代文・英語翻訳などの可能性を探る

2023年7月3日、人文学オープンデータ共同利用センター(CODH)は「つくし」プロジェクトのウェブページを公開しました。

プロジェクトのページによると、同プロジェクトは、くずし字資料の大規模テキスト化に基づき、全文検索技術の開発や大規模言語モデル(Large Language Model:LLM)への展開を目指すものです。また、各種人工知能(AI)ツールを開発・利用しつつ、くずし字資料の自動テキスト化や現代日本語や英語翻訳などの可能性を探る計画であると述べられています。

同ページでは、プロトタイプとして『絵本江戸桜』に対してAIを用いた自動テキスト化や翻訳実験を行った結果も公開されています。

ニュース(CODH)
http://codh.rois.ac.jp/news/
※2023年7月3日付けで「「つくし」プロジェクトのページを公開しました。」が掲載されています。

「つくし」プロジェクト(CODH)
http://codh.rois.ac.jp/tsukushi/

『絵本江戸桜』AI自動テキスト化/翻訳実験
http://codh.rois.ac.jp/tsukushi/iiif-curation-player/?curation=/tsukushi/prototype/1/curation.json&lang=ja

@rois_codh(Twitter, 2023/7/3)
https://twitter.com/rois_codh/status/1675729496069263360

参考:
人文学オープンデータ共同利用センター(CODH)、「差読のための画像照合サービス(ブック版)」と「ビフォーアフター比較(今昔写真)のための画像照合サービス」を公開 [2023年02月02日]
https://current.ndl.go.jp/car/171893

人文学オープンデータ共同利用センター(CODH)、「AI顔貌検出サービス」を公開 [2022年08月16日]
https://current.ndl.go.jp/car/46663

人文学オープンデータ共同利用センター(CODH)、AIくずし字認識アプリ「みを(miwo)」を公開 [2021年8月30日]
https://current.ndl.go.jp/node/44703

E2179 – AI技術を取り入れた「くずし字翻刻学習・指導システム」
カレントアウェアネス-E No.377 2019.10.10
https://current.ndl.go.jp/e2179

E2353 – みんなで翻刻:歴史資料の市民参加型翻刻プラットフォーム
カレントアウェアネス-E No.408 2021.02.18
https://current.ndl.go.jp/e2353

CA2015 – 動向レビュー:くずし字資料の解読を支援するデジタル技術 / 橋本雄太
カレントアウェアネス No.351 2022年03月20日
https://current.ndl.go.jp/ca2015