E2179 – AI技術を取り入れた「くずし字翻刻学習・指導システム」

カレントアウェアネス-E

No.377 2019.10.10

 

 E2179

AI技術を取り入れた「くずし字翻刻学習・指導システム」

立命館大学アート・リサーチセンター・赤間亮(あかまりょう)

 

●概要

 立命館大学アート・リサーチセンター(以下「立命館ARC」)では,様々なデジタルアーカイブを構築しており,その中の浮世絵と古典籍のポータルデータベースに凸版印刷株式会社の開発による人工知能(AI)技術を組み込んだ「くずし字翻刻学習・指導システム」が2019年1月に導入された。学習・研究用のプロジェクトベースによる活用が可能となっており,古典籍の翻刻本文アーカイブの進展も期待できる。

●背景

 文化財のデジタル画像によるウェブ公開が加速化している。立命館ARCでは,国内外の浮世絵や古典籍のデジタルアーカイブ構築を進めてきた。とくに,欧米の博物館等を対象としたデジタル化プロジェクトは,独自のデジタル化技術を使ったプロジェクトとして海外でも知られている。国内の古典籍については,国立国会図書館,早稲田大学図書館,さらには,国文学研究資料館などが大規模なプロジェクトを展開している状況にある。

 古典籍は,所蔵機関が貴重書に指定しているため,かつては大変敷居の高いものであったが,現在では,自宅からでもインターネットを通じて簡単に閲覧できるようになった。大学の教育現場においても,影印本や翻刻本を使わずに,デジタル化された原典を直接使った授業を展開することが可能となったが,問題はその原典が「くずし字」で記述されていることである。せっかく,原典を精細な画像で見ることができても,文字が読めないのではもったいない。翻刻能力の向上や,自動解読システムの開発が注目されるのにはこうした背景がある。

●開発の経緯

 凸版印刷株式会社では,従来から日本語OCRの開発を進めてきていたが,立命館ARCとはデジタルアーカイブ研究上の交流を切っ掛けに,2017年・2018年の2年間にわたり,くずし字解読システムについての共同研究を行った。2016年には,国文学研究資料館が「日本古典籍字形データセット(現・日本古典籍くずし字データセット)」を制作し,人文学オープンデータ共同利用センター(CODH)のサイトから一般公開されたのを受け,2018年に凸版印刷株式会社は,そのデータを土台として,公立はこだて未来大学の寺沢憲吾氏が開発した文書画像検索システムを使った「画像検索エンジン」を開発,さらには,年度後半期に入りディープラーニングによる「AIくずし字認識エンジン」を開発した。立命館ARCはこれらのシステムのAPIによる提供を受けることになり,古典籍・浮世絵,2つのデータベースに翻刻アプリケーションとして組み込み,2019年1月に運用が始まった。

●活用の状況

 2月からは実証実験を開始した。古典籍を所蔵する欧米の大学を中心として,現地で本システムを使った数回のワークショップを実施し,現在までその効果の検証を行ってきている。4月からは立命館大学文学部において,本システムを利用した授業を行った。この期間,システムの改修,追加を行い,学習・指導システムとしては,実用に堪えられる段階に到達したと考えている。研究利用においても,立命館ARC内の共同研究プロジェクトからは,良好な反響が得られている。実証実験・授業等での翻刻進捗状況については,立命館ARCのウェブサイト内にある「日本古典籍デジタル研究所」の「古典籍翻刻プロジェクト」で公開されているので,確認が可能である。

●システムの特長

 本システムは,現在多くの研究者が開発に挑戦しているような自動翻刻やOCRシステムではない。あくまでも学習者・翻刻者が主体的に取り組むよう,翻刻者を「支援」する。翻刻者は,AIからの示唆を求めたい時のみ「支援」を要求するが,AIの示唆は必ずしも100%の正解を示すものではなく,可能性の高い順に並べた候補一覧を提示し,翻刻者は自身で語意や文脈等の要素を勘案して一文字を選択する。選択した文字は,直接翻刻画面に入力される。AIの候補では,最適な文字が見つからない場合,未読文字は矩形画像のまま未読文字DBに送られ,翻刻本文には未読文字に未読マークが記録される。未読文字は,指導者が未読文字DB上で解読しておくと,翻刻者が校正段階で,支援を受けたい場合に,AIとは別の「画像検索エンジン」によって解読された文字が提示される。学習者が自習することも可能だが,指導者やリーダー,熟練者をメンバーに入れた授業や講座などのグループ学習,あるいは研究者らのグループ翻刻プロジェクトに適したシステムとなっている。プロジェクト単位でのブースがあり,その中で翻刻活動が行われるイメージであり,不特定多数に開かれたクラウドソーシングというより限定されたグループワーク型である。とくに「画像検索エンジン」と「AIくずし字認識エンジン」との併用による指導アプリケーションは,立命館ARC独自の発想によるものである。

 類似のオンライン型翻刻プロジェクトに「みんなで翻刻」がある。凸版印刷株式会社のAPIの内,「AIくずし字認識エンジン」は,7月からここにも提供されており,双方を比較することで各々の特徴を理解できる。また,「みんなで翻刻」では,あくまでも翻刻文字の「示唆」を行うのみであるが,立命館ARCシステムは,翻刻者のシステムの呼び出しや「示唆」文字の入力がワンクリックで直接行われるなど,作業効率を上げる工夫もされている。

●今後の展望

 実用段階にあることから,他大学,個人研究者,翻刻プロジェクトでの活用を促進していきたい。立命館ARCの共同研究拠点へ登録することで利用できるが,「日本古典籍デジタル研究所」に体験用のDemoプロジェクトも用意してある。

 また,「みんなで翻刻」との違いは,翻刻対象が,立命館ARCは文学・美術系,「みんなで翻刻」は歴史系である点にもあり,バランスよい役割分担が可能である。「みんなで翻刻」を含め,今後同様のシステムが生まれてくると思われるが,日本の歴史的文献資料の「翻刻本文アーカイブ」プロジェクトとして共同化することも視野に入れている。

Ref:
https://www.arc.ritsumei.ac.jp
https://www.arc.ritsumei.ac.jp/database.html
https://www.arc.ritsumei.ac.jp/lib/vm/J-book/
https://www.arc.ritsumei.ac.jp/lib/app/news/pc/004140.html
http://codh.rois.ac.jp/competition/kaggle/
https://honkoku.org/