E2400 – 人文学資料デジタル化の国際的な枠組みが日本語ルビを導入

カレントアウェアネス-E

No.416 2021.07.08

 

 E2400

人文学資料デジタル化の国際的な枠組みが日本語ルビを導入

一般財団法人人文情報学研究所・永崎研宣(ながさききよのり)

 

   2021年2月25日,人文学のテキスト資料を構造化するための国際的な取り決めとして30年来欧米諸国のデジタル人文学において基盤となってきたTEI (Text Encoding Initiative)ガイドラインのP5 version 4.2.0 において,日本語のルビが文書構造の一つとして導入された。これにより,国際的な人文学研究データを共有するネットワークにおいて日本語テキスト資料がより適切な形で利活用されることとなった。

   TEIガイドラインは,欧米の人文学研究者が中心となって1987年に検討が開始された,人文学のテキストデータを次に挙げるような形でよりよく共有し発展させるための取り決めである。それまでのデータの非互換性やベンダーロックインといった問題を解決するため,人文学研究者が研究資料としてのテキストデータを自由かつ適切に記述・共有するためのスキーマを策定し,それを効率的に共有することで,デジタル技術の特性を活かして人文学の発展可能性を拡張することを目指して議論を続け,その成果はガイドラインP5という位置づけで2007年に公開された。

   人文学にはさまざまな分野が含まれ,それぞれに資料から読み取る内容も知識の体系も異なっている。そして,言語が異なれば,テキストから読み取り得る構造は少しずつ異なっていく。それにも関わらず,TEIガイドラインは人文学全般に向けた国際的かつ汎用的な規格を志向し,個々の分野からも個々の言語からも一定の距離を置こうとしていた。たとえば,本/章/節/段落/文章/フレーズ/単語/文字という基本的な構造や,脚本の場合の幕/場/台詞/……,あるいは,辞書やコーパス等,分野・言語を超えて見出し得る,内容の構造を基本的な要素として設定し,分野・言語毎の差異はそれら要素におけるタイプの相違として記述・処理する仕組みとすることで,それを実現しようとしていたのである。

   時が経つにつれ高度化するデジタル情報基盤は,TEIガイドラインにさまざまな改良の機会を提供した。たとえば,2011年12月には,写本の情報を内容ではなく表記の構造に基づいて記述するためのルールを取り込む大規模な改訂が行われ,2020年にはLinked Open Data(CA1746参照)を直接書き込めるようにするルールが取り込まれた。改訂は,世界各地の有志の個人会員・組織会員からなるコミュニティで議論され,会員から選挙で選ばれた技術委員会によって決定される。現在,議論は主にGitHub上で行われ,誰でも閲覧可能である。

   一方で,欧米で形成されてきたTEIガイドラインが真に国際的かつ汎用的であるためには,欧米外の言語文化圏におけるテキストの構造もより深く検討する必要があるという認識が徐々に高まっている。2016年には科研費基盤研究(S)「仏教学新知識基盤の構築―次世代人文学の先進的モデルの提示(代表・下田正弘東京大学教授)」の活動の一環として,2000年設置のTEIコンソーシアム内に東アジア・日本語分科会が設立され,国際化に向けた本格的な再検討が開始された。2018年には開始後30年以上を経て初めて欧米圏外での会員総会が東京で開催され,2019年のグラーツ(オーストリア)大会では初めて日本からの参加者が2桁になったことなどにより,欧米圏外でもこのような活動が本格化したという認識が共有された。

   このような一連の流れのなかで,膨大なテキスト資料を持つ日本語文化圏において不可欠のものとして根付いているテキスト構造としてのルビは,TEIガイドラインの国際化を推進するにあたり議論に値するセマンティクスの一つであった。巨大な漢字文化圏から派生したとも言える日本語文化圏のテキスト資料に対応することは,数少ない中心的存在ではなく,それらの周辺に無数に位置する,いわば傍流のテキスト文化伝承に向き合うことであり,今後国際化を進めていく上でそれら無数の事例のための試金石となり得る。ルビはどのようなものであり,そして,どのようなものではないのか,他のテキスト文化圏における類似の構造とはどう異なるのか。東アジア・日本語分科会運営委員の岡田一祐氏(北海学園大学)が中心となって提案書がまとめられ,GitHubで長い議論の応酬があった。

   最終的に,ルビは,TEIガイドラインのもっとも基本的な要素を説明する章である第三章に導入され,基礎的な構造として組み込まれることになった。このようにしてルビが正式に位置づけられたことで,日本語のテキストデータの作成においても様々な処理に際し,ルビを前提として国際的なデジタル人文学コミュニティと協働できることになった。すぐに目に見える成果にはつながらないとしても,このことにより今後の日本の人文学の可能性は大きく広がったことになる。それだけでなく,世界中にある無数の周縁的な言語文化圏に対して,国際的な人文学の枠組みに参画していくためのモデルを提供できたのである。このことはやがて,日本語のテキスト資料の有用性を高めるのみならず,それを通じ,さまざまなレベルにおいて国際的な人文学研究の意義をより深めていくことにもつながるだろう。

Ref:
“TEI P5 version 4.2.0 and Stylesheets version 7.51.0 release notes”. TEI. 2021-02-25.
https://tei-c.org/Vault/P5/current/doc/tei-p5-doc/readme-4.2.0.html
“研究成果「人文学向け電子テキスト構築の国際ガイドラインに日本語セマンティクス(ルビ)が導入される」(下田正弘教授)”. 東京大学大学院人文社会系研究科. 2021-06-18.
http://www.l.u-tokyo.ac.jp/news/2021/13300.html
イデ・ナンシーほか. 招待論文 TEI:それはどこからきたのか。 そして,なぜ,今もなおここにあるのか?. デジタル・ヒューマニティーズ. 2018, 1, p. 3-28.
https://doi.org/10.24576/jadh.1.0_3
永崎研宣. “歴史データのさまざまな応用 -Text Encoding Initiative の現在-”. 歴史情報学の教科書 : 歴史のデータが世界をひらく. 国立歴史民俗博物館[監修]. 後藤真, 橋本雄太編. 文学通信, 2019, p. 131-154.
https://bungaku-report.com/blog/2019/03/chapter-8-text-encoding-initiative.html
East Asian / Japanese SIG, the TEI Consortium. Proposal to encode ruby for Japanese texts. 17p.
https://docs.google.com/document/d/1rRgBRYpxUlsnMEHbOPW-92u_AIMNwq9axGtpI1UGgz8/edit#heading=h.xjusjhhdlit2TEI.
“encoding of ruby glosses #2054”. GitHub.
https://github.com/TEIC/TEI/issues/2054
TEI. “3.4.2 Ruby Annotations”. Guidelines for Electronic Text Encoding and Interchange. Version 4.2.2.
https://tei-c.org/release/doc/tei-p5-doc/en/html/CO.html#COHTGRB
武田英明. Linked Dataの動向. カレントアウェアネス. 2011, (308), CA1746, p. 8-11.
https://doi.org/10.11501/3192158