CA937 – 多言語・多文字資料の自動変換システム / 林典門

カレントアウェアネス
No.176 1994.04.20


CA937

多言語・多文字資料の自動変換システム

図書館は,多種多様な言語で書かれた資料を収集しているため,あらゆる種類の言語・文字を処理する用意がなければならない。そのため,機械化の進展に伴い多言語・多文字処理の問題がクローズアップされてきた。処理対象となる文字は大きくラテン系と非ラテン系に分けられる。ラテン系はローマナイズ表記が容易であるが,非ラテン系はそれぞれ独自の表記法を持つため,これら非ラテン系の特殊言語の処理が特に問題となる。たとえば,翻字をしない非ローマ字文字のままの書誌データベースの開発が課題となっている。

アジア諸国においては,独立が達成されてそれぞれの民族的な自覚が深まり,自国の文化伝統に対する関心が生まれて現地諸学者の研究が盛んになり,その出版物が増大している。これらを収集し提供する拠点としての図書館活動も活発化し,近年,環太平洋アジア地域国立図書館長会議などアジア独自の情報交換ネットワークを作る動きが広がりつつある。多言語・多文字の問題は,このようなネットワーク形成の大きな障害の1つとして,適切な対処が強く要請されている。アジア諸国の文献をコンピュータで統一的に処理する方式が開発されれば,この困難の多くは除かれることになる。インド国立図書館の事例(CA860参照)に見るように,コンピュータ技術の向上は,こうした原字の印刷と変換を自動的にすることを容易にしている。しかも操作機能として誰もが普通のローマ字入力により簡単に原字に変換できるとすれば,これは図書館の作業の効率の上で大きく役立つものと言える。

こうした自動変換システムの1つを紹介する。これは東京外国語大学の町田和彦助教授の研究室で開発された言語変換システムである。このシステムは当初インド諸言語の辞書作成と印刷のために作られたが,その後,基本機能であるローマ字入力からアジア諸文字,及びギリシャ,ロシア文字等へ変換することができるようプログラムは更に拡張された。1980年代頃より出版社で使われるようになり,たとえば,インドにおいては,Oxford University Press, Motital Banarsidars Publishers,日本国内ではめこん社,白水社等の出版社において,タイ語,カンボジア語,ヒンディー語,サンスクリット語,ベンガル語等の出版物に版下印刷用として既に使用されている。システムのフローを図に示した。

文字種としては日本語(2バイト系内蔵フォント),特殊文字1(インド系文字:非内蔵フォント),特殊文字2(インド系以外の非ラテン系諸文字:非内蔵フォント),特殊文字3(ラテン系諸文字:1バイト系内蔵フォント)が用意されている。印字指定,フォントの選択,文字修飾,書式設定等が詳細に選択できるようになっている。入力は全く自由形式であり,いかなるデータにも適用できるが,データに規則性があることが必要である。もしもない場合はシステムが用意した規則性に準拠して処理されることになる。この用意した規則というのはマークアップランゲージ方式の考え方を基本としている。出力は目的に応じて選択ができる。

図書館のような多言語・多文字処理の現場では,こうした技術の使用により資料の蓄積,利用が容易になるだけでなく,国同士のデータ交換を促進するという点でも,その意義は大きいだろう。

林 典門(はやしのりかど)