CA663 – 中国語処理の機械化の動向 / 猶原清子

カレントアウェアネス
No.128 1990.04.20

 

CA663

中国語処理の機械化の動向

中国語は字数約5万字,特有のシンタックスを持つ多様性に富む言語である。言語の特質等に由来する困難を解決しつつ中国語処理の機械化が中国,台湾,米国等で進められている。

1.中国語入力方法

入力方法には,1)読みによる入力:ローマ字入力(ピンイン,ウエード,広東語ピンイン)(Table1),注音入力 2)字形による入力:漢字の合成,作画入力 3)その他:電報コード入力などがある。(Table1参照)

Table 1.

漢字
ピンイン
ウエード
発音の漢字表記
Xiang
Hsiang
相廂湘郷箱
Gang
Kang
岡溝頑
 
広東語ピンイン
発音の漢字表記
 
Heung
向享■郷餉[■は口偏に旁が向]
 
Gong
江肛岡缸降剛講

漢字の合成には次のものがある(CA272参照)。

1)Fast Word法:画の方向を表わす8種の文字キーを順次打鍵して漢字を識別し入力する。筆順にほぼ沿った入力方法なので中国語がわかる人にとっては特別な訓練を要しない。 2)倉頡輸入法:語根の分解法が部首や筆順とは相当かけ離れており習得が困難である。慣れれば高速入力が可能という。例えば,香→竹木日,HDA,港→水廿金山,ETCU. 3)簡易法:略式の語根入力法で,最初と最後の語根のみを入力する。例えば香→竹日,HA,港→水山,EU.

2.中国語漢字コード

米国のREACC*1はCJKプロジェクトの一環として開発され(CA590),台湾のCCCII*2を基礎としている。容量面,コスト面でも問題ないとし3バイトの立体構造を持つ点が注目される(CA272参照)。これは種々の相関関係(例えば繁体字,簡体字等々)を組み込むことを可能にする。(Table 2)

Table 2.中国語コード構造の例:漢字「三」の場合

GB 2312-80
(中国)
1001000
1111101
 
CISCII
(台湾)
10110010
11111101
 
CCCII
(台湾)
1100110
1111010
0010001

中国では最近GB 2312-80*3と台湾のCCCIIとの間のマッピングを完了し,新しいGB 2901を開発した。補助セットも開発し26,000字のサポートを予定,繁体字−簡体字の相関も組み込む計画である。中国語データの交換の上で最大の隘路は国際的に承認された標準漢字コードがない点である。

3.中国語書誌データベース

中国のPUL MARCデータベースはまだ外部には提供されていない。中国国家図書館(北京)は約1,400万冊という厖大な蔵書を持ち,中国語書誌データベースの作成や配布の莫大な潜在力を所蔵しているといえよう。(Table 3参照)

(Table 3)

国名 機関名等
MARCフォーマット
中国語レコード数
漢字コード
ローマ字
分類・件名
目録規則
米国LC
Books CJK
USMARC
〜100,000
REACC
ウエード
LC, Dewey;
LCSH
AACR2
中国国家図書館(北京)
PUL MARC
(中文機読編目格式)
GB 2901
ピンイン
中文図書館分類法,中国科学院図書館分類法;分類主題対照索引
 
台湾国立中央図書館(台北)
Chinese MARC
(中文図書館機読編目格式)
〜100,00
CCCII
ウエード
中国図書館分類編目学;中文図書探題総目初稿
中国編目
規則,1983

4.中国語漢字キーワードの切り出し

中国語の文章表記は漢字の羅列であることやシンタックスの関係から,キーワードの自動切り出しには欧文や日本語とも異なる特有の困難を伴う。文法等を踏まえたアルゴリズムが考案され自動切り出しの方法が開発されている。1)接辞,介詞(前置詞)助詞,句読点等を区切り記号と見做す(500字,新華字典)。 2)現代漢語詞典には56,000以上の語があり,その内1字−1語は3.5%,2字−1語が多数を占める。

3)語形成の際の各文字の機能を分析すると,例えば,接辞とか助詞としてのみ用いられる文字等,文字の機能別の分類が出来る。この方法は,科学技術文献では適合率が高いが社会科学や人文関係では低いという。香港理工学院では,今のところ半自動的な方法を採用している。

中国語は国連の公用語の一つであり,母語としての使用人口は世界最大である。日本語は漢字という共通項はあるが言語学的系統は中国語とは異なる。日本での中国語情報の処理のあり方を考えるにあたっては,漢字文化圏総体としての観点も踏まえ,中国語情報の機械処理の国際的動向は等閑視出来ないであろう。

猶原清子

Ref. Cheng, Grace. The design of a Chinese/English library system: a Hong Kong librarian’s perspective. J. Librarianship 21 (4) 225-245, 1989.

*1 REACC(RLIN’s East Asian Character Code,米国)Research Libraries Information Network. 1988. LC, RLIN, OCLCで使用.CCCII+PRC+JIS+KIP 3バイト
*2 CCCII(Chinese Character Code for Information Interchange,台湾)台湾図書館協会.2nd ed,1982.3バイト(3×7ビット)ISO 646と2022に準拠
CISCII(Chinese Industrial Standard Code for Information Interchange,通用漢字標準交換■[■は口偏に旁が馬],台湾)行政院国家科学委員会他.1986.2バイト(2×8ビット)ISO 646と2022に準拠
*3 GB 2312-80(中国)PRC National Standard for Information Interchange. State Bureau of Standardization of the PRC. 1980. 2バイト(2×7ビット)