CA728 – データベースにおける言語障壁 / 山地康志

カレントアウェアネス
No.139 1991.03.20


CA728

データベースにおける言語障壁

オンラインやCD-ROMのデータベースによる各種の情報検索は,その情報の内蔵量及び整理度の高さから研究・ビジネスにおいて多くの付加価値をもたらしていると考えられる。しかし,その情報が国際的な価値を持ち,国境を越えて流通するようになると「外国語障壁(言語障壁)」の問題が出現してくる。つまり,外国語で記述されたデータベースを用いることに因る様々な問題が発生してくるのである。

この問題を見る前に,世界のデータベースの中でどの言語がどの形のデータベースとして用いられているかを概観する(表参照)。

言 語
書 誌
抄 録
全 文
数 値
統 計
画 像
伝言板
取 引
合 計
英 語
852
415
1,055
769
189
3
97
27
3,407
フランス語
118
34
35
15
9
1
212
ドイツ語
76
32
25
8
2
143
スペイン語
20
13
14
1
48
日本語
10
6
9
14
4
43
その他
12
4
19
22
26
1
84
合 計
1,088
504
1,157
829
230
4
98
27
3,937

表:データベースの種類による言語分布(Large(1990)による)

予想通り圧倒的に英語が強く全体のおよそ8割5分を占有している。特に全文データベースでは9割を越えて英語が使われていることが分かる。

さてデータベースにおける言語障壁を考えるために問題を大きく3つにわけ,

1)検索ソフトウエアの操作ができない
2)適切なデータベース,検索キーワードが決定できない
3)データベースから打ち出された文章が読めない

といった段階で分類してみる。

先ず1)については余り重い症状は表れていないようである。検索者はコマンドがたとえ自身の母語ではないとしても,習得するのに多くの努力を必要とするわけではない。これはデータベースの設計上,限られた命令と文法さえ覚えていればアクセスしうるよう作られているからである。(当然高度な検索のためには母語を用いた方が便利である。あるレポートによればECにおけるユーザの43%は指令語が母語であることを重要視しているそうだ。)この問題の改善策としては,たとえばDianeguide(EC諸国のデータベースをリストしたオンライン・データベース。8つの言語で検索可能)のように複数語のインターフェイスを備えておくことや,世界共通の指令言語(CCL=Common Command Language)を用いることで問題を解決することができる。特に指令言語については人工言語であるため検索に適切な構造を盛り込むことが可能になっている。現在の所,ごく一部のシステムにしかCCLは適用されていないし,運用にも問題があるらしい。しかし今後の発展に期待をつなげていきたい。

2)については検索の手順から考えてみる。まず検索者はどのデータベースを選択するかを考え,次に適切なキーワードを入力することで検索は実行される。そこでの重要な検索技術として,同義語・関連語を豊富に連想することの必要が挙げられる。しかし一般に連想能力は母語か外国語かによって格段に違う。外国語を使用せざるを得ないためヒット率が悪く,また見当違いの検索をやらかす原因ともなる。この問題については(既設のデータベースをうまく使うという観点においてではあるが)シソーラスの有効性が発揮される。シソーラスの連想に対する有効性は明らかであるが,手段として既成のシソーラスを他言語に翻訳するのか,多言語シソーラスを新たに構築するのかといった点で意見の統一がとれていないようである。後者を構築する方が望ましいのであろうが,費用の高すぎる点が問題である。

3)については外国語のデータベース検索の上で深刻な問題である。読めない情報を検索し,出力したとしても何ら意味はない。特に抄録および全文データベースを用いる時には決定的な弱点となってしまう。(ただし,この問題は印刷物でも同様に存在するのであるから,一言語に頼る情報空間の限界を表現しているのだと言うこともできよう。)この問題に対しては多言語の抄録/全文データベースを用意するか,適切な機械翻訳がエンドユーザの側で可能になるといった対処法が挙げられる。注目したい点は機械翻訳で,この技術の進展は言語障壁の打破のため非常に効果的な道具になり得るはずである。機械翻訳の作業の流れはまだまだ人手に頼る部分が多いが,翻訳品質の向上にともなって言語障壁は急速に緩和されていくものと考えられる。

山地康志(やまじやすし)

Ref: Large, Andy. The foreign-language barrier and electronic information. Online Review 14 (4) 251-266, 1990
西村勝彦 機械翻訳システム 日経ビジネス(569) 122-126, 1990
日本経済新聞 1991. 1. 1