CA800 - 英国の新聞CD−ROM / 安藤由美子

カレントアウェアネス
No.152 1992.04.20

 

CA800

英国の新聞CD-ROM

英国では1991年初頭に,全国紙であるThe Times, The GuardianそしてThe Independentの3紙がCD-ROM版を発刊した。また地方紙であるThe Northern Echoは,これら3紙に先がけて1990年12月に刊行を開始している。さらにThe Financial TimesもCD-ROM版の頒布を開始した。今回はこれらのCD-ROMのうち,The Times, The GuardianそしてThe Independentについて特徴を紹介したい。

新聞CD-ROMというのは,一定期間分の新聞記事を収録したものである。3紙とも更新頻度は年4回である。The TimesThe Guardianでは1月からの累積で少しずつ収録範囲が増えてゆき,最長1年分の記事が1枚のCD-ROMに収録される。またThe Independentは常時15ヵ月分のデータを収録するかたちをとっているため,例えば12月から1月にかけて掲載されているようなニュースを検索する際に,CDを入替えなければならないという煩わしさがなくなる。

3紙とも大まかな検索方法は共通している。まず検索語を入力し特定の日付や期間を指定すると,該当記事の見出しの一覧が得られる。そこで次にその中から欲しい記事を選んで,記事本文を得るという方法である。しかしながら,3紙とも独自にCD-ROMを開発しているため検索プログラムが違い,また具体的な検索方法や特徴はかなり異なっている。

The TimesのCD-ROMは,教育施設での利用を考慮して開発されており,メニュー方式で3紙の中では最も利用方法が簡単である。しかし,検索語は3語までしか一度に指定できない。また検索語を複数入力すると語は自動的にANDで結ばれ,同一パラグラフ内にこれらの語が存在している記事のみを検索する。このANDで結ばれた語群(3語まで)と,また別のANDで結ばれた語群(3語まで)との間では,ブール演算子を使用できる(したがってこの場合は6語まで入力可能となる)。しかし‘NOT’演算子が使用できないなど不便な点もある。

The GuardianThe Independentはコマンド方式を採用しており,The Timesに比べると利用方法は複雑であるが,一般的な機械検索に慣れている人であれば,かえって便利で使いやすいはずである。ブール演算子もすべて使用でき,絞り込みのための検索語数も特に制限はない。またこれら2紙では近接演算子(注1)を使用でき,精度を高めた検索が可能である。The Timesの場合は,近接演算子は使用できない。

またThe Independentには,語幹の同じ語を同時に検索する機能(automatic stemming)や,検索された記事のレレバンスを判定し,検索者のニーズに合致している可能性の高い順に記事を提示する機能(probable relevance ranking)がある(注2)。また最初は思いつかなくても,検索を実行してみると,その検索のテーマをよりよく表現している別の語が記事中に見つかることがある。それらの語を自動的にピックアップして次の検索を行う機能(topic searching)も備えている(注3)。これらの機能を使いこなせば,再現率や精度を高めることができ必要な記事を選びだすのに役立つ。さらにThe Guardianでは,第一面のみではあるが,紙面の画像を見ることができる。元の新聞のままの画像なので,記事の配置もそのままであり,写真・図などを利用できる便利さがある。またThe TimesThe Guardianでは,国際欄・スポーツ欄といった特定欄を指定して検索を行える。このように3紙について見ただけでも,かなり異なった特徴のあることがわかる。

新聞CD-ROMはオンライン・データベースと違って一枚に収録できる期間が限られている。しかし,その期間における過去の記事をすばやく探しだして,記事本文にもそのままアクセスできる点は,従来の冊子体の索引にはない利点であるといえる。

安藤由美子(あんどうゆみこ)

(注1)近接演算子を使用すると,語の出現場所を指定した検索が行える。例えばThe Guardianの例でいえば,
‘GULF BUSH’W5
として検索すると,‘GULF’と‘BUSH’が5語以内の近さで出現している記事のみをヒットする。
(注2)検索語の記事中での出現頻度とその語の希少性(rarity)からレレバンスを判定する。ある検索語が一般には「まれ」な語であるのに,その出現頻度がある記事において高いとすると,その記事のレレバンスは高いことになる。例えば「エリツィン」といった固有名詞は,CD-ROMに含まれるすべての語の中では比較的「まれ」な語である。反対に「政策」などの普通名詞はそれほどまれではない。「エリツィン」という語で検索した場合に,その語の出現頻度が高ければ高いほど記事は検索要求に合致しており,レレバンスも高い。一方「政策」という語で検索した場合,この語の出現頻度が「エリツィン」の場合と同程度に高い記事があっても,検索要求には合致しているが,レレバンスは「エリツィン」の場合のように高いとはいえない。
(注3)最初の検索でヒットした記事の中に「まれ」な語で出現頻度の多い語があると,これを新たに加えて検索を実行する機能。

Ref: Newspapers on CD-ROM. Br. Libr. Newsp. Libr. Newsl. (12) 1, 1991
Ryan, Frank. Searching The Times, The Guardian and The Independent on CD-ROM. Program. 25 (4) 319-337, 1991