CA1277 - データベースの検索エラー / 石氏将之

カレントアウェアネス
No.241 1999.09.20


CA1277

データベースの検索エラー

近年,図書館における検索ツールは,従来の冊子体やカードによる検索からオンライン閲覧目録(Online Public Access Catalog: OPAC)やデータベースによる機械検索へと移行しつつある。OPACはその名の通り,利用者が介助なしに検索できる書誌・目録検索システムである。図書館としては当然のことながら,このような検索機器の導入により,利用者が容易に目的の情報へとセルフアクセスすることを期待するが,実情は必ずしもそうではないようである。とりわけ,利用案内に立っているレファレンス・ライブラリアンは,機器が図書館内に配置された直後から機械操作に関するつまらない質問が増えるように感じている。

このような機械検索にまつわる利用者のトラブルやエラーに関し,アメリカで2つの興味深い報告がなされた。1つはテネシー大学図書館情報学科のテノピア(Carol Tenopir)が行った,全米の大学・公共・専門図書館のレファレンス担当職員に対するアンケート調査,そしてもう1つは,ジョージア工科大学のシット(Richard A. Sit)が行った,カリフォルニア州トランス市立図書館の高齢者によるOPACの検索実験である。

かつてカリフォルニア大学のボーグマン(Christine L. Borgman)は,OPACを検索するのに必要な知識として,(1)ニーズを検索可能な質問として具現化するための概念知識,(2)システムが提供するアクセスポイント,典拠ファイル,ブール演算子など,検索システムに関する知識,(3)コンピュータの操作技能及びコマンドの記述法など検索のシンタックス(構文)に関する技能,という3つをあげた。今回行われた2つの調査では機械検索にまつわる利用者たちの実に様々なミスが報告されているが,そのほとんどはボーグマンのあげる3つの検索知識の不足に起因している。とりわけトランス市立図書館での実験では,ボーグマンの分類に基づく詳細なエラー分析がなされている。

テノピアによる調査

アンケートの結果によると,利用者は機械検索の際にある特定のエラーをくり返し犯していることが判明した。しかしその原因は,利用者自身の注意不足というよりはむしろ貧弱なシステム設計にあるとテノピアは分析している。そして,いくつかの典型的なエラー事例を報告するとともに,これら特定のエラーに対してシステム面から解決をはかろうとしているデータベースやソフトウェアを紹介している。

1)入力エラー:利用者による実に些細な機械検索ミスが,該当件数0件という無惨な結果をもたらすことがある。例えば,単数形・複数形に関するミス。既にLEXISやNEXISは20年前に複数形のsを取り除くことを自動化している。しかしながら,依然として多くのシステムはこの問題に対して明確な方向性を打ち出していない。

また,スペルミスは入力エラーの中でも最も一般的なものである。よく間違える単語(例えばBrownとBraun)のリストにリンクし正しいスペルに復元するスペルチェッカーはここ数年Excaliburなどのソフトウェアに見られるが,全ての検索システムの標準装備とはなっていない。

2)インターフェイス:近年,CD-ROM,オンラインサービス,WWWと図書館が提供する電子情報は多様化している。ところが一般的に利用者はそれらの検索方式がそれぞれ別であることを知らない。画面のデザインも複雑でまちまちであり,利用者は画面を読むことに多くの時間を費やしてしまう。しかし,SilverPlatterのWebspirsやOCLCのFirst-Search WebのようなWebベースのインターフェイスはより共通化され,かつ単純な画面構成で提供されている。

3)ブール演算:依然として最も使用されている検索方式であるが,初心者はその基本的な理解の欠如からしばしば間違いを犯す。特に基本的なブール演算子であるandとorは日常会話において多様な意味合いで使われているため,混乱が生じる。例えば,ブール演算ではandを使用するよりorを使用した方がより大きな検索集合を形成できることも利用者には知られていない。

こうしたことから,ブール演算に依らない検索システムも出現している。ビジネス情報のオンライン検索サービスであるManning-Napier社のDR-LINKでは,自然語による質問文を入力すると,重要語を抽出した上で,それらの概念関係を整理して検索し,結果は関連度の順に出力する。情報検索の主流は非ブール型のWebサーチエンジンへと傾きつつあるが,ブール検索が簡潔で有効な検索方式であることに変わりはない。ブール演算的な質問の分析の仕方を利用者に教えることも重要であろう。

4)タームエラー:利用者による検索語の選択ミスも問題である。例えば「学校」「教育」などあまりにも一般的すぎる単語を入力すれば,検索結果が膨大になってしまうか,一般的で関連性の薄い文献しか検索されない。逆にあまりにも特化された語を選択してしまって1件もヒットしない場合もある。そうしたとき,多くの利用者は実際に文献もないものと考えて,検索し直すことなくその場を立ち去ってしまうことが,検索ログの解析からも浮き彫りになっている。

Wilsonlineなどでは,ユーザーが例えば「教育」と入力した時に,より適切なディスクリプタを表示してくれるシソーラス機能を備えている。

5)概念エラー:最後に最も複雑なのが概念のエラーである。利用者は通常質問をきちんと概念化せず,思いついた言葉で検索してしまう。

そして,テノピアは最後に最も根源的な問題として利用者側の問題をあげている。すなわち,多くの利用者はシステムの説明を読もうとしないという点である。システム的な改善の余地は確かにあるが,検索過程と様々な情報源について,くり返し説明することが求められる。

シットによる高齢者のOPAC検索実験

トランス市立図書館で行われた実験では,参加者は50歳以上で,同図書館のOPACを利用し,かつ検索を成功させた経験を持っていることを条件とした。その結果,50〜76歳(平均63.5歳)の54人が実験に参加することになった。参加者の約7割は大卒以上であり,さらに94%は白人で96%が英語を母国語としている。したがって今回の調査サンプルがトランス市,ひいてはアメリカ一般市民を代表しているとは言い難いが,図書館利用者のサンプルとしては適当ではないかとシットは見ている。

参加者には9つの検索課題を提示し,時間制限なしに納得の行く答えが得られるまでOPACを検索してもらった。これらはそれぞれ,トランス市立図書館のOPACに備えられている6種類の検索機能を単独あるいは組み合わせて使いこなすことを要求するものである(表1)。著者・主題・書名検索では,フィールド名と検索語を入力する。キーワード検索はやや複雑で,コマンドなども入力しなければならない。なお,情報の所在の理解とは,ディスプレイに表示された資料の貸出状況などを理解することであり,クロスレファレンスとは検索結果に対してOPACが提案する関連語参照機能を活用することである。回答はごく短い検索式の作成と数回程度のタイピングにより得られるようになっている。検索に際しては,図書館員への質問を禁止し,オンラインヘルプか説明用の印刷物を参照してもらうこととした。

実験後,参加者からの回答と検索ログの分析から次のようなことが判明した(表1)。比較的平易とされた著者・主題・書名・クロスレファレンス検索については,おおむね成功している。一方,情報の所在の理解については十分でなかった。特に,所在記号のように,情報の所在がコード化,省略化されている場合に理解に困難が生じているようである。キーワード検索,ブール検索,データベースの変更を要する課題の成功率は低かった。データベースの変更については,過半数の参加者が,データベースが複数存在することを知らなかった。

今回の実験で得られたエラー計1,004件を,ボーグマンに基づき12のカテゴリーに分類してみると,より顕著な傾向が現れていることがわかる(表2)。高齢者のOPAC検索における主要な問題は,検索する概念を検索式として具体化するための概念知識が不足していることなのである。概念的な錯誤の問題はあらゆる情報検索システムに共通しており,適切な検索式を入力するためには経験を積むことが必要であろうとシットは最後に結論づけている。

以上2つの報告には,名詞の複数形,ブール演算子のあいまいさといった英語特有の事例も見られる。しかしながら,検索知識の啓発などは言語を越えた問題であり,システムの改善とともに,機械検索問題に対する有効な手段であると言えるのではなかろうか。

石氏 将之(いしうじまさゆき)

表1 要求される検索機能と課題の成功率

検索課題
検  索  機  能
難易度
成功率
(%)
1
著者・主題・書名検索
単純
79.6
2
データベースの変更
キーワード検索
複雑
複雑
35.2
3
データベースの変更
複雑
38.9
4
情報の所在の理解
単純
66.7
5
クロスレファレンス
単純
83.3
6
著者・主題・書名検索
単純
100.0
7
キーワード検索
ブール検索
複雑
複雑
27.8
8
情報の所在の理解
キーワード検索
単純
複雑
63.0
9
クロスレファレンス
単純
79.6

表2 知識の種類によるエラー分類

検索エラーの分類
エラー回数
エラー率(%)
概念知識のエラー
  広義すぎる検索の実行
  間違ったデータベースの選択
  不適切な検索語の選択
  ブール演算子の不適切な使用
  狭義すぎる検索の実行
 
244
100
95
49
46
 
24.3
10.0
9.5
4.9
4.6
検索システムに関する知識のエラー
  間違った検索フィールドの選択
  検索フィールドの省略
  不適切な文脈でのコマンド入力
 
146
83
77
 
14.5
8.3
7.7
操作技能エラー
  シンタックスエラー
  スペルミス
  キーボードの誤打
  間違ったコマンド入力
 
106
26
23
9
 
10.6
2.6
2.3
0.9

Ref: Tenopir, Carol. Online databases: common end user errors. Libr J 122 (8) 31-32, 1997
Sit, Richard A. Online library catalog search performance by older adult users. Libr Inf Sci Res 20 (2) 115-131, 1998
Borgman, Christine L. Why are online catalogs still hard to use? J Am Soc Inf Sci 47 (7) 493-503, 1996