CA964 – データベースの質の評価法 / 清水悦子

カレントアウェアネス
No.181 1994.09.20


CA964

データベースの質の評価法

現在,ビジネスや生活の様々な場面において様々なデータベースが利用されるようになっている。どのデータベースを使うべきか判断するとき,価格や使い勝手と同様,データベースの品質も考慮すべき点の一つに挙げられるだろう。我々のデータベースへの依存度が増すにつれ,その品質が重要になってくる。しかし,これまでのところ,データベースの品質を測定するだめの基準やテスト方法については,あまり研究されてこなかった。

先行の試みとしては,C. Bourneが1974年と77年に行った調査がある。1977年の調査で彼は,DIALOGで利用できる11の異なるデータベースの基本索引中で,アルファベットのある範囲を定め(APPLE〜AQUA,PLUM〜PLUTOなど),その中を一行一行検討して,ミススペリングを探した。そして結果を評価するための指標として,間違って綴られた語のパーセンテージ(=間違って綴られた語の数/全ての語の数),間違って綴られた語へのポスティングのパーセンテージ(=間違って綴られた語へのポスティング数(当該語による検索文献数)/全てのポスティング数)を用いた。前者の数値が同じでも,間違って綴られた語へのポスティング数が少ないほど検索の効率がよくなるので,後者の方が指標としては有用である。このときのテストでは,どちらの数値もBIOSISが最も低く,データベースの質の高さを示していた。

Dirty Database Test (以下DDT)は1991年にJ. Beallが提唱したデータベースのテスト法である。このテストは,まず間違って綴られた語を10語選定し,その語をテストの対象となるデータベースで検索する。次に,その語が使われている箇所の文脈を検討して,本当にミススペリングかどうかを判断する。最後にミススペリングの数を100から引いてそれをスコアとし,他のデータベースと比較する,という方法で行われる。Beallは,LC Catalogでテストを行った。

これに続いて,Way(1991)やCahn(1993)がDIALOGで利用できるデータベースを対象に同様のテストを行った。

Dwyerは,指標が欠けているという点でBeall の方法を批判し,エラー率(=ある語が間違って綴られている数/正しく綴られている数)を導入して,DDTを修正した。

さらにCahnは,様々な語尾の形を含めることによってエラー率が変わってくると考え,トランケーション(前方一致や後方一致など,検索語の綴りの一部のみを指定し,残りの部分は任意の文字で良いとする検索方法)によって語尾変化を調整する方法を用いた。またCahnは,テストの結果を分析する際にデータベースの規模と情報のタイプをも考慮した。

次にCahnは,それまでのDDTに,エラーの性質(重複エラーかユニーク・エラーか)と,エラーが存在するフィールドロケーションを加味したDDT2を提唱した。重複エラーとは,例えば,ある間違って綴られた語が抄録中に存在するが,同じフィールドのどこかに同じ語が正しい綴りで存在するような場合である。このときは,近接演算子その他の制約を加えない限りそのレコードへのアクセスは妨げられない。これに対してユニーク・エラーとは,同じ語の正しい綴りが基本索引に含まれていない場合である。このときは,アクセスは妨げられる。

しかし,「重複エラーはアクセスを可能にするが,ユニーク・エラーはこれを妨げる」と一概に言うことはできない。エラーが重複になるかは,検索するときの状況や検索式に含まれる近接演算子などによって決まるものだからである。

このテストを行うに際しCahnは,これまでとは別の,間違って綴られた語を10語選定した。結果を見ると,前に行ったテストに比べこのテストでのエラー率が最も高くなっている。また,エラーの存在するフィールドおよびそれが重複かユニークかにより,そのレコードへのアクセスが不可能になることもあると,Cahnは述べている。

Cahnは,自分が行ったテストの結果をもとに,テストの標準化について考察している。テスト結果に影響すると思われる変数として,

  • 間違って綴られた語の選択
  • エラーの性質(重複/ユニーク)
  • データベースの規模,タイプ

を挙げ,あまりにも多くの変数があると言う。そしてテストの標準化のために,いろいろな組織や個人が様々な品質テストやその技術を開発したり公表したりするのを奨励・援助するよう呼びかけている。また,データベースの品質テストや基準が公表されたら,データベース製作者がテスト結果に対して不正をはたらかないよう気をつけていなければならないとも言う。

Cahnは最後に,サーチャーの団体がデータベーステスト機関を設置して,品質テストを行い結果を公表するよう提案している。

清水悦子(しみずえつこ)

Ref: Bourne, Charles P. Frequency and impact of spelling errors in bibliographic data base. Inf Process Manage 13 (1) 1-12, 1977
Cahn, Pamela. Testing databases quality. Database 17 (1) 23-30, 1994