CA1563 – 研究文献レビュー:日本における情報検索技術に関する研究動向 / 岸田和明

PDFファイルはこちら

カレントアウェアネス
No.284 2005.06.20

 

CA1563

研究文献レビュー

 

日本における情報検索技術に関する研究動向

 

はじめに

 情報検索(information retrieval: IR)のための技術的な研究は,インターネットの普及を契機として,質・量ともに飛躍的に進歩した。従来の情報検索や図書館情報学の研究者に加え,自然言語処理やデータベース管理など,他のさまざまな分野から研究者が参入し,数多くの文献が出版されている。特に,情報検索技術の研究が自然科学的な側面を持つことから,重要な研究成果は国際的な学会(ACMのSIGIRなど)や学術雑誌(Information Processing & Management誌やInformation Retrieval誌など)に発表される傾向にある。また,現在,TREC(1)(米国),NTCIR(2)(日本),CLEF(3)(欧州)などの国際的な評価型ワークショップが情報検索技術の研究を推し進める駆動力となっており,その会議録にも重要な研究成果が報告されている(会議録はオンラインで公開されている。それぞれのウェブページを参照)。

 もちろん,それに伴って,国内の雑誌にもいくつかの重要な文献が発表されている。本稿の目的は,そのような国内で刊行された論文を中心として,2003年以降の研究文献をレビューすることにある。ただし,その範囲については,図書館情報学関係の雑誌と,情報処理学会の出版物とに掲載されたものに限定する。電子情報通信学会をはじめとして,情報検索技術に関連する論文を取り扱っている学会はその他にもいくつか存在する。しかし,それらは図書館情報学的な視点からすれば,あまりにも技術的な内容となっているものが多い。一方,もし図書館情報学関連の雑誌にレビューを限定してしまうと,情報検索の複合領域的な性格からして,範囲を過度に絞り過ぎている感が否めない。そこで,専門部会(SIG)として「情報学基礎研究会」(4)を設置し,図書館情報学と重複する部分を持っている情報処理学会による刊行物を,レビューの対象に加えることとした。また,本稿における「情報検索」はいわゆるテキスト検索を意味するものとし,画像や音楽に関する検索については対象外とする。

 以下,いくつかのトピックに分けて,重要な研究文献を概観していく。なお,“document”に対する訳語としては,図書館情報学分野では「文献」をあてることが多いが,情報検索の領域では一般に「文書」としている。この訳語を使っておくと,「電子文書」や「ウェブ文書」という言い方も可能となるため,本稿でも「文書」を統一的に使用することにする。

 

1. 言語横断検索

 言語横断情報検索(cross language IR)とは,検索質問と文書とが異なる言語で書かれている場合の検索を指す。例えば,英語文書を収録したデータベースを日本語で検索する場合がこれに相当する。この種の研究は1990年代後半に本格的に着手されると,多数の研究者の関心を惹きつけ,わずか10年足らずの間に膨大な数の文献が出版された。情報検索分野において,近年になって登場した最も重要なトピックの1つであると言えよう(ただしその萌芽的な試みは1970年代に遡る)。

 言語横断検索では,基本的には検索質問か文書かのどちらかを翻訳することになるが,特に,検索質問の場合,含まれる語が少ないため十分な文脈が与えられず,訳語の曖昧性解消が必要になる。例えば“MERCURY”という語が与えられとき,これを「水銀」と訳すか「水星」と訳すかは自明ではない。木村ら(5)は,この曖昧性解消のために,ウェブのディレクトリを使用することを提案している。つまり,ディレクトリ中のカテゴリに属するウェブ文書からあらかじめ語を抽出しておき,それとの比較に基づいてカテゴリを決定し,曖昧性解消に役立てようという発想である。また,阿玉ら(6)は,日英の言語横断検索の性能向上のために,語基辞書の構築,カナ表記の翻字,通常の語ではなくバイグラム(連続する2つの文字)を単位とした曖昧性解消などについての実証的な分析を試みている。

 

2. 言語モデルの応用

 検索結果を順位付けて出力するには,各文書に何らかの方法で得点を付与する必要がある。このための検索モデルとしては,これまで,ベクトル空間モデルや確率的モデルが主として研究されてきた。ところが最近になって,音声認識や自然言語処理の領域で発展した言語モデル(language model)を情報検索に応用する試みが数多くなされている。これに関しては,岸田(7)による研究動向のレビューがある。

 文書の順位付けに関する性能については,結局のところ,言語モデルと従来のモデルとで大きな差はつかないようであるが,例えば,言語モデルを言語横断検索に応用すると,語の翻訳確率をモデル自体に組み込めるなど,理論的に,よりエレガントになる場合もある。これは,この方法では,当該文書の言語モデル(具体的には各語の出現確率分布)から検索質問が生成される確率に基づいて文書得点を計算するが,この確率論的なしくみの中に翻訳確率を組み込むことが容易なためである。この点についてのより詳しい説明として,岸田と賀沢(8)による解説がある。

 

3. ウェブ検索

 WWWに対する検索はわれわれの生活にとってもはや必要不可欠なものとなっているが,これは従来的なデータベース検索とはいくつかの点で異なっている。技術的には,その最大の相違はリンクの活用であろう。例えば,検索エンジンGoogleは,PageRankと呼ばれる,リンク構造を利用した検索アルゴリズムを使用していることで有名である。さらにはアンカーテキスト(リンクを表示した文字列)の利用など,ウェブの検索は,文書内で出現する語句を基本とした従来的な検索手法とは異なる要素を持っている。リンクを利用したアルゴリズムとしては,クラインベルク(Kleinberg)によるHITSなどもあるが,これについては江口(9)による解説がある。

 検索エンジンの一種としてメタ検索システムがある。これは,入力された検索語を他の複数の検索エンジンに転送し,その検索結果を併合して,利用者に返すシステムである。利用者にとっては,一度に複数の検索エンジンを利用したことになるので,手間が省けて便利である。検索結果を併合した際に,もし結果全体に対して再度の順位付けを試みるならば,これは一種のデータ統合(data fusion)の問題となる。これに関しては,鈴木ら(10)が,情報量の概念を加味した文書得点の正規化手法を提案している。

 なお,検索結果の統合は,メタ検索に限られた問題ではない。例えば,分散型情報検索(distributed IR)では,文書集合を複数の部分に分けて並行して検索をおこない,その結果を統合する。これに関して,小作ら(11)は,ウェブ検索の処理を分散させることを目的として,検索結果の統合に関する実験を試みている。

 また次世代の検索エンジンのための技術に関する研究も進んでいる。例えば,濱口ら(12)は,ウェブ文書から人名を自動抽出するシステムの実験を試みているが,これはいわば固有表現(named entity)についての情報抽出(information extraction:IE)であり,この問題に対して現在,数多くの研究者が取り組んでいる。

 なお,実際のインターネットの検索エンジンについては,『情報の科学と技術』第54巻第2号に特集(13)がある。また,Googleなどの著名な検索エンジンについては,一般向けの書籍も多数出版されている。

 

4. 概念検索

 現在の検索システムは検索質問中の語句と文書中の語句との文字列としての一致を基本としている。したがって,漏れのない網羅的な検索を実行しようとすれば,同義語や言い換えを列挙し,ORで連結する必要がある。しかし,これは実際の利用者には難しく,負担となるので,語句ではなく,その上のレベルの「概念」に基づく検索に関する研究が進んでいる。もちろん,このための工夫としてはシソーラスなどの統制語彙が以前より開発されてきたが,このような道具を利用者が明示的に使うのではなく,システムによる自動的な概念検索を実行可能とすることが近年の研究の焦点である。

 特許情報の検索システムにおいては,この種の概念検索がある程度実現されている。これに関しては,高橋(14)による解説が詳しい。この解説では,NRIサイバーパテントデスク,PATOLIS-IV,G-Search ATMSの3つのシステムにおける概念検索の特徴が論じられている。特に,特許検索では,ある特定の特許と類似した特許を発見することが重要になる。これは,一種の類似文書検索に相当する。特許に関する類似文書検索の方法については,高木ら(15)の研究がある。

 また,連想検索機能を持つシステムとしてGETAが開発されており,国立情報学研究所のWebcat Plusなどの実際のシステムで稼動している。これについては高野ら(16)による解説がある。この連想検索では,基本的には,利用者が選択した文書集合から語の集合が抽出され,それらに基づいて検索が実行されるしくみになっている。

 

5. 検索支援・フィードバック

 一般の利用者がシステムに投入する検索語の数はそれほど多くはなく,また,それらが検索要求を的確に表現している保証もない。通常,自分にとって不明確なことがらを調べようとして検索を実行するのであるから,適切な検索語を思いつけないというのはむしろ普通の状態であろう。

 この問題を解決するために,利用者が投入した検索語を自動的に拡張する試み(いわゆる質問拡張)や,検索語の候補を利用者に提示するような支援システムの開発が数多くなされている。この場合,利用者が最初に投入した検索語によって特定された文書集合に対して何らかの分析をおこない,より適切な検索語を発見する方法を使うことが多い。例えば,金谷と梅村(17)は,初期的な検索結果中の語と検索語との相互情報量に基づく重みを使って,システムによる検索質問の自動拡張を試みている。

 一方,崔ら(18)は,初期的な検索結果を分析し,よりよい検索語の候補を利用者に対話的に提示する支援システムを開発している。このシステムでは,データベース全体での統計情報を使った分析と,初期的な検索結果に対する分析とを組み合わせることによって,効果的な検索語提示の実現を試みている。また,戸田ら(19)は,検索結果から動的に特徴的な固有表現を抽出し,利用者に提示するシステムの研究をおこなっており,吉岡と原口(20)は,検索の網羅性を高めるために,より一般的な語を提示するインタフェースの作成を試みている。

 

6. 検索実験の方法

 冒頭で述べたTRECやNTCIR,CLEFなどの評価型ワークショップは,検索実験に欠かせないテストコレクションを構築・提供している。このテストコレクションの作成や,それを使った検索評価は簡単な作業ではなく,その方法論に関する研究領域が形成されている。

 テストコレクションの構築の難しさの1つは適合文書の発見にある。再現率を正確に評価するには,文書集合中の適合文書をもれなく見つけ出さねばならない。しかし,これは文書集合が大きくなればなるほど困難な作業となる。この問題を解決するための伝統的な方法がプーリングであり,この問題に関しては,栗山ら(21)(22)がNTCIRにおける言語横断検索の評価の場合について論じている。

 一方,ウェブ検索の評価については江口ら(23)(24)が論じている。ウェブ検索はすでに述べたように,従来的な情報検索とは異なる側面を持っており,そのため実験・評価においても,その特徴を考慮する必要がある。例えば,情報検索における適合度順出力の評価のための指標としては,これまで平均精度が利用されてきた。この指標は,適合度順出力のリストを先頭から見ていき,適合文書が見つかるたびにその順位までの精度を計算して,最後に,それらを平均したものである。一方,ウェブ検索の評価では,ウェブの典型的な利用状況を考慮して,上位10件程度の検索結果のみの閲覧を前提とした評価モデルが設定されることがある。この場合,平均精度とは別の評価指標が用いられることになる。このような検索実験の評価指標の妥当性や信頼性についても一般に,数多くの研究が積み重ねられている。

 

7. 検索の実際・戦略

 情報検索の実際については,『情報の科学と技術』第54巻第7号で特集(25)が組まれ,図書,化学・医学分野の雑誌論文,特許,音楽情報の各領域別に解説がなされている。また,MEDLINEの検索戦略については,阿部(26)による海外文献のレビューがあり,参考になる。

 

8. その他

 XMLの普及に伴って,XMLで記述された文書の検索が重要な研究テーマになりつつある。これについては絹谷ら(27)によるサーベイ論文がある。

 また,単なる検索語から文書を特定するのではなく,文書間の関連を利用して,適合文書のグループをデータベース中に見出そうとする試みも古くからなされている。このためには文書のクラスタリングが必要となる。情報検索を応用目的とした文書クラスタリングについては岸田(28)によるレビューがある。

 

おわりに

 文書中のテキストのより高度な解析を検索に応用しようとする試みも数多い。例えば,図子ら(29)は,文書中に含まれる因果関係を析出し,それを応用した検索方式を提案している。これは,検索語を何らかの事象として捉えることができる場合,単なるその表現上の一致だけでなく,因果関係をも包摂して文書得点を計算しようという試みである。

 一般に,自然言語処理技術をテキスト処理に応用して,より高度な情報アクセスを可能にしようとする動きがある。これに関しては,『情報処理』誌に解説(30)があるが,そこでは,その実現のための要素技術として,情報検索のほかに,情報抽出,自動要約,質問応答などが挙げられている。これらの技術に共通しているのは,情報検索に比べて,より高いレベルのテキスト処理を施す点にある。例えば,自動要約では,単に,文を抜粋するだけでなく,それらを組み合わせて意味の通る文章にしなければならない。これには単文を超えた,複数の文間の関係についての分析が必要になる。

 一方,情報検索はいまだ“bag-of-words”の段階にある。すなわち,1つの文は単語レベルに分解され,文が持つ構文や,単語間の意味関係は十分に考慮されない。もちろん,大規模な文書集合に対して,迅速な検索を実行するには,単語レベルの処理が1つの条件である(例えば,単語レベルへの分解によって転置ファイルの利用が可能になる)。しかし,情報抽出や自動要約などの研究で開発されたテキスト処理技法を効果的に情報検索に応用する試みが今後重要となっていくことが予想される。なお,自動要約に関しては,その専門書が邦訳されている(31)

 その他,テキスト分類(例えば,石田(32)や,高村と松本(33)を参照)もまた,情報検索に関連した重要な技術である。今後は,情報検索技術を中核として,これらの技術を活用した情報アクセス手法がより包括的に研究されていくと考えられる。

駿河台大学文化情報学部:岸田 和明(きしだ かずあき)

 

(1) Text REtrieval Conference (TREC). (online), available from < http://trec.nist.gov/ >, (accessed 2005-04-07).
(2) NTCIR 情報検索システム評価用テストコレクション構築プロジェクト. (オンライン), 入手先 < http://research.nii.ac.jp/ntcir/index-ja.html >, (参照2005-04-07).
(3) Cross Language Evaluation Forum. (online), available from < http://clef.iei.pi.cnr.it/ >, (accessed 2005-04-07).
(4) 情報処理学会情報学基礎研究会(SIGFI). (オンライン), 入手先 < http://www.ipsj.or.jp/katsudou/sig/sighp/fi/ >, (参照2005-04-07).
(5) 木村文則ほか. Webディレクトリを言語資源として利用した言語横断情報検索. 情報処理学会論文誌. 45(SIG 7), 2004, 208-217.
(6) 阿玉泰宗ほか. 日英言語横断検索のための翻訳知識の獲得. 情報処理学会論文誌. 45(SIG 10), 2004, 37-48.
(7) 岸田和明. 情報検索のための言語モデル:その理論と特徴. 中央大学文学部社会学科紀要. (15), 2005, 65-76.
(8) 岸田和明ほか. 探しもの見つけます:情報化社会に役立つ情報検索の技術動向. 情報処理. 44(6), 2003, 615-621.
(9) 江口浩二. Web情報アクセス技術の評価モデル. 情報の科学と技術. 54(12), 2004, 647-652.
(10) 鈴木優ほか. 検索結果を統合するための情報量の概念を考慮したスコア正規化手法. 情報処理学会論文誌. 45(SIG 4), 2004, 37-49.
(11) 小作浩美ほか. WWW検索における複数検索結果の統合処理とその評価. 情報処理学会論文誌. 44(SIG 8), 78-91.
(12) 濱口佳孝ほか. Webからの情報抽出・検索システムにおける全文検索. 情報処理学会研究報告. 2004-FI-76, 2004, 9-14.
(13) 特集:インターネット検索エンジン. 情報の科学と技術. 54(2), 2004, 65-94.
(14) 高橋昭公. 特許情報における主題情報の探索:概念検索とその限界. 情報の科学と技術. 54(7), 2004, 355-362.
(15) 高木徹ほか. 検索質問文書の主題分析に基づく類似文書検索. 情報処理学会研究報告. 2004-FI-75, 2004, 91-98.
(16) 高野明彦ほか. 連想に基づく情報アクセス技術:汎用連想計算エンジンGETAを用いて. 情報の科学と技術. 54(12), 2004, 634-639.
(17) 金谷敦志ほか. 相関係数を用いた実証的重みの分析と検索質問拡張. 情報処理学会研究報告. 2003-FI-73, 2003, 17-24.
(18) 崔超遠ほか. グローバル分析とローカル分析に基づく検索支援. 情報処理学会論文誌. 45(SIG14), 2004, 54-63.
(19) 戸田浩之ほか. 特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案. 情報処理学会研究報告. 2004-FI-75, 2004, 99-106.
(20) 吉岡真治ほか. 適合的汎化に基づく情報検索システムの研究(第2報):検索語の網羅性に注目した検索インタフェースの作成. 情報処理学会研究報告. 2004-FI-74, 2004, 87-93.
(21) 栗山和子ほか. NTCIR-3言語横断検索タスクの分析:プーリングを中心として. 情報処理学会研究報告. 2003-FI-73, 2003, 9-16.
(22) 栗山和子ほか. 大規模テストコレクション構築のためのプーリング:NTCIR-3言語横断検索タスクの分析. 情報処理学会研究報告. 2003-FI-72, 2003, 91-98.
(23) 江口浩二ほか. NTCIR-3 WEB:Web検索のための評価ワークショップ. NII Journal. (6), 2003, 31-56.
(24) 江口浩二. Web検索の技術動向と評価手法. 情報処理. 45(6), 2004, 569-573.
(25) 特集:主題情報. 情報の科学と技術. 54(7), 2004, 333-370.
(26) 阿部信一. MEDLINEの検索方法の分析研究:海外文献のレビュー. 医学図書館. 51(3), 2004, 221-229.
(27) 絹谷弘子ほか. キーワードを利用したXML文書検索. 情報処理学会論文誌. 45(SIG 7), 2004, 255-273.
(28) 岸田和明. 文書クラスタリングの手法:文献レビュー. Library and Information Science. (49), 2003, 33-75.
(29) 図子泰三ほか. 事象データ間の因果関連性計量機能をともなったベクトル空間検索方式. 情報処理学会論文誌. 45(SIG 7), 2004, 124-136.
(30) 特集:自然言語による情報アクセス技術. 情報処理. 45(6), 2004, 561-585.
(31) Mani, Inderjeet. (奥村学ほか訳). 自動要約. 東京, 共立出版, 2003, 282p.
(32) 石田栄美. テキストの自動分類に関わる諸要素. 日本図書館情報学会誌. 49(2), 2003, 65-78.
(33) 高村大也ほか. SVMを用いた文書分類と構成的帰納学習法. 情報処理学会論文誌. 44(SIG 3), 2003, 1-10.

 


岸田和明. 日本における情報検索技術に関する研究動向. カレントアウェアネス. 2005, (284), p.18-21.
http://current.ndl.go.jp/ca1563