PDFファイルはこちら
カレントアウェアネス
No.277 2003.09.20
CA1503
RLGの新総合目録RedLightGreenにみる図書館目録の可能性
米国の研究図書館グループ(Research Libraries Group:RLG)のプロジェクトRedLightGreenは,RLG参加館の総合目録をウェブ上で提供する方法を再検討し,図書館目録に新たな価値を生み出そうとする試みである。2003年1月現在,データを限定して試験公開中であり,2003年秋に全データを使用した試験公開を予定している。
RLGの持つ書誌データは合計約1億2,600万件(タイトル数は約4,200万。RLGでは個々の図書館がそれぞれ書誌データと所蔵データを維持しているため,システム内部では同一の書誌データが並存する),300か国以上の機関が作成しており,370種以上の言語を扱う。現在はEureka(Web),RLIN(telnet),Z39.50ゲートウェイにより提供されている。日本国内では,2002年に慶應義塾大学が正会員(general member)として加盟した。また,図書館流通センターからTRC MARC(児童書と翻訳書を除く)が提供されている。
RLGは新たな総合目録を設計するにあたり,「図書館らしさ」を払拭すること,「GoogleやAmazon.comのような」機能とインタフェースを持つこと,書誌データ利用の新たな可能性として,「単に資料のありかを探すためのものではなく,信頼できる有用な情報資源を目指す」ことを目標とした。
2002年3月,メロン財団の援助のもとでプロジェクトが開始された。第一段階では,主な利用対象を学部生とし,ニーズ調査を行った。その結果,次の5点がオンライン目録の重要な要件として浮かび上がった。[1]発見:関連する資料,最新かつすぐ入手できる(current)資料,信頼度の高い(legitimate)資料を見つけられること,[2]フィルタリング(filtering):検索結果の絞り込みやソート機能,[3]入手:発見した著作を入手するための情報,[4]パーソナライズ(個人の要求への対応):目的に応じて検索結果を編集できること,[5]使いやすさ:親しみやすく,利用者の感覚に合ったインタフェース。また,学部生が図書館用語を好まないこと,米国議会図書館分類表のように詳細な分類表や件名標目表を利用したがらないことなども判明した。これらの調査結果をもとに,RedLightGreen試行版が作られた。
edLightGreenの第一の特徴は,徹底した利用者志向である。図書館用語を極力避け,一般的な言葉を使用することを基本方針としている。検索画面はシンプルで,入力欄は1か所である。利用者は思いつく言葉を自由に入力し,検索ボタンを押すだけでよい。
検索結果の表示には,FRBR(Functional Requirements for Bibliographic Records:書誌的記録の機能要件,CA1480参照)の提案が実践されている。FRBRで提示された四つの実体モデル「著作(Work)」「表現形(Expression)」「実現形(Manifestation)」「個別資料(Item)」のうち,RedLightGreenでは「著作」と「実現形」を利用している。ある一つの著作の詳細表示画面では,「英語版12件,中国語版1件…」,また「図書17件,録音資料(audio)2件」のように,言語や媒体を選ぶことができる。
システム内部では,利用者が入力した自然語のほか,関連する統制語でも検索し,利用者自身が絞り込みの範囲を選択できるような形で表示する。たとえば国名を特定せず”civilwar”で検索すると,米国やスペインなど国別の件名ごとに検索結果が表示され,求めるものを選ぶことができる。”New York riots”で検索すると,”New York−History−Civil War, 1861-1865″のほか,”Civil War, 1861-1865−Fiction”など,検索語とは異なる件名も選択肢として表示される。また,検索結果は著者や言語別でも表示される。
第二の特徴は,複数の図書館の所蔵情報を一望できる総合目録の特性を,資料の価値判断材料として利用していることである。多くの図書館が所蔵するほど資料へのアクセスしやすさが増し,さらに,資料の信頼性も高まるとみなして,所蔵情報による検索結果の重みづけを行っている点が興味深い。ただし,RLGのデータには個々の図書館内の所在情報までは記録されていないので,実際に資料にたどりつくためには,各図書館のOPACを再検索する必要がある。
そのほか,検索式の保存機能や,検索結果を数種類の定型的な参照文献記述書式でダウンロードする機能など,利用者の便宜が各所で考慮されている。今後は,利用者の要望の高い雑誌論文への対応が必要との認識が示されている。
データベースの構築にあたっては,書誌データのフォーマット変換に多大な苦労があったようである。問題の一つは文字コードであった。従来使用していたEBCDIC(IBM社が策定した8ビットの文字コード体系)をUTF-8(UCS(Universal Multiple-Octet Coded Character Set)で表現される文字のためのエンコード方式の一つ)に変換したのだが,非常に複雑な仕様を必要とした。特にアジア・中東地域の言語の処理が問題だったようだ。
また,従来のデータをXMLフォーマットに変換するためのDTD(XML文書におけるタグや属性の定義)を策定するのも一苦労だった。当初は米国議会図書館(LC)のMARC XML(MARCのデータをそのままXMLに変換するためのDTD)を使おうとしたが,RLGのデータにはMARC21(LCで維持・管理しているMARCフォーマット)に存在しない独自のフィールドがあるため,独自のDTDを作成しなくてはならなかった。また,従来のデータベースにおける要素名の中に,XML上で使用できないものがあったことも足かせとなった。最終的には,2,000以上のサブフィールドを除外し,分量にしてLCのDTDの20%ほどの「ゆるやかな」ものとした。従来のデータベースがMARCフォーマットへの対応を済ませていたことも幸いした。しかし今後はより厳密なDTDが必要になると予測されている。
図書館目録,特に総合目録が有用な情報源として機能するためには,書誌データの内容や提供方法の高度化だけでなく,蔵書構築やILLなど他の図書館機能の存在が重要であることを,RedLightGreenの試みは示している。また,分類表などの図書館独自の技術を利用者に直接使わせるのではなく「裏」の仕組みとして活用することで,簡易かつ正確な検索システムを構築しようとしている点も参考になる。多言語データの提供や大量データ変換などの点からも注目すべき事業であり,本格公開が待たれる。
日本国内でも,国立情報学研究所のWebcat Plusが,連想検索や検索結果の表示方法,他のデータベースとの連携などについて取り組みを進めている。国立国会図書館のNDL-OPACでは,典拠データの利用により検索機能の高度化を図ったほか,郵送複写や閲覧予約の申込みが可能となった。目録の「利用者志向」は着々と実現しつつあり,さらに意識していく必要があるだろう。
書誌部国内図書課:松井 一子(まついかずこ)
Ref.
“Revolutionizing the Catalog: RLG’s RedLightGreen Project”. RLG. (online) , available from < http://www.rlg.org/redlightgreen/ >, (accessed 2003-07-09).
RLG. “RLG’s RedLightGreen Project: Mining the Catalog”. RLG. (online), available from < http://www.rlg.org/redlightgreen/mining.html >, (accessed 2003-07-09).
RLG. “RLG’s RedLightGreen Project: Under the Hood”. RLG. (online), available from < http://www.rlg.org/redlightgreen/underhood.html >, (accessed 2003-07-09).
RLG to launch RedLightGreen pilot in fall 2003. Advanced Technology Libraries. 32(4), 2003, 1, 9-10.
松井一子. RLGの新総合目録RedLightGreenにみる図書館目録の可能性. カレントアウェアネス. 2003, (277), p.7-8.
http://current.ndl.go.jp/ca1503