PDFファイルはこちら
カレントアウェアネス
No.281 2004.09.20
CA1534
動向レビュー
セマンティックウェブと図書館
1. セマンティックウェブとは(1)
標準的なウェブ文書では,機械処理のためのマークアップ表現は文書構造・レイアウトに対してのみ行われ,その内容,すなわち「意味的な(Semantic)」側面については,人間による読解が前提となっている。しかし爆発的な情報量となった今日では,その総体を巨大なデータベースとみなす検索エンジンや,散在する資源を横断的に統合する情報サービスが不可欠なものとなっており,それらをより洗練させるには,人間だけではなくコンピュータにも情報の「意味」を理解させる必要がある。
「セマンティックウェブ」は,ウェブの発明者であるバーナーズ=リー(Tim Berners-Lee)によって提唱された枠組みであり,「ウェブに記述される情報に明確な意味の定義を与え,コンピューターと人間とがうまく協力して作業できるように」「現在のウェブを拡張したもの」(2)である。イメージはウェブの設計当初からあったとされるが,直接的な提唱は1998年頃であり,2001年のScientific American誌に掲載された論文“Semantic Web”(3)で世界的に注目され,用語としても定着するようになった。この論文の邦訳題は「自分で推論する未来型ウェブ」だが,その最終目標は,知的エージェントソフトウェアが人の代わりに問題解決のためのデータ収集・判断・評価を行ってくれるという未来図にある。
米国やEUではセマンティックウェブに関わる大規模な開発プロジェクトが動いており,標準化活動はW3Cによって行われている(4)。日本では情報処理相互運用技術協会(5)が調査・翻訳などの普及活動に努めている。また,2002年から国際セマンティックウェブ会議(ISWC)(6)が行われているが,2004年は広島での開催が予定されている。
2. セマンティックウェブの諸要素技術と標準化動向
セマンティックウェブの考え方は,情報リソースの内容やその処理方法を明示的かつ標準化された形式で共有化することで,高度な処理が可能になるというものであり,様々なデータに対してメタデータを確実に付与することが基盤となる。その全体像は,XMLやURIといった基盤技術を前提として,以下にあげる各層の諸要素技術が順次開発され,組み合わされて機能するという枠組みで説明されることが多い。
- (1)RDFモデルおよびシンタックス層
- (2)RDFスキーマ層
- (3)オントロジ層
- (4)ルール層
- (5)ロジックフレームワーク層
- (6)プルーフ層
- (7)トラスト層
まず,RDF(Resource Description Framework)(7)を用いたメタデータの記述が行われる。RDFは意味論には関わらず,XMLによるメタデータ記述の汎用的な構文枠組みを規定したものであり(「リソースのプロパティとその値」という単純な情報の集積として記述する),上記(1)のRDF/XML Syntax Specificationとして早くから標準化されている。セマンティックウェブでは単一のメタデータ規則(例えばダブリン・コア)の使用を推奨・強制する発想はなく,どのような規則に基づいたメタデータであってもRDFによる構文記述を行えば交換・共有化が可能であるという考え方に立っている。
とはいえ,構文的な統一があってもプロパティや値の相互関係が伝達できなくては,「意味」の共有にはならない。例えば,異なるメタデータ規則のデータ要素「責任表示」と「作成者」の対応関係や,「自動車」と「乗用車」といった辞書的な関係情報が求められる。こうした情報は上記(2)のRDFスキーマ層(RDF Vocabulary Description Language として標準化)で一定程度管理され,異種スキーマを統合的に扱うためのより詳細な語彙・概念の管理が(3)のオントロジ層で行われる。オントロジは概念間の階層関係や概念定義間の整合性を記述した知識ベースであり,1980年代から人工知能分野などで研究がなされてきた。セマンティックウェブでは普遍的・集権的なオントロジ構築は想定されておらず,異なるオントロジ間の相互運用に資するオントロジ記述言語の標準化が急務であったが,2004年2月にOWL(Web Ontology Language)(8)がW3C勧告文書として完成している。なお,これらとは別に,情報リソースから独立した形で概念間の関係を定義する「トピックマップ」の標準化活動が1990年代から行われているが,セマンティックウェブとの関連で新たな注目を集めている(9)。
RDFメタデータは実用化が徐々に進み,オントロジは標準化が一段落した現状にあるが,これだけでは知的エージェントは実現されない。データ解釈・処理のルールを論理式として共有化し(上記(4)(5)層),さらには情報の信頼性を保証する枠組み(上記(6)(7)層)が必要であるが,これらはまだ構想段階で具体化されておらず,長い道のりが予想される。
3. セマンティックウェブと図書館
アダムス(Katherine Adams)(10)は,「シソーラス構築,メタデータデザイン,情報組織化といった図書館の伝統的スキルのいくつか」がセマンティックウェブに組み込まれると述べている。図書館情報学の蓄積がそれほど直接的に採用されているとはいえないが,メタデータやオントロジによって情報の相互利用性拡大をめざすセマンティックウェブが,情報の組織化・提供を本旨としてきた図書館と高い親和性を持つのは疑いない。
また一方,情報組織化の長い伝統を持ち,ウェブ上の情報爆発によってその限界にも直面している図書館にとって,セマンティックウェブの動向は重要な意味を持つものである。図書館情報学の立場からセマンティックウェブをとらえた論考は,バーナーズ=リーらの論文が出た2001年以降いくつか発表されている。また,2002年4月には,欧州図書館自動化グループ(European Library Automation Group)が年次セミナーのテーマに「セマンティックウェブと図書館」をとりあげ,RDFやオントロジに関する講演が行われている(11)。
以下,学術雑誌等の論考を中心にいくつかの論点を紹介する。
3.1 典拠管理とセマンティックウェブ
目録すなわちメタデータを作ること自体がセマンティックウェブの第一歩ともいえるが,意味の共有という観点から典拠管理がしばしばとりあげられる。
フランクリン(Rosemary A. Franklin)(12)は,現在のウェブ上の学術情報探索には検索精度を保証する典拠管理が欠落しており,「次世代のウェブ」であるセマンティックウェブでは図書館情報学における目録法・主題索引法が取り入れられていくという見通しを述べている。ブルックス(Terrence A. Brooks)(13)も,典拠管理の手法によってウェブにおける検索上の問題は相当部分解決するとし,セマンティックウェブを実現するためには各種の「値(value)」を管理するリポジトリ(「バリュースペース」と名付けている)を設けることが有効であると述べている。またLCのティレット(Barbara B. Tillett)(14)は,自らの主導する「バーチャル国際典拠ファイル」(CA1521参照)が未来のセマンティックウェブの不可欠な一部分になるというシナリオに言及している。なお,ブルックスが上記の構想について,集権的な管理機構を持たないウェブ世界の現状では「実行不可能」と自ら懐疑を示しているように,分散環境を前提とするセマンティックウェブにどう適用していくのかは大きな問題である。
3.2 主題アクセスとオントロジ
オントロジは,図書館から見れば分類・件名・シソーラスなどの主題アクセスツールと関連づけてとらえられる。ゼルゲル(Dagobert Soergel)(15)は,オントロジは図書館における分類の「再発明」であるとし,分類表,シソーラス,辞書,オントロジといった多くのタイプの知識ベースをオーバーラップさせるコミュニティ間の対話が必要だと指摘している。先にあげたアダムスは分類とオントロジの同質性を述べたうえで,図書館分類が人(利用者)を援助するのに対して,オントロジは機械(ソフトウエア)との対話を重視するという強調点の違いがあるとしている。また前節にあげたフランクリンもセマンティックウェブにおけるシソーラスや分類の役割について述べ,特にファセットアプローチが重要としている。
より実践的には,AAT(Art and Architecture Thesaurus)をはじめとする4種のオントロジをRDFスキーマに変換し,オントロジ間のリンクを施して絵画等の画像データベース検索に生かす実験システムが,フリー大学(オランダ)の研究グループから発表されている(16)。またアダムスはトピックマップを次世代ウェブのインフラとして高く評価しているが,OCLCでは,ウェブページ群からの主題情報抽出とトピックマップ生成をある程度自動的に行い,ウェブ上の主題ナビゲーションを改善する“RDF Topicmaps”(17)のソフトウェア開発が進行中である。
3.3 ポータル,リポジトリとセマンティックウェブ
Ex Libris社のサデー(Tamar Sadeh)ら(18)は,図書館ポータルにおけるセマンティックウェブの重要性について述べている。スキーマを共有しない異種リソースの同時検索にはデータベース内容の構造に関する情報を共有する必要があるが,Z39.50におけるExplainファシリティなどこれまでの試みは結局根付いておらず,サデーらはオントロジによってこの問題が解決されることを期待している。
またファスト(Karl V. Fast)ら(19)は,各種のリポジトリで用いられているメタデータ収集プロトコルOAI-PMH(CA1513参照)とセマンティックウェブの考え方を比較し,メタデータを用いて分散・非集権環境下で情報の相互利用を円滑化するという共通性はあるが,ドキュメント単位の情報流通を前提とするOAI-PMHに対して,セマンティックウェブではより分節化された細かな単位にメタデータを付すという粒度の違いがあると論じている。より実践的には,機関リポジトリDSpace(CA1527参照)をセマンティックウェブ技術を用いて拡張するSIMILEプロジェクト(20)がMIT, HP, W3Cの3者共同で立ち上げられている。
4. おわりに
以上のように,図書館界でも様々な観点から,セマンティックウェブが注目されてきている。しかしながら,この技術は様々な側面を持つため焦点が絞りにくく,多くの論者が自らのフィールドにあわせて接点を設定しているきらいがある。また,親和性が高いとはいいながら,図書館における情報組織化の伝統とセマンティックウェブの方向性には無視しえない相違点もある。図書館の発想は目録規則や統制語彙を統一してデータを標準化させる方向に傾きがちなのに対して,セマンティックウェブがめざすのはあくまで分散・非集権を前提とした情報共有化を可能とする標準化技術である。また,対象リソースとなる粒度の異なりも大きな問題であり,知的エージェントの推論に資するオントロジと,ドキュメント単位のアクセスを前提とする図書館の主題ツールは,必ずしも同列には論じられない。
OCLC出身でW3Cにおけるセマンティックウェブ開発の中心人物の一人であるミラー(Eric Miller)ら(21)は,目録規則やMARCの伝統を持ち,利用者行動の観察や大量データの操作にも豊富な経験のある図書館コミュニティは,セマンティックウェブに大いに貢献できると述べている。上述した両者の異なりも自覚しながら,さらに研究・実践が深まっていくことが望まれる。
神戸大学附属図書館:渡邊 隆弘(わたなべ たかひろ)
(1) セマンティックウェブの概略については多くの解説記事があるが,まとまった特集を一つだけあげておく。 特集: セマンティックWeb. 情報処理. 43(7), 2002, 707-750.
(2)Berners-Lee, T. et al. (村井純ほか訳)自分で推論する未来型ウェブ. 日経サイエンス. 31(8), 2001, 54-65.
(3) Berners-Lee, T. et al. The Semantic Web. Scientific American. 284(5), 2001, 34-44. (online), available from < http://www.sciam.com/article.cfm?
(4) World Wide Web Consortium. “Semantic Web”. (online), available from < http://www.w3c.org/2001/sw/ >, (accessed 2004-07-19).
(5) INTAP セマンティックWeb委員会. (オンライン), 入手先< http://www.net.intap.or.jp/INTAP/s-web/ >, (参照2004-07-19).
(6) International Semantic Web Conference. (online), available from < http://iswc.semanticweb.org/ >, (accessed 2004-07-19).
(7) World Wide Web Consortium. “Resource Description Framework (RDF)”. (online), available from < http://www.w3c.org/RDF/ >, (accessed 2004-07-19).
(8) World Wide Web Consortium. “Web Ontology Language (OWL)”. (online), available from < http://www.w3c.org/2004/OWL/ >, (accessed 2004-07-19).
(9) TopicMaps.Org. (online), available from < http://www.topicmaps.org/ >, (accessed 2004-07-19).
(10) Adams, Katherine. The semantic Web: differentiating between taxonomies and ontologies. Online. 26(4), 2002, 20-23.
(11) European Library Automation Group 2002. (online), available from < http://www.ifnet.it/elag2002/ >, (accessed 2004-07-12).
(12) Franklin, Rosemary Aud. Re-inventing subject access for the semantic Web. Online Information Review. 27(2), 2003, 94-101.
(13) Brooks, Terrence A. The Semantic Web, universalist ambition and some lessons from librarianship. Information research. 7(4), 2002. (online), available from < http://informationr.net/ir/7-4/paper136.html >, (accessed 2004-07-12).
(14) Tillett, Barbara B. AACR2 and metadata: Library Opportunities in the Global Semantic Web. Cataloging & Classification Quarterly. 36(3/4), 2003, 101-119.
(15) Soergel, Dagobert. The rise of ontologies or the reinvention of classification. Journal of the American Society for Information Science. 50(12), 1999, 1119-1120.
(16) Hollink, Laura et al. Semantic annotation of image collections. Knowledge Capture 2003, Florida, 2003. (online), available from < http://www.cs.vu.nl/~guus/papers/Hollink03b.pdf >, (accessed 2004-07-18).
(17) RDF Topicmaps. (online), available from < http://topicmap.oclc.org:5000/ >, (accessed 2004-07-18).
(18) Sadeh, Tamar et al. Library portals: toward the semantic Web. New Library World. 104(1184/1185), 2003, 11-19.
(19) Fast, Karl V. et al. The ontological perspectives of the semantic Web and the metadata harvesting protocol. Canadian Journal of Information and Library Science. 26(4), 2001, 5-19.
(20) SIMILE. (online), available from < http://simile.mit.edu/wiki >, (accessed 2004-07-18).
(21) Miller, Eric et al. “Libraries and the future of the semantic Web: RDF, XML, and alphabet soup”. Cataloging the Web: Metadata, AACR, and MARC21. Lanham, Scarecrow Press, 2002, 57-64.
渡邊 隆弘. セマンティックウェブと図書館. カレントアウェアネス. 2004, (281), p.9-12.
http://current.ndl.go.jp/ca1534