CA1598 – 動向レビュー:ウェブ・オントロジーの可能性と図書館 / 神崎正英

PDFファイルはこちら

カレントアウェアネス
No.288 2006年6月20日

 

CA1598

動向レビュー

 

ウェブ・オントロジーの可能性と図書館

 

1. はじめに

 ウェブ上の情報を組織化して活用するというWWWが設計された当初からの夢(1)は,現在「セマンティック・ウェブ」(CA1534 参照)と呼ばれて要素技術の標準化が進められています。その核となるウェブのオントロジー(ontology)は,ばらばらに記述,蓄積された知識の連動を重視しており,電子図書館どうし,あるいは図書館と関連コミュニティ(*)との連携,さらに書誌情報にとどまらない豊富なウェブ資源との統合といった面での応用が期待できます。

(*)ここでいうコミュニティは,地域社会に限らず,同じ関心領域や活動を共有する集合全般を指します。

 

2. セマンティック・ウェブとオントロジー
2.1. オントロジーとその働き

 オントロジーとは,知識を共通の認識に基づいて体系化,形式化し,計算機で扱うことができるように記述したものを指します。本来オントロジーは,ものごとが「存在する」ことを問う哲学を意味するわけですが,人工知能や知識表現分野でのオントロジーも,対象とする領域に存在するものごととその関係を,概念(クラス)の階層を中心に体系立てて記述し,共通理解の基盤とするものです。たとえば,遺伝子研究に不可欠のオントロジーであるGene Ontologyでは,“Molecular Function”(分子の作用)“Biological Process”(生物学的プロセス)“Cellular Component”(細胞の構成要素)という3つのクラスから出発して,2万に及ぶ概念がクラスツリーとして体系化されています。これらの概念とその記述法をオントロジーの利用者が共有することで,対象世界の知識について語ったり調べたりするときに食い違いが無くなり,コンピュータによる推論などの知的な処理が可能になるわけです。

 オントロジーには,哲学的な視点で世界を捉えようとするものや高度な論理操作の基盤となる本格的なものから,対象領域の語彙を整理したというレベルの「軽量オントロジー」まで,様々なものがあります。「ページからページを駆け巡るエージェントがユーザに代わって高度なタスクを実行する」(2)といった世界の実現には,精緻なオントロジーと論理規則が求められるため,まだ今後の研究開発が必要です。しかし,データベースの横断検索や情報の自動交換といったコミュニティ間での知識の流通には,語彙体系の共有だけでも力を発揮します。

2.2. セマンティック・ウェブの技術スタック

 セマンティック・ウェブとは,ウェブ上の文書だけでなく様々なデータをコンピュータの力でうまく利用できるようにしよう(Web of data)という試みで,オントロジーはその核となる要素です。ただしウェブでの知識や情報は,断片的で不完全なものしか得られず,さまざまなコミュニティで独自に体系化され,また素朴に信頼できるとは限りません。これらを踏まえて,モジュール化した技術を積み重ね,柔軟で現実的なアプローチで「データのウェブ」に取り組もうとしています(3)

図1 セマンティック・ウェブの技術スタック

図1 セマンティック・ウェブの技術スタック:出典(4)


 

 図1は,セマンティック・ウェブの技術アプローチを説明するためにしばしば引用されるものです。一番下にはウェブ全体を支える技術であるURI(Uniform Resource Identifier :ウェブ上のリソースを特定する識別子)とUnicodeが置かれ,その基盤の上に「データのウェブ」実現に必要な技術が,汎用的なデータフォーマットから応用的な記述言語,論理表現という順で積み重ねられています。

 この中で,オントロジーを記述し知識を形式化するための技術は,RDF(Resource Description Framework)およびRDFスキーマ(RDFS)からOWL(Web Ontology Language)までの層です。オントロジーの基本であるクラス階層はRDFSで記述され,クラスを定義する制約条件や他のオントロジーとの関連を記述する語彙はOWLが提供します。

 この横に位置づけられているSPARQLは,RDFのデータを検索するためのクエリ(問い合わせ)言語とプロトコル(やり取りの方法)です。Rule,Logicといった層と合わせ,オントロジーに従って記述,蓄積したデータから有益な情報を取り出す方法を標準化しようとしています。

 また,コンピュータに推論を任せようというセマンティック・ウェブにとっては,ネットワークで流通する情報の改竄やなりすまし,あるいは情報そのものの信頼性は非常に大きな課題です。この部分を,図1の右側で全体を貫くSignature,Encryption層と,Logicの上に置かれるProof層でカバーし,最上位に位置するTrustを得ようというのが,ここで描かれているモデルです。

 これらの技術のうち,OWL以下の層が2004年2月までに標準化されました。SPARQLは現在討議が行われている最中で,順調に進めば2006年中にはW3Cの勧告となると思われます。続く推論規則(Rules層)については,2005年末にW3CにRIF(Rule Interchange Format)作業部会が設置され,2006年3月にその要件とユースケース(応用の具体例を挙げて機能を説明したもの)を提示する初の草案が公開されました。また,言語仕様の標準化と並行して,オントロジーの相互運用性を高めるためのガイドラインなどを検討するSemantic Web Best Practices and Deployment作業部会が活動しています。

2.3. オントロジーの共有とマネジメント

 中央集中型のコントロールが行われないウェブにおいては,類似の概念が各地でばらばらに記述されることが避けられません。セマンティック・ウェブでは,資源名(識別子)や語彙(クラス,プロパティ)を全てURIとして表現することで,分散記述を可能にしつつ名前の衝突や意味の混乱を避けるようにしています。

 たとえば「Opera」という単語が,コミュニティAでは歌劇,コミュニティBではブラウザの種類として用いられている場合,それぞれをa:Opera,b:Operaと表すことで両者を曖昧さなく区別できます(本稿では語彙の名前空間URIをa:,b:などの接頭辞で略記します)。同様に,titleというプロパティもdc:title,foaf:titleと表現すれば,前者は「表題」,後者は「敬称」と使い分けが可能になります。

 語彙の連動のためには,違いを区別するだけでなく,類似の概念を束ねる機能も必要です。一方が他方の下位概念であるときは,RDFSで定義されているsubClassOf,subPropertyOfで,同一であるならばOWLで定義されているequivalentClass,equivalentPropertyを用いて関係を示します。コミュニティCが作曲家を表すためにダブリン・コアのcreatorよりも詳細なc:composerという語彙を使っているとすれば,


 

  c:composer rdfs:subPropertyOf dc:creator .


 

と表現できるでしょう。コミュニティDで歌劇を表すのに「Oper」を用いているときは,


 

  a:Opera owl:equivalentClass d:Oper .


 

で両者が同じ実体集合を持つクラスであると示すことができます。概念レベルではなく個別の資源実体が同じである場合には,owl:sameAsによって同一性を記述します。

 また,対象領域の知識の変化に対応した改訂など,オントロジーにもマネジメントは欠かせません。OWLには,priorVersion,DeprecatedClassなどのバージョン管理語彙が用意されており,既存のデータを作り直すことなく,改訂版への移行や統合を進められるようになっています。

 RDF/OWLを処理するプログラムは,通常こうした基本的な包含,同一関係を利用して推論を行うためのライブラリ(プログラム部品のパッケージ)を備えています。異なるコミュニティが独自に開発した語彙であっても,オントロジーによるマッピングを行えば,標準的なツールを使って連携させることが可能になるのです。

 

3. セマンティック・ウェブと図書館
3.1. オントロジーによる電子図書館の協働

 図書館のメタデータ交換は,たとえばOAI-PMH(CA1513参照)によってすでに実践されていますが,これは書誌情報の最大公約数をシンプルなダブリン・コアに置き換えて提供するというもので,キャンベル(Grant Campbell)らが「図書館は“本の番人”,インターネットは“情報ハイウェイ”という古い図式」と述べるように(5),蓄積した豊かな情報を十分生かすまでには至っていません。それぞれの持つデータをより有効に活用するため,RDF/OWLを応用して相互運用性を高める試みが行われています。

 DSpace(CA1527参照)の発展形であるSIMILE(Semantic Interoperability of Metadata and Information in unlike Environment)プロジェクトは,RDFを用いてメタデータの記述方法を拡張可能にし,異なるコミュニティで構築されたレポジトリを取り込んだり連動させることを目指しています。同プロジェクトのバトラー(Mark Butler)らは,XMLで記述されたスキーマをRDFに変換してデータを相互に結びつける,人物名などの固有名はOCLCの典拠レコードを用いて同定する,統制語彙はSKOS(6)を用いてオントロジーに組み込む,関連情報をWikipediaから取得するなどの方法で,2つのメタデータ群を統合し横断検索を可能にするデモを行いました。その結果,文字列データからURIへの変換などでの難しさが浮き彫りになりましたが,連携コンセプトの実証としては一定の成果が上がったことが報告されています(7)

 同様の試みは,EUの文化遺産に関する電子図書館の協働プロジェクトであるBRICKS(Building Resources for Integrated Cultural Knowledge Services)でも行われています。ここでは,異なる電子図書館のデータを収集してOWLのオントロジーにマッピングし,横断検索を提供する実験が行われ,柔軟で低コストなメタデータのマネジメントが可能になることが確認されました(8)

 北アイルランド大学のDERI(Digital Enterprise Research Institute)では,ダブリン・コア,MARC21,BibTexといったフォーマットを連動させるオントロジーMarcOntの構築が進められています(9)。これはまだ開発途上ということですが,うまく実現すれば,電子図書館だけでなく通常の図書館も含めた幅広い書誌データの共通言語としての働きも期待できるでしょう。

 これらはいずれも,個別のメタデータ体系をXML経由でRDF/OWLに変換し,推論エンジンが共通オントロジーのデータを生成,追加するという手法を採っています(MarcOntの場合は,固有の推論規則も加えた形でオントロジーへの変換を行っています)。このアプローチは,XSLT(CA1552参照)などの汎用ツールが利用できて効率がよい上に,オリジナルの持つ豊富な情報が失われません。セマンティック・ウェブの技術をメタデータの連動に適用する出発点として,有効なモデルのひとつと言ってよいでしょう。これにSPARQL,RIFなどの技術が標準化されて加われば,いっそう柔軟で効果的なメタデータの共有が期待できます。

図2 MarcOntの変換モデル

図2 MarcOntの変換モデル:出典(9)


 

3.2. 書誌メタデータを越えて

 セマンティック・ウェブでは,文書や画像などの資源だけでなく,人間,自動車から思想,芸術やサービス,さらに興味や知人といった関係性までを「リソース」として記述します。キャンベルらは,この表現力とウェブの膨大な情報資源を取り込むことで,図書館のサービスが大きく変貌するというシナリオを描いています(10)

 たとえば,よく知られた「軽量オントロジー」であるFOAF(Friend of a Friend)が記述するデータは,人の様々な関心事や知人関係などです。クルーク(Sebastian R. Kruk)らは,このFOAFと電子図書館のメタデータを組み合わせ,協調フィルタリングやパーソナル図書館を通じてより適切な資源情報をユーザに提供するという試みを行ってきました(11)。FOAFの応用は,図書館ごとに個人プロファイルを登録する必要がない,知人の関心事項までを踏まえた資源をリストアップできる,プライバシーや信頼度のバランスを取る技術を利用できる,などの利点を生むことが報告されています。これを発展させれば,FOAFだけでなくイベントカレンダーや位置情報などの多様なRDFメタデータを組み込んだ,現実世界と連動したサービスも考えることができるでしょう。

 セマンティック・ウェブの技術は,独立したシステムの間でも,また書誌情報と個人プロファイルといった質や粒度の異なるデータ間でも,事前の取り決めなしに連携を可能にするところに特徴があり,大きな潜在力が秘められています。そして,これらを結びつける上でのキーとなるのが,オントロジーという共通項なのです。

www.kanzaki.com:神崎正英(かんざき まさひで)

 

(1) Berners-Lee, Tim. Information Management:A Proposal. 1989. (online), available from < http://www.w3.org/History/1989/proposal.html >, (accessed 2006-03-31).

(2) Berners-Lee, Tim et al. The Semantic Web.Scientific American. 284(5), 2001, 34-44.(online), available from < http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21 >, (accessed 2006-04-25).

(3) Miller, Eric. Digital Libraries and the Semantic Web. 2001. (online), available from < http://www.w3.org/2001/09/06-ecdl/ >, (accessed 2006-03-31).

(4) Berners-Lee, Tim. WWW at 15 years: looking forward. 2005. (online), available from < http://www.w3.org/2005/Talks/0511-keynote-tbl/ >, (accessed 2006-03-31).

(5) Campbell, Grant et al. Academic Librariesand the Semantic Web: What the Future MayHold for Research-Supporting Library Catalogues. The Journal of Academic Librarianship.30(5), 2004, 382-390.

(6) Simple Knowledge Organisation System(SKOS). (online), available from < http://www.w3.org/2004/02/skos/ >, (accessed 2006-03-31).

(7) Butler, Mark H. et al. Data conversion, extraction and record linkage using XML andRDF tools in Project SIMILE. 2004-08-31. (online), available from < http://www.hpl.hp.com/techreports/2004/HPL-2004-147.html >, (accessed2006-03-31).

(8) Haslhofer, Bernhard et al. Metadata Management in a Heterogeneous Digital Library. 2005.(online), available from < http://www.brickscommunity.org/discussion_area/papers/paper.2006-01-05.5885506496/file/ >, (accessed 2006-03-31).

(9) Kruk, Sebastian Ryszard et al. MarcOnt -Integration Ontology for Bibliographic Description Formats. 2005. (online), available from < http://www.marcont.org/marcont/pdf/DC2005skmskz.pdf >, (accessed 2006-03-31).

(10) Campbell, Grant et al. op. sit., (6).

(11) Kruk, Sebastian Ryszard et al. FOAFRealm:Making Social Collaborative Filtering Real.2005. (online), available from < http://www.marcont.org/marcont/pdf/eswc2005_foafrealm.pdf >,(accessed 2006-03-31).

 


神崎正英. ウェブ・オントロジーの可能性と図書館. 2006, (288), p.18-21.
http://current.ndl.go.jp/ca1598