E1192 – Schema.org:ウェブ情報の意味の記述方法を共通化する試み

カレントアウェアネス-E

No.196 2011.07.07

 

 E1192

Schema.org:ウェブ情報の意味の記述方法を共通化する試み

 

 2011年6月2日,米国のMicrosoft,Google,Yahoo!の検索エンジン大手3社が共同で“Schema.org”というウェブサイトを立ち上げた。その目的は,ウェブページに含まれる様々な情報の「意味」を記述するための共通方法を提供することである。

 ウェブページには人物,書籍,場所,イベントといった情報がHTMLで記述されていることが多いが,それらの意味するところは人間が読めば明らかであっても機械にとっては理解が難しい。しかし,何らかの方法によってその意味を明示的に記述しておけば,検索エンジンがウェブページの内容を理解し,ユーザに対してより適切でリッチな検索結果を提供できるようになる。

 そのような記述を可能にするため,Schema.orgは,W3Cが仕様策定を進めているマイクロデータ(microdata)というフォーマットを採用し,スキーマとして,人物・書籍・場所・イベント等100種類以上の型(type)とその中で使用されるプロパティ(property)をウェブサイトで公開している。

 例えば,書籍(Book)の情報は以下のように記述することができる。HTMLのタグの中に,itemscope,itemtype,itempropというマイクロデータの用語と,name,author等の書籍という型のプロパティを記述することで,“The Catcher in the Rye”という文字列が書籍のタイトルであり,“J.D. Salinger”が著者名であることを検索エンジン等に伝えることができる。

<div itemscope itemtype=”http://schema.org/Book”&gt;
<span itemprop=”name”>The Catcher in the Rye</span>
by <a itemprop=”author” href=”jd_salinger.html”>J.D. Salinger</a>

</div>

 もちろんこのような記述方法は1つに限らないが,複数の方法が並立しているとウェブサイト作成者がそれら全てに対応するための負担は大きくなる。検索エンジン市場で競争関係にある3社が協力して統一的な方法を定めるに至った理由はそこにあるという。他の検索エンジン等も後日Schema.orgに参加することが可能になるそうである。

 マイクロデータ以外の有名なフォーマットにはRDFa(CA1741参照)やマイクロフォーマット(Microformats)等がある。2008~2010年にYahoo!が提供していたSearchMonkeyはこの2つに,2009年にGoogleが開始したRich Snippetsはマイクロデータも含めた3つのフォーマットに対応しており,また,国立情報学研究所(NII)のCiNiiではマイクロフォーマットの一種であるxFolkやhAtomが採用されている。Schema.orgのFAQでは,これらのフォーマットの中からマイクロデータを採用した理由として,簡単で分かりやすいが拡張性の低いマイクロフォーマットと,拡張性が高く表現力もあるが複雑であるRDFaの中間で,簡易性と拡張性のバランスが取れているからだと述べられている。

 現在,Schema.orgが公開しているスキーマはドラフト版(バージョン0.9)であり,ユーザからのフィードバックを受けて2011年中には完成させたいとしている。

Ref:
http://schema.org/
http://googleblog.blogspot.com/2011/06/introducing-schemaorg-search-engines.html
http://www.w3.org/TR/html5/microdata.html
http://schema.org/Book
http://www.nii.ac.jp/content/event_kouhou/forum2008/pt2_04_omukai.pdf
http://schema.org/docs/faq.html
CA1741