E1832 – Internet Archiveによるウェブアーカイブの現状・課題等調査

カレントアウェアネス-E

No.309 2016.08.18

 

 E1832

Internet Archiveによるウェブアーカイブの現状・課題等調査

 

 Internet Archive(IA)は2016年に,同団体によるウェブアーカイブ事業の開始から20年を迎えるにあたり,世界のウェブアーカイブの動向を把握し今後のサービスを見直すため,現在のIAのサービスの使われ方や,IAに対する期待等について調査を実施した。調査期間は2015年11月から2016年3月までで,調査対象は国立図書館18館を中心とした30機関と個人である。調査は,直接の面談やメール・Skypeを通じたインタビュー方式で行われた。このたび調査報告書“Web Archiving at National Libraries – Findings of Stakeholders’ Consultation by the Internet Archive”が公開されたので,その概要を紹介する。

◯国立図書館でのIAのサービスの使われ方
 近年,電子出版物の収集を国立図書館の法的義務の一部とみなす国が増加し,国立図書館では,法律に基づくウェブ情報の収集が主要な業務になってきている(E1634E1662E1793参照)。IAがアーカイブしたウェブ情報の多くは無料の閲覧サービスWayback Machineから利用でき,国立図書館は,自館で保存していないコンテンツの閲覧やレファレンス等にこのサービスを利用している。また,有料のウェブアーカイブコレクション構築サービスArchive-Itも多くの国立図書館等で利用されている。IAが国立図書館に代わって収集を行うサービスもあり,これまでに8つの国立図書館が利用した。さらにIAは,収集ソフトHeritrixや収集データの再生ソフトWaybackの開発・保守,各館のウェブアーカイブ事業開始以前にIAが収集したデータの提供といった点でも協力している。

◯本調査で得られた知見
・実施する組織の観点
 紙資料を納本制度で収集してきたこととの一貫性の保持,外部サービスへの依存に対する永続性やセキュリティ上の懸念,法律の規定等に基づき,多くの国立図書館は独自にウェブアーカイブを実施している。ウェブアーカイブについて法的義務を負う国立図書館は,選択収集に加えて自国ドメインの包括収集を行い,法的義務を持たない機関は選択収集を行うことが多い。多くの国立図書館は予算とシステム資源が限られているため,進化するウェブ情報のアーカイブのために必要なツールの持続的な開発が困難になりつつある。

・コレクションの質と網羅性の観点
 ツール開発が進み,収集,再生し,組織化することが可能なウェブ上のコンテンツは増えたが,機械的に収集できないストリーミングやアプリを利用するコンテンツ,ソーシャルメディア等もますます増加している(E1815参照)。国立図書館は,自国のウェブ情報の一部と考えられるソーシャルメディアの収集を強く望んでいる。

・閲覧と研究利用の観点
 ほとんどの国立図書館のウェブアーカイブは館内や特定の場所での閲覧に限られている。このため利用は極めて少なく,これが予算の減額にしばしば繋がっている。しかし,多くの国立図書館はウェブアーカイブの研究利用を促進したいと考えており,英国図書館(BL)では学術研究コミュニティへの利用の働きかけ等,先進的な試みを行っている。

・事業開始から20年が経過した観点
 実施機関の増加やビッグデータとしての研究利用が進展した一方で,この10年以上,ウェブの技術の進化に比してアーカイブ技術について革新的な進歩がないという共通認識もあった。ウェブアーカイブの発展のため,国際インターネット保存コンソーシアム(IIPC;E1819ほか参照)に対してさらなる指導力の発揮を求める声が多数あがった。

・IAに対する期待の観点
 多くの国立図書館がソーシャルメディアや埋め込み動画といった新たなコンテンツの収集に関するIAの取組に関心を示した。また,ウェブアーカイブのツールについてのサポートに加え,IIPCにおけるHeritrixとWaybackの共同開発の主導に特に強い期待が寄せられた。

◯ウェブアーカイブの共通課題
 本調査で明らかになった課題として以下の点が挙げられている。

・コレクションの質と網羅性への対応
 技術的に収集できないコンテンツに対応するツールの開発・改良や,自国ドメイン以外のドメインで発信される自国情報の収集に対応する必要がある。

・アーカイブの処理過程の統一
 ほとんどの国立図書館は,選択収集と包括収集を組み合わせているが,一般的に利用者インタフェースも含め両者は別々に処理される。IAにおいても,Wayback MachineとArchive-Itは別々に収集と閲覧を行っている。一方で,オーストラリア国立図書館は,選択収集と包括収集,IAに依頼する収集の処理過程の統合を進めており参考とすべき事例である。

・ウェブアーカイブと既存の図書館システムの統合
 図書館が所蔵する他のデジタル化資料や紙資料とともに同一のシステムでウェブアーカイブを取り扱うためには,他の資料と同様のメタデータ記述,保存,検索と閲覧の仕組み等が実現されなければならない。既に一部の図書館ではメタデータの共通化等の取組がなされているが,この点において国際的に連携した取組はほとんど行われていない。

・ウェブアーカイブによる収集業務の効率化
 電子出版物の多くはウェブサイトの中に存在するため,ウェブアーカイブとして一括して収集することで収集業務の効率化が期待できる。

・アクセスと利用の改善
 国立図書館は,アーカイブしたデータへのアクセスと利用に関する様々なレベルの法的課題を解消しなければならない。国別ドメインで発信されるウェブ情報について深い知識を持つ国立図書館の協力を得て,IAが確実に全世界のウェブ情報を収集できれば,国立図書館とその利用者はWayback Machineからも自国のコンテンツを利用できるようになる。その他,BLやデンマーク王立図書館のように,アーカイブされたコンテンツそのものへのアクセスを必要としないメタデータ情報の提供といった活用法もある。

 調査結果に基づきIAが提示する今後の新しいサービスに注目したい。

関西館電子図書館課・當舍夕希子

Ref:
http://blog.archive.org/2016/05/26/web-archiving-with-national-libraries/
https://archive.org/details/InternetArchiveStakeholdersConsultationFindingsPublic
http://warp.da.ndl.go.jp/contents/reccommend/world_wa/world_wa02.html
https://archive.org/
https://archive-it.org/
http://warp.da.ndl.go.jp/contents/reccommend/mechanism/mechanism_heritrix.html
http://warp.da.ndl.go.jp/contents/reccommend/mechanism/mechanism_wayback.html
E1634
E1662
E1793
E1815
E1819
CA1733