カレントアウェアネス-E
No.261 2014.06.19
E1573
2014年IIPC総会及びワーキンググループ<報告>
国際インターネット保存コンソーシアム(IIPC;CA1664,CA1733参照)の総会及びワーキンググループ等関連会議(E1432等参照)が,フランス国立図書館(BnF),フランス国立視聴覚研究所(INA),Internet Memory Foundation(IMF)の共同主催により,2014年5月19日から23日にかけてパリのBnFで開催された。IIPC加盟機関からの参加者のほか大学や研究機関の研究者など合わせて200名以上が参加し,国立国会図書館からは筆者が参加した。
19日には一般公開の「Open Day」が開かれ,「現代研究コーパスの構築:ウェブアーカイブと研究分析の進展」をテーマに,学術研究におけるウェブアーカイブの利用,コーパス構築,データセット,分析・可視化,各種サービスなどをめぐり18件の発表が行われた。
ホール(Dame Wendy Hall)氏(サウサンプトン大学)は基調報告において,国際プロジェクト「Web Observatory」(ウェブ天文台)を紹介した。これはウェブ研究における国際的な環境構築に向けてデータセット,分析手法,可視化ツールなどの共有化を図る試みで,その最終目標は「デジタル宇宙をマッピングすること」にある。具体的な取組としては,ウェブ上にあるデータセットのリスト化と内容記述,分析と可視化,分析活動への国際的サポートなどが挙げられる。さらにホール氏は,データセットと分析結果の共有化にあたっては,使用データセットと分析ツールが明確に関連づけられていることが重要だと指摘し,活動事例として「Southampton Web Observatory」(SUWO)を紹介した。
その後に続いたセッションでは,Common Crawl社によるウェブアーカイブのデータセット提供サービス,Internet Memory Research社によるSaaS(Software as a Service)型のウェブアーカイブサービス「Archivethe.net」やデータ処理プラットフォーム「Mignify」,UK Web Archiveのオープンデータセット,学術論文内のURIリンク保障を目指すHiberlinkプロジェクト(エディンバラ大学とロスアラモス国立研究所の共同プロジェクト)などが報告された。
最後に登壇したブルガー(Niels Brugger)氏(オーフス大学)は多岐にわたった発表を概括して,学術研究におけるウェブアーカイブのプロセスを「コーパス構築(corpus creation)」,「分析(analysis)」,「公開(dissemination)」,「保存(storage)」の4つのフェーズに分け,各フェーズを構成する諸要素を階層的に整理することで,研究分析に必要なツール,手順,ポリシーなどの概念を明瞭に描き出した。
20日から22日午前にかけてIIPC参加機関による「収集」「保存」「提供」の各ワーキンググループが開催された。全体会合において議長のイリアン(Gildas Illien)氏(BnF)がIIPCの現状と今後の方向性についての基調報告を行い,ウェブアーカイブは既にその意義を証明する段階を過ぎ,現在の課題はスケールアップと定常業務化であると指摘した。また,「提供」ワーキンググループがIIPCの活動の中心となっている現状について,予算削減の状況下においてアドボカシー活動の実質的な成果が求められているため,必然的に「提供」に力点が置かれているとの説明がなされた。
「提供」ワーキンググループの活動のうち主なものとして,共同コレクションの構築,Open Waybackプロジェクト,研究者との連携が挙げられる。共同コレクションの構築については,これまで2010年バンクーバー五輪,2012年ロンドン五輪,2014年ソチ五輪の関連サイトの共同収集を実施し,「IIPCブランド」コレクションとして実績を残してきた。一方で,今後も継続するためには,実施体制や提供形態,他主題への拡大の可能性,収集方針の策定,法的リスクへの対処,技術的問題,予算など解決すべき課題が残されており,これらをめぐって活発な議論が交わされた。
技術的な近況報告では,全文検索エンジンSolr,差分収集機能,収集ロボットHeritrix,Heritrixと組み合わせて動的ページを収集するUmbra,Open Waybackについて,最新動向の紹介と討議が行われた。
参加機関の近況報告では,オランダ国立図書館におけるWikipediaの参照リンクを活用したサイト選定の紹介,Memento改善の試み,IMFの事業紹介,オランダ音響・映像研究所による公共放送局サイトの収集,アイスランド国立大学図書館によるRSSクロールについて報告が行われた。なかでもMemento改善の試みは,各ウェブアーカイブに収録されているコンテンツのトップレベルドメイン,言語,収録期間,成長率の情報をプロファイルすることにより,検索ルーティングの最適化を図るものであり,従来のCDXファイル集積方式(CDXファイルは,閲覧アプリケーションwaybackにおいてURL,収集日時,アーカイブファイル名などをまとめたファイル。複数ウェブアーカイブのCDXファイルを集積してインデクスを作成することで横断的アクセスを実現する方法)の課題を克服する試みとして今後の進展が期待される。
22日午後及び23日は一般参加のワークショップが開催された。「Curator tools fair」では,キューレーション業務用のソフトウェア11種の概略が紹介され,「The Web Archiving Life Cycle Model」と対照しながら各ソフトウェアのカバー領域の比較が行われた。また「Curating web archives: whocares for content?」では,戦略的なコレクション構築という観点から,組織的かつ責任を持った選定作業,業務運用をいかに実践するかについて,米国議会図書館,スイス国立図書館,BnFの事例報告及び議論が行われた。
2015年のIIPC総会は米国シリコンバレーで開催する方向で調整中である。
関西館電子図書館課・前田直俊
Ref:
http://netpreserve.org/general-assembly/2014/Overview
http://netpreserve.org/general-assembly/2014/presentations
http://wstweb1.ecs.soton.ac.uk/?page_id=969
http://web-001.ecs.soton.ac.uk/
http://commoncrawl.org/
http://archivethe.net/
http://mignify.com/
http://data.webarchive.org.uk/opendata/
http://hiberlink.org/
http://netpreserve.org/open-wayback
http://olympics.us.archive.org/olympics2010/
http://olympics.us.archive.org/olympics2012/
http://olympics.us.archive.org/olympics2014/
http://www.mementoweb.org/
http://internetmemory.org/
https://www.beeldengeluid.nl/
https://archive-it.org/static/files/archiveit_life_cycle_model.pdf#page=4
http://netpreserve.org/resources/iipc-memento-aggregator
http://warp.da.ndl.go.jp/contents/reccommend/mechanism/mechanism_wayback.html
CA1664
CA1733
E1432