E2182 – 2019年IIPC総会・ウェブアーカイブ会議<報告>

カレントアウェアネス-E

No.377 2019.10.10

 

 E2182

2019年IIPC総会・ウェブアーカイブ会議<報告>

関西館電子図書館課・大山聡(おおやまさとし)

 

 国際インターネット保存コンソーシアム(IIPC;CA1893参照)の総会及びウェブアーカイブ会議(WAC;E2101ほか参照)が,2019年6月5日から7日まで,クロアチアの首都ザグレブで,クロアチアの国立・大学図書館主催により開催された。国立国会図書館(NDL)からは筆者を含む2人が参加した。本稿では,NDL職員2人が参加した会合の内容を報告する。

 5日の総会には加盟機関の代表者が参加し,IIPCのプロジェクトリーダー等から1年間の活動報告や各ワーキンググループの今後の活動方針についての確認があったほか,共通する課題をテーマとしてグループディスカッションが行われた。

 グループディスカッションでは,IIPCが優先的に取り組むべき事項等を議論した。この議論では,ウェブアーカイブのコミュニティ主導でツールを開発し共有することや,技術面及びキュレーション面での品質保証がコミュニティに共通の課題であること等が話題に挙がった。また,ウェブアーカイブの対象範囲のソーシャルメディアへの拡大や,アクセス性の向上,研究利用促進のために必要となる法改正等の支援として,国際的なアドボカシー活動,ウェブアーカイブの認知度の向上,社会的な信用の獲得等にIIPCとして取り組むべきである,等の意見があった。

 加盟機関による近況報告では,米国議会図書館(LC)のグローキー(Abbie Grokte)氏が,データセットや関連技術情報を研究者等に提供する実験的な取組みや,LC内でのウェブアーカイブに関する研修等に精力的に取り組む予定であることを報告した。

 その後,ワーキンググループ(WG)毎に会合が開かれた。コンテンツ開発WGでは,気候変動やオリンピック等,特定のテーマでの収集に基づきIIPCとしてウェブアーカイブのコレクションを構築している。2020年にはこのようなコレクション構築だけでなく,研究WGとの連携も視野に入れ,セマンティックな分析やコンピューター言語学等での研究利用に適した小規模のデータセットを作成し提供も検討するとのことだった。WGのほかに,品質保証自動化のツール開発グループの会合も行われた。ここでは,2019年4月にIIPC主催によりアイスランド・レイキャビクで開催したハッカソンで取り組んだ,適切に収集できているかの確認を自動化するためオリジナルウェブサイトとアーカイブデータのスクリーンショットを機械的に比較する等の試みについて報告があった。

 6日から7日までのWACには,図書館員やアーキビスト,研究者,システム開発者等,IIPC非加盟機関からも含め,約140人が参加した。Europeanaのフェアウェイエン(Harry Verwayen)氏等による基調講演をはじめ,ウェブアーカイブのためのツール,ウェブコンテンツの収集,利活用,法制度,研修等,様々なテーマで約50の発表やパネル,ワークショップが行われ,活発な議論が交わされた。当日は,複数のセッションが並行して同時に進められた。

 機械学習のセッションでは,機械学習を用いてウェブアーカイブのデータからコレクションポリシーに沿った著作物を抽出する試み,識別子等を活用してウェブアーカイブに埋もれている学術的著作物を機械的に特定し網羅的な目録を作成する試み,キーワードによるアーカイブ内の画像検索機能の実験的実装について報告があった。

 研究利用のセッションでは,ファセット検索や単語のトレンドグラフの表示といった,ウェブアーカイブの高度な検索機能についてオープンソース等導入しやすいツールを用いて実現しているカナダの大学等の事例紹介,データサイズや許諾の問題により直接の提供が困難なアーカイブコンテンツに関してアーカイブから抽出した情報等の外部提供可能なデータセットを提供する英国図書館(BL)の事例についての報告があった。

 キュレーション戦略のセッションでは,収集するウェブサイトの決定過程の記録等ウェブアーカイブの運用に関する記録作成と共有の実践例,Googleマップが提供するストリートビューに記録された人々の何気ない日常等のデータにストーリーや意味を与え理解しやすく見せるという,芸術やデザインの観点からのウェブサイトのキュレーションの実例が紹介された。

 研修と影響(training & impact)のセッションでは,大学図書館員に研修の場を提供することを通じてウェブアーカイブのコミュニティを拡大するためのポルトガルでの取組み,IIPC研修WGによるIIPCメンバーやウェブアーカイブに携わる人向けの研修プログラムの構築,BLのUK Web Archiveに対する量的・質的評価指標の開発等について報告があった。

 興味深かったのは,DROP-IN TALKSのセッションで発表された,ボーンデジタルの芸術や文化の保存に取り組む米国の団体RHIZOMEによって開発されているオープンソースのウェブ収集アプリケーションBrowsertrixであった。ブラウザをプログラム制御することにより収集指示の自動化と動的コンテンツの収集に対応し,アーカイブの再現度も高いとのことである。今後の精度の高い収集保存を実現する技術のさらなる発展,およびIIPCコミュニティによる標準的なツール開発への展開が期待される。

 次回のIIPC総会及びWACは,2020年5月にカナダ・モントリオールで開催される予定である。

Ref:
http://netpreserve.org/ga2019/
http://netpreserve.org/ga2019/programme/
http://netpreserve.org/ga2019/programme/wac/
http://netpreserve.org/ga2019/programme/abstracts/
https://labs.loc.gov/experiments/webarchive-datasets
https://www.imls.gov/grants/awarded/LG-71-17-0202-17
https://fatcat.wiki/
https://arquivo.pt/images.jsp?l=en
https://archivesunleashed.org/warclight/
http://data.webarchive.org.uk/opendata/
https://github.com/webrecorder/browsertrix
http://netpreserve.org/ga2020/
E2101
CA1893