E1543 – 震災ウェブコンテンツの収集とソーシャルブックマークの活用

カレントアウェアネス-E

No.256 2014.03.27

 

 E1543

震災ウェブコンテンツの収集とソーシャルブックマークの活用

 

●本稿の目的
 東日本大震災から丸3年が経過した2014年3月11日,国立国会図書館(NDL)は,東日本大震災に関連する記録を集めるため,震災の記録に取り組むアーカイブ機関等と共同で,個人の写真・動画の投稿や,収集すべきウェブサイト等の情報提供の呼びかけを開始した。特にウェブサイトについては,株式会社はてなの協力を得て,同社の運営するソーシャルブックマークサービス「はてなブックマーク」を通じて,利用者が保存したいと考えるウェブサイトに特定のタグを付けることで,NDLとハーバード大学ライシャワー日本研究所の「2011年東日本大震災デジタルアーカイブ」に保存を推薦できる仕組みを採った。今回の取組みの意図,経緯等を説明する。

●なぜ集めるのか?なぜ残すのか?
 甚大な震災被害と引き換えに得られた教訓は,今後の備えに活かさねばならない。地震を避けられない国土に暮らす我々にとって,震災から得られた知識は,検証可能かつ再利用可能な記録として残すことで,次世代の命を守る科学的知見となり,同様の災害に苦しむ他国への貢献となる。

 今回の震災は,人類史上から見ても稀なほど,多くのデジタルメディアで記録された災害であると考えられる。個人の携帯電話や車載カメラで撮られた写真・動画,インターネット上に書き込まれたリアルタイムの発言,テレビ・ラジオの中継放送,定点観測機器による統計情報等が,当時発生した交通や物流の混乱,通信網や電力網の断絶等の被害状況から復旧に至るまでの状況を詳細に伝えている。デジタル機器とインターネットが普及した現代において,出版物のみならずデジタルの一次情報を検証可能かつ再利用可能な状態で保存することが,災害から科学的知見を抽出するために重要である。

●NDLの活動と国内アーカイブの限界
 NDLは,国民共有の知識創出基盤を整備することを目指し法的基盤を整備してきたといえる。納本制度は,日本国内で発行されたすべての出版物のNDLへの納入を義務付けるものである。また,インターネット上で公表されたウェブコンテンツの重要性の高まりを踏まえ,公的機関のインターネット資料や,公的機関以外の者がインターネット上で公開する無償かつデジタル著作権管理(DRM)が付されていないオンライン資料の収集・保存についても法的基盤が整備されている(E1046E1464参照)。しかし,本記事執筆時点で,NDLが個人の写真・動画やウェブコンテンツを収集・保存するための法的根拠は存在せず,多くの震災記録は個人の管理のまま残されている。

 デジタル記録を長期的に保存するためには,物理的記録,ファイルフォーマット等の再生に関わる情報,検索して目的の記録に辿りつくための情報,再利用に関わる権利情報等を複合的に管理しなければならない。これらを踏まえると,時代を超えた保存の継続性には困難が伴う。

 また,図書館や民間のアーカイブ機関による震災記録の保存の取組みにおいて,肖像権や著作権の処理の困難さが障壁となっている(E1375参照)。NDLが民間のウェブコンテンツを集める場合,全て許諾処理が必要であり,権利関係の確認が困難で手続きが膨大なことから,ほぼ集めることができていない。一方,米国では,Internet Archiveによるウェブコンテンツの収集や,Twitterから個人の「つぶやき」データの寄贈を受けた米国議会図書館によるダークアーカイブ(E1042E1385参照),ヴァンダービルト大学のニュース番組アーカイブ等,民間コンテンツの収集・保存が実現している。

●検索連携による震災ウェブコンテンツの網羅的把握と収集対象の集合知的抽出
 当面採れる最良の戦略として,NDLは各アーカイブ機関と検索連携し,一つの窓口から震災に関する情報をあまねく検索できるポータルサイト「ひなぎく」(E1413参照)を作ることにした。もともと,膨大なデジタル情報を一機関で網羅するのは,予算・技術力・人員の制約で難しい。実際の運用に詳しい民間のウェブアーカイブ機関も含め,先行する様々な震災アーカイブとの連携が必要な状況であった。

 インターネット上の震災記録の収集にあたっては,その膨大さのため,情報を適切に選択する必要がある。自然言語処理技術や画像処理工学は日々進歩しているが,まだ,機械的な解析だけでは,内容の判断や抽出,分類は難しい。一方で,インターネット上の人手によるタグ付け分類(フォークソノミー;CA1623参照)は,特定テーマの情報抽出に効果的であり,そのシステム的な仕組みは,既にソーシャルブックマークサービスによって実現されている。そこで,今回,震災に関連するウェブコンテンツの収集にあたって,図書館向けに公式ブログサービスの無償提供などを行い,図書館との連携に積極的な株式会社はてなが運営する「はてなブックマーク」の協力を仰ぐに至った。利用者による選別を経たウェブコンテンツの一覧から,保存すべきものを抽出し,許諾が得られたものはNDLが保存する。NDLが収集できないものは,ハーバード大学ライシャワー研究所のパートナーであるInternet Archiveによって収集・保存される予定である。

●相互連携と今後の課題
 インターネット上の人手に助力を求めるクラウドソーシング(E1494参照)や機械的なデータ連携・相互利活用(API,オープンデータ,オープンガバメント)は,相互に資源を節約でき,公的機関においてもオンラインサービスの提供にあたって有用である。今後も,NDLは民間機関との連携協力を広げていく予定である。一方で,現時点では長期的な保存がどのように実現されるのかが不透明な,交通・通信のトラフィックログや電力網の送配電・需給情報,定点観測情報,携帯機器に内蔵されたセンサー等の社会インフラにおける災害時の一次情報の収集・保存への道筋,著作権・肖像権処理が実質的に困難な写真・動画等の取扱等,震災アーカイブの障壁となっている法的な課題等については,より時代と実態,そして,震災の記憶と教訓を分析・抽出・共有するという目的に即した議論と法整備が求められる。

電子情報部電子情報企画課・眞籠聖

Ref:
http://kn.ndl.go.jp/static/collection/cooperation
http://b.hatena.ne.jp/
http://www.jdarchive.org/ja/about
http://bookmark.hatenastaff.com/entry/hinagikuhatena
http://www.ndl.go.jp/jp/aboutus/deposit.html
http://www.ndl.go.jp/jp/aboutus/internet_data.html
http://www.ndl.go.jp/jp/aboutus/online_data.html
http://warp.da.ndl.go.jp/
https://archive.org/index.php
http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congre
http://tvnews.vanderbilt.edu/
http://www.mext.go.jp/b_menu/shingi/bunka/gijiroku/021/07073007/003.htm
http://www.alexa.com/topsites/countries/JP
http://hatenablog.com/guide/library
CA1623
E1042
E1046
E1375
E1385
E1413
E1464
E1494