カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

E1757 - 日本の府省ウェブサイトの残存率:WARPにおける調査

カレントアウェアネス-E

No.296 2016.01.21

 

 E1757

日本の府省ウェブサイトの残存率:WARPにおける調査

 

◯はじめに

 国立国会図書館はインターネット資料収集保存事業(WARP)を実施している。情報の書き換えや削除が頻繁に行われるウェブサイトを保存して,永続的にアクセスできるようにするのが本事業の目的である。それでは,ウェブサイト上の情報は時間の経過とともにどのくらい消えていくのだろうか?その実状を把握するため,WARPで収集したデータを用いて分析を行った。 

 なお,本分析の結果は,WARPのウェブサイトの「特色あるコレクション>国の機関サイトの残存率」でも公表している。2015年11月の公表当初はURLによる分析結果のみを紹介していたが,その後に改訂してハッシュ値による分析結果も掲載した。グラフを用いて紹介しているので併せてご覧いただきたい。 

◯分析対象

 WARPでは国立国会図書館法に基づき公的機関のウェブサイトを網羅的に収集している(E954E1046参照)。そのうち,2010年から2014年の各年4月に収集した国の機関13府省のウェブサイトを対象に,それらを構成するファイル(約1,000万件)が,2015年4月に収集したファイルの中にどのくらい残っているのかを分析した。 

◯分析方法

 ウェブ上のファイルについては,URLが残っていることと内容が残っていることは必ずしも同義ではない点に留意が必要である。URLが同じで内容が変わる場合や,反対に同じ内容でURLが変わる場合もあるからだ。そのため,以下の2つの観点から分析を行った。 

 1. URLが存在するか
 2. 同一内容が存在するか

 1については,各年4月に収集したURLのうち2015年4月に存在するものの割合を算出した。URLのリンク切れ調査と同じである。URLが存在するものに加えて,リダイレクト先(自動転送先)が収集できているURLも存在するものとして扱った。

 2の判定にはハッシュ値を用いた。ハッシュ値とは,電子データを特定の計算方法(ハッシュ関数)で操作して得られる値である。ごく僅かでも内容が変わるとハッシュ値も変わるため,ファイルの内容が同じかどうかの判定に用いることができる。各年4月に収集したファイルのうち,2015年4月に収集したファイルと同じハッシュ値を持つものの割合を算出した。 

◯分析結果

 1については,2014年が86%,2013年が69%,2012年が60%,2011年が47%,2010年が40%という結果となった。2については,2014年が80%,2013年が61%,2012年が55%,2011年が49%,2010年が40%となった。URL及び内容の残存率ともに年を遡るにつれてほぼ同じ傾向で低下し,5年を経過すると60%が存在しなくなっていることがわかる。

 さらに詳しく見てみると,2015年にURLが存在しかつハッシュ値が変わっていないものは,2014年が77%,2013年が56%,2012年が48%,2011年が38%,2010年が31%であった。つまり,5年で70%近くが,URLが消えたかまたはURLが残っていても内容が全く同じではなくなったことになる。 

◯海外の分析事例

 同様の分析事例としては,英国図書館のウェブアーカイブ“UK Web Archive”において 2004年から2014年までに収集されたデータを用いて,2015年におけるURLの消失率,内容の類似性を分析した結果が公表されている。分析結果のグラフを見ると,URLについては1年で20%,5年で50%近く,11年で90%以上が消えている。さらに,内容の類似性の観点を加えると,1年で50%,2年で60%,3年で65%が,URLが消えたかまたはURLが残っていても内容が同定できない程度に大きく変わったとしている。 

◯分析結果の意味

 URLはウェブサイトのリニューアルを受けて一斉に変化することがある。また,ウェブ情報は意味的に同じ内容でも表現は容易に変化し得る。そのため,実質的な観点から何をもって「残っている」とするかの定義は単純ではなく,URLやハッシュ値による分析のみで簡単に判断できるものではない。今回の分析結果についても,外形的な判定基準を用いたものという条件付きで受け止めておくのがより慎重な態度だろう。ウェブ情報の変化を質的に観察するためには,より深い分析が求められる。 

◯今後の展望

 WARPは事業開始から13年が経過し,保存したウェブサイトは1万種,収集回数9.6万回,ファイル数は36億,データ容量は630TBという規模にまで成長している。消えてしまったウェブ情報を見られるだけでなく,学術的に研究,分析することで価値ある情報を発見できる可能性も秘めている。今後は,研究者の協力も得ながら,WARPの利活用を促進していきたいと考えている。 

関西館電子図書館課・前田直俊 

Ref:
http://warp.da.ndl.go.jp/contents/reccommend/collection/linkrot.html
http://www.ndl.go.jp/jp/news/fy2015/1212989_1830.html
http://warp.da.ndl.go.jp/contents/reccommend/collection/bubble.html
http://britishlibrary.typepad.co.uk/webarchive/2015/09/ten-years-of-the-uk-web-archive-what-have-we-saved.html
E954
E1046
CA1733