カレントアウェアネス-E
No.490 2024.10.31
E2747
消失するインターネット上のコンテンツに関する調査(米国)
関西館電子図書館課・志村努(しむらつとむ)
●はじめに
2024年5月、米国の調査機関Pew Research Centerはインターネット上のコンテンツの消失に関する調査結果を公開した。調査では、ウェブページ、ウェブページ中のリンク、ソーシャルメディア上の投稿、という3種類のインターネット上のコンテンツに対して、消失するまでの期間や消失するコンテンツの割合等、それぞれの種類に応じた分析を行っている。本稿では、各コンテンツに対する調査方法と結果、また最後にこれまでに行われた類似の調査について紹介する。
●ウェブページの消失
2013年から2023年の間に存在していたウェブページ約100万ページ(各年約9万ページ)を対象にして、ウェブページの消失状況の調査が行われた。対象としたウェブページは、非営利団体Common Crawlが定期的に収集している世界のウェブサイトのデータからランダムに抽出したものである。
調査の結果、2023年10月時点で全ページのうち25%がアクセスできなくなっていたことが分かった。また、年別の割合では、古いウェブページほどアクセスできない割合が高く、調査対象のうち最も古い2013年に存在していたウェブページでは、その38%がアクセスできなくなっていた。
●ウェブページ中のリンク先の消失
米国政府のウェブページ、ニュースサイトのウェブページ及びWikipedia記事という3つを対象に、そこからリンクされているリンク先ページの消失(リンク切れ)状況の調査が行われた。米国政府のウェブページ、ニュースサイトはCommon Crawlのデータからランダム抽出したデータを用い、それぞれ420万URL、710万URLが対象である。また、Wikipedia記事は、英語のWikipediaサイトからランダムに抽出した記事中のリンク先約100万URLが対象である。
調査の結果、米国政府のウェブページの21%では、少なくとも1つのリンク先が消失していることが分かった。また、連邦政府、州政府、地方政府等の層別の消失の割合では、市政府が29%と最も高かった。次に、ニュースサイトのウェブページについては23%で、そしてWikipediaの記事については2%の記事で全リンク先が、53%の記事で少なくとも1つのリンク先が消失していることが分かった。
●ソーシャルメディア上の投稿の消失
2023年3月8日から4月27日にかけて収集したX(旧Twitter)に投稿された約500万のツイート(現在の「ポスト」。報告書に合わせてこの語を用いる)が調査対象である。それらツイートの公開状況を調べるため、2023年6月15日まで各ツイートの公開ステータスを定期的に監視した。
調査の結果、ツイートの18%はアクセスできなくなったことが分かった。それは、アカウントが削除されたり非公開へと変更されたことでツイートにアクセスできなくなったことによるものか、個々のツイート自体が削除されたことによるもののいずれかによる。また、書かれた言語により消失する割合が異なり、特にトルコ語とアラビア語の割合が高く、それぞれ49%、42%のツイートがアクセスできなくなった。また、投稿者のプロフィール写真の有無によって割合が変わり、プロフィール写真を登録している投稿者によるツイートでアクセスできなくなったのは17%であった一方、未登録のツイートでは58%であった。
●さいごに
ウェブページが消失していく割合についてはこれまでも調査が行われているテーマであり、例えば次のようなものがある。
まず、国立国会図書館インターネット資料収集保存事業のデータを用いた調査が挙げられる(E1757参照)。2010年から2014年までの日本の府省ウェブページの2015年時点の残存率について調査している。結果は、収集した時期が古いページほど残存率は低い傾向にあり、2010年のページの60%は2015年にアクセスできなくなっていたことが分かった。
また、2024年2月にソフトウェア企業エイチレフス(Ahrefs)社が報告した調査では、同社が2013年1月に収集したウェブページのうち、66.5%がリンク切れになっていたということである。
これらの調査の結果から、インターネット上のコンテンツは時間の経過とともに失われる割合が高くなることが分かる。つまり、定期的にコンテンツを保存しておかなければ、将来歴史的記録としてコンテンツを参照できなくなる可能性があるということを示している。また、コンテンツ自体が存続していたとしても、コンテンツ内のリンク先が消失することで、そのコンテンツの内容の根拠や出典が不明確になってしまう場合がある。現在、多くの国や団体がウェブサイトの保存(ウェブアーカイブと呼ばれている)に取り組んでいるが、これらの調査結果は、その意義や必要性を実証的に物語るものといえよう。
Ref:
Chapekis, Athena et al. When Online Content Disappears. Pew Research Center, 2024.
https://www.pewresearch.org/data-labs/2024/05/17/when-online-content-disappears/
Common Crawl.
https://commoncrawl.org/
“At Least 66.5% of Links to Sites in the Last 9 Years Are Dead (Ahrefs Study on Link Rot)”. Ahrefs blog. 2024-02-02.
https://ahrefs.com/blog/link-rot-study/
前田直俊. 日本の府省ウェブサイトの残存率:WARPにおける調査. カレントアウェアネス-E. 2016, (296), E1757.
https://current.ndl.go.jp/e1757