Twitterのアーカイブを収集する米国議会図書館(LC)の取組み(記事紹介)

2011年6月2日付けのO’Reilly Raderの記事で、Twitterのツイートのアーカイブの寄贈を受ける米国議会図書館(LC)の取組みが紹介されています。Twitterの1日あたりのツイート数は、寄贈が発表された2010年4月時点の5000万から2011年3月時点では1億4000万に増加しており、また、それぞれのツイートは、ツイートの本文だけでなく、日時やフォロワー数等のメタデータも含んだJSONファイルとなっているとのことです。ツイートに含まれる短縮URLの扱いについては、短縮URLサービス提供業者や、URLをマッピングする“301works”プロジェクトを実施しているInternet Archiveと協議しているとのことです。アーカイブの管理や検索のためのシステムについては、様々なオープンソースの技術について検討中とのことです。

How the Library of Congress is building the Twitter archive(O’Reilly Rader 2011/6/2付けの記事)
http://radar.oreilly.com/2011/06/library-of-congress-twitter-archive.html

参考:
E1042 – 米国議会図書館,Twitterの全公開ツイートを保存へ
http://current.ndl.go.jp/e1042