E1385 - 米国議会図書館のTwitterアーカイブ,その可能性と課題

カレントアウェアネス-E

No.230 2013.01.24

 

 E1385

米国議会図書館のTwitterアーカイブ,その可能性と課題

 

 2013年1月4日,米国議会図書館(LC)は,2010年に開始したTwitterアーカイブの進捗状況についてブログと白書で公表した。

 LCによるTwitterのアーカイブは,2010年4月14日にTwitter社との間で結ばれた合意に基づく。これによりLCは,2006年のTwitter社のサービス開始以降に投稿されたすべての公開ツイートを保存することとなった(E1042参照)。これまでにアーカイブされたツイートは約1,700億件に達し,2013年1月には当初の3つの目標,すなわち(1)2006年から2010年までのアーカイブと(2)安定した収集プロセスの確立,そして(3)日付ごとのツイートの組織化を全て達成する予定となっている。

 白書によると,収集開始当初の課題は,(2)の安定的かつ永続性のある,収集・保存・組織化の方法の開発にあったという。世界最大の図書館として様々な電子コンテンツを所蔵するLCにとっても,Twitterという日々流れるように生まれ続けるデータの収集は初めての経験であった。そこでLCは,他の電子コンテンツ用に作られたインフラとワークフローをTwitterデータの収集用としても活用し,これに対応した。LCは,TwitterデータをTwitter社が指名したGnip社を通じて受け取り,それを磁気テープにコピーしたものを2つ作り別々の場所で保存しているとのことである。

 LCのTwitterアーカイブは主に研究目的での利用が想定されている。LCには,2010年の発表以来,これまでに世界中の研究者から約400件の問い合わせがあり,その内容は,最近盛んになってきた市民ジャーナリズムの分析やワクチンの接種率の調査,株価予測等であったとのことである。LCは,これらの問い合わせから,研究者がこのアーカイブをどのように活用したいと考えているのかを学ぶことができるとしている。

 日本においても,いわゆる“ビッグデータ”としてのTwitterアーカイブに対する期待は大きい。例えば,2012年9月12日から10月28日にかけて開催された「東日本大震災ビッグデータワークショップ―Project 311―」で朝日新聞社やGoogle社等とともに,Twitter Japan社からも2011年3月11日から1週間のツイートのデータが提供され,分析が行われた。また,『情報管理』(2013年1月,55巻10号)に掲載された喜連川優氏の「ビッグデータの潮流とデータエコシステム」という論考では,東日本大震災発生時のツイートデータを解析した研究結果を動画で紹介している。ビッグデータとしてのTwitterアーカイブから,様々な知見を引き出せる可能性がある。

 しかし,利用の前には大きな壁がある。LCの発表によると,2011年2月にアーカイブを開始した当初,1日当たりのツイート数は1億4,000万件であったが,2012年10月時点では約5億件にも膨れ上がっているという。さらに,Twitterのデータは単に巨大であるというだけでなく,日々急速に拡大を続けていること,そして画像やリンクの埋め込み等ツイート自体に様々なバリエーションがあることが,その管理を難しくしている。なにより現在のLCのシステムでは,2006年から2010年までのデータを検索するだけで最大24時間かかってしまうことから,研究者への提供には至っていない。LCは,検索時間短縮を目指して検討を続けているが,そのためには巨大なインフラを構築する必要があり,コストが高く公的機関としては手が出せないという。

 そのためLCは,このTwitterアーカイブの包括的かつ効果的な方法での研究利用に向けて,企業や研究者等との協力を目指すとしている。様々な可能性を秘めたTwitterアーカイブの一日も早い公開が望まれる。

(関西館図書館協力課・菊池信彦)

Ref:
http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/
http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf
http://japan.cnet.com/news/service/35026532/
http://www.cnn.co.jp/tech/35026612.html
http://japan.internet.com/webtech/20130109/6.html
http://dx.doi.org/10.1241/johokanri.55.705
https://sites.google.com/site/prj311/
E1042