カレントアウェアネス-E
No.306 2016.06.30
E1815
ソーシャルメディア・データの保存
2016年2月,英国の電子情報保存連合(DPC)が,TwitterやFacebookなどのソーシャルメディアのデータ保存に関するレポート“Preserving Social Media”を公開した。このレポートは,ソーシャルメディアのデータ保存について,その戦略,課題,事例などを解説している。
◯戦略
基本となる戦略は,データを直接ソーシャルメディアのプラットフォームのAPI経由で収集することや,サードパーティのリセラー(再販業者)からAPI経由のデータの使用許可を受けることなどである。まれにプラットフォームと直接契約を締結することもある。
・API経由の収集
APIを利用すれば,プラットフォームから生データを抽出することができる。またリセラーは,API経由で収集したデータに基づいて製品・サービスを提供するが,プラットフォームによっては公認のリセラーがあり,プラットフォーム上ではアクセスできない過去のデータなどへのアクセスも独占的に提供する。一方,APIについての専門的な知識を必要とせず,高額の費用もかからないので,サードパーティの収集サービスと協力して収集する機関もある。
・プラットフォームとの直接契約
Twitter社と直接契約を締結した事例として,データを取得して長期保存することを目的とした米国議会図書館(LC)(E1042,E1385参照)と,研究のためデータへアクセスすることを目的とした米国マサチューセッツ工科大学(MIT)の“Laboratory for Social Machines”(LSM)の例がある。
また,研究者が作成したデータセットはAPIの規約により再利用が難しいので,生データの収集方法やそのデータの組織化の方法など,研究用データセットの作成方法を記述した文献や,たとえばTwitterのツイートIDやユーザーIDなどのデータの識別子を保存しておけば,データセットをある程度再現できる。
その他,自己のアカウントのデータをダウンロードしてバックアップすることができるセルフアーカイビングサービスも,データ保存の有効な選択肢となりうる。
◯課題
ソーシャルメディアには,プラットフォームの運営企業が商業的利益を保護している,ユーザーがコンテンツを作成している,という独自の性格がある。また,データ自体の性格もあり,これらがソーシャルメディアのデータ保存に特有の課題を生み出している。
・商業的利益の保護
プラットフォームの運営企業はデータを販売することで利益を得ているので,プラットフォームのほとんどは,API経由でリクエストできるデータ量や回数を規約によって制限しており,サンプルを抽出するアルゴリズムも公開していない。また取得したデータの共有も認めておらず,データの保存方法にも制限を加えている。そのため,データへのアクセスの確保が難しくなっている。
・ユーザーによるコンテンツの作成
ソーシャルメディアのデータには,個人のプライバシーに関する情報が大量に含まれているので,意図せず個人的な情報が開示されるというリスクがある。また,ユーザーはデータが研究に使用されたり,アーカイブされたりしていることを意識していないので,データの再利用や引用をする際,ユーザーとの間に問題が発生することがある。
ソーシャルメディアで行われているのは「会話」なので,会話がいつ終わっていつ次の会話が始まるかといった境界を識別して選択収集の基準を設定することは難しい。十分なメタデータを保存して,このようなコンテンツ間の文脈を理解できるようにしなければならない。また,コンテンツに埋め込まれたURLのリンク先など,プラットフォームの外部のコンテンツへのアクセスを長期間可能とするためには,その外部のコンテンツも同時に保存しなければならない。
その他,ソーシャルメディアのデータ量は膨大で,かつ急速に増え続けているので,あまりに多くのデータを収集してしまうと大規模なストレージが必要となり,かつデータの利用を可能にするための処理やインデックスの作成も非常に困難になる。また,クラウドのような外部のストレージにデータを保存することは規約により禁じられているので,保存方法にも課題がある。
上記の課題のほか,プラットフォームの運営企業は過去のデータよりも現在のデータに関心があり,またウェブコンテンツと同様にソーシャルメディアのコンテンツも急速に消滅しつつある状況なので,データの長期保存の必要性はますます高まっている。
◯事例
学術研究の事例から,英国カーディフ大学のSocial Data Science Labが使用している“COSMOS”の事例と,アイルランド国立大学(NUI)ゴールウェイ(Galway)校のInsight Centre for Data AnalyticsとDigital Repository of Irelandによるプロジェクト“Social Repository of Ireland”の事例を挙げている。COSMOSは,ソーシャルメディアのデータ研究の統合プラットフォームである。TwitterのストリーミングAPIを利用して毎日全ツイートの1%を取得している。またSocial Repository of Irelandは,アイルランドの主要な出来事に関連したソーシャルメディアのコンテンツのリポジトリについて,その可能性を探る研究を行っている。
また,アーカイブズや図書館などの事例として,研究者が作成したソーシャルメディアのデータセットのうちツイートIDのみを保存しているドイツのGESIS – Leibniz Institute for the Social Sciencesの事例と,英国政府公式のTwitterアカウントやYouTubeチャンネルのコンテンツやそのメタデータなどをAPI経由で収集し,ウェブサイト上で利用可能としている英国国立公文書館(TNA)の“UK Government Web Archive”の事例を挙げている。
◯結論と提言
そもそも,ソーシャルメディアのデータ分析は新しい学問領域であり,またデータ保存は新しい試みなので,標準的な方法やベストプラクティスがまだ存在しない。今後,データアーカイブに対するニーズを評価して,何をどの程度どのような形式で保存するか,その基準を策定する参考とすべきである。また,アーカイブはデータ量が膨大になるので,単独あるいは少数の大規模な中央機関がデータを保存するのがよい。
ソーシャルメディアのデータ保存の取組はまだ始まったばかりである。課題は多く,その性格も多様であるが,今後の進展に期待したい。
関西館図書館協力課・阿部健太郎
Ref:
http://dx.doi.org/10.7207/twr16-01
http://www.dpconline.org/newsroom/latest-news/1616-capturing-the-conversation-new-report-highlights-the-need-to-preserve-social-media
http://socialmachines.media.mit.edu/
http://socialdatalab.net/
http://cosmosproject.net/
http://dri.ie/projects
http://dri.ie/
http://www.gesis.org/en/home/
http://www.nationalarchives.gov.uk/webarchive/twitter.htm:
http://www.nationalarchives.gov.uk/webarchive/videos.htm
E1042
E1385
CA1733