カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。

Wikipediaが検索ログをパブリックドメインで公開開始

Wikipediaを含むWikimedia Foundationの全プロジェクトが、その検索ログの公開を開始しました。2012年9月19日から毎日、前日分のログファイルが公開されていきます(3か月前のぶんまで公開予定とされています)。検索ログには、タイムスタンプや検索キーワード、検索結果数などの10項目が含まれており、IPアドレスなどの削除に加えてメールアドレスやクレジットカード番号などを検索キーワードに含んだものを排除する匿名化処理が行われているということです。ログファイルはクリエイティブコモンズのCC0(パブリックドメイン)ライセンスで公開されています。

What are readers looking for? Wikipedia search data now available(Wikimedia Blog 2012/9/19)
https://blog.wikimedia.org/2012/09/19/what-are-readers-looking-for-wikipedia-search-data-now-available/

Index of /other/search/
http://dumps.wikimedia.org/other/search/