PDFファイルはこちら
カレントアウェアネス
No.296 2008年6月20日
CA1666
動向レビュー
機関リポジトリの利用統計のゆくえ
1. はじめに
“OpenDOAR(Directory of Open Access Repositories)”(1)に登録されているリポジトリの数は2008年4月29日現在で1,131に上り、着実に増加を続けている。日本では、81の機関リポジトリが公開または試験公開されており(2)、国立情報学研究所の“JuNii+”(3)を通じて利用できるコンテンツ数は28万件を超えるに至っている(2008年4月16日現在)。
こうした拡大のなかで、機関リポジトリの評価への関心が高まっている。最も基本的な評価指標としては、どのような種類のコンテンツがどれだけ集まっているのかということがあげられる。機関リポジトリの目的の一つがデジタル・コンテンツの「収集と保存」にある以上、コンテンツの数は常に重要であり続ける。また、機関リポジトリがオープンアクセス運動に代表される「学術コミュニケーションの変革」と「機関の電子アーカイブ」としての2つの異なる文脈から成り立つものであり(4)、そのためにさまざまな展開の可能性があり得る中で、それぞれが実際にどのような方向性を持って進んでいるのかは、収集されたコンテンツを通じてかなりの程度、把握できるだろう。
近年では、タイプ別のコンテンツ数およびフルテキストのコンテンツ数だけではなく、コンテンツの投入状況を異なる側面から評価する動きも生じている。例えば、カー(Leslie Carr)等(5)は、寄託(deposit)の状況(一時的に大量のコンテンツが投入されたのか継続的に更新されているのか)と収集分野の広がりの2点が、機関リポジトリの定着度と持続可能性に繋がる可能性を指摘している(E686参照)。また、トーマス(Chuck Thomas)等(6)は、11のリポジトリ(寄託が義務化された2つの機関リポジトリ、義務化されていない6つの機関リポジトリ、3つの分野別リポジトリ)における著者別の論文寄託件数を調査し、参加のパターンからリポジトリの成功の程度を判断する方法を示している。
しかし、こうしたインプット評価の一方で、機関リポジトリがどれだけ使われているかというアウトプット面での評価手法の開発も急速に進んでいる。アウトプットの評価は、実際の利用量の明確化が、機関や学術コミュニティ、さらには社会全般に対する機関リポジトリの貢献を示唆し、現在および今後の成功に強く関連するという点できわめて重要である。また、具体的な利用状況は、機関リポジトリの担当者や管理者にとって、機関の構成員や上位組織その他に対する理解の涵養(アドヴォカシー)の手段として活用することが期待できる。
本稿の目的は、機関リポジトリの利用統計とその評価に関する最近の動向を整理することにある。機関リポジトリや電子ジャーナルの利用統計は、基本的にシステムログを集計し、分析することから得られる。したがって、一見きわめて機械的で容易そうに見えるかもしれないが、実際には2つの理由からそう簡単にはゆかない。1つに比較可能な利用統計システム構築の問題、もう1つは複数のシステム間にまたがる集計の問題である。
以下では、最初に、電子ジャーナルやデータベースの利用統計に関するCOUNTER(Counting Online Usage of NeTworked Electronic Resources;CA1512参照)プロジェクトにおける考え方を参考に、比較可能な利用統計を作成するために必要なフィルタリング処理について整理を行う。続いて、サウサンプトン大学(Southampton Univ.)を中心に進められているIRS(Interoperable Repository Statistics)プロジェクト(7)の経緯と現状を紹介し、そこから複数のシステム間にまたがる集計、および今後における機関リポジトリのアウトプット分析の方向性について検討したい。
2. システムログのフィルタリング
ウェブログのアクセス解析ツールから得られる数値は、利用するツールによって大幅に異なる。また、同じツールを用いた場合であっても、バージョンによっても変動する。こうした違いは、それらのツールがウェブログ中に含まれる不純物(アクセス数を実際よりも大きい数にしかねない要素群)をどの程度まで取り除いているか、そして訪問者(visitor)や訪問(visit)といった概念をどのように定義しているかということから生じる。
図1は、生のシステムログから除外すべき要素について、COUNTERプロジェクトの「電子ジャーナル及びデータベースの利用データの記録と交換を管理するための実務指針(COUNTER Code of Practice. Journals and Databases)」(8)を参考にしつつ図式化したものである。この実務指針については2008年3月に第3版のドラフトが提示されている。主な改訂内容としては、実装すべきデータ処理内容に関する規定の更新、SUSHIプロトコル(NISO Z39.93;E419参照)(9)(10)の組み込み、XMLによる利用報告書の提供の義務付け、コンソーシアム向けの利用報告書の作成があげられるが、ここでは機関リポジトリの利用統計に関連するデータ処理方式についてのみを扱う。
図1 アクセスログからのデータ抽出処理
(クリックすると拡大します)
なお、現行の第2版と第3版ドラフトとの違いを明確にするために、以下では、前者を“COUNTER-2”、後者を“COUNTER-3D”として参照することとする。
a. HTTPステータスコードによる抽出
ウェブログやシステムログからアクセス統計を作成するにあたっては、HTTPステータスコード(RFC2616(11))によって、利用に結びつかなかったリクエスト以外を除去する必要がある。通常は、コード”200”(OK)、”304”(Not Modified; サーバ側のコンテンツとブラウザのキャッシュが同一で、後者が使用された場合)以外のステータスのレコードを除外する。
b. 重複アクセスの制御
同一ユーザによる「ダブル・クリック」への対処について、COUNTER-2では、IPアドレス、セッション・クッキー、ユーザ・クッキー、登録ユーザIDのいずれか(後にゆくにしたがって精度は向上)によって、同一ユーザによるアクセスを判別し、一定時間内(HTMLでは10秒、PDFでは30秒)に同一の論文に対し複数のリクエストが行われたときは最終のものを保持すること、すなわちアクセス回数は1回とカウントすることが規定されている。なお、この点に関する一般のウェブログ解析ソフトウェアにおける処理内容はまちまちであり、場合によっては明確にされていないこともある。
c. ファイルタイプによる絞り込み
1つのウェブページを構成する断片的なファイル群(例えば、GIFまたはJPEGによるマスコットアイコン、あるいはスタイルシート等)へのアクセス回数も、利用カウントを不必要に増大させる可能性がある。ファイルタイプ別に分けたうえで、システムログを分析することで、正確にアクセス回数をカウントしなければならない。
以上が、COUNTER-2で規定された事項であり、COUNTER-3Dでは新たに次の3点の追加が提案されている。
d. 検索エンジン等によるアクセスの除去
Google やYahoo 等の検索エンジンの検索ロボット(クローラ)、スパム・ボットその他の、人間による直接利用以外のアクセスについて除去する必要がある。こうしたサイトからのアクセスについては、既知のサイトを登録するブラックリスト方式で管理するのが一般的である。しかし、ブラックリスト方式の場合、次から次に生まれる新手のロボットや、既知の場合であってもIPアドレスの変更に対処しなければならないので、常に更新を行っていく必要がある。この点について、BEPRESS社(Berkeley Electronic Press)は、ベイズ統計に基づくアルゴリズムを独自に開発し実装したことを明らかにしている(12)。COUNTER-3Dでは、電子ジャーナルのアーカイビングのためのLOCKSS プロトコル(Lots of Copies Keep Stuff Safe; CA1597参照)についても除外対象とされている。また、機関リポジトリにおける、OAI-PMHプロトコルによるデータ収集のためのアクセスも当然除外する必要がある。
e. 統合検索の影響の排除
統合検索およびその他の自動検索エージェントの利用度が上昇し、必ずしも意図しないアクセスが発生する可能性があるため、COUNTER-3Dではデータベース・レポート1および3において、正規の検索とは分離してまとめることとされた。なお、今後において、電子ジャーナルや機関リポジトリの論文が統合検索の直接的な対象とされるならば、対応を考慮しなければならなくなるだろう。
f. リンク先読みの影響の排除
リンク先読み(link prefetch)とは、ユーザがすぐにアクセスする可能性のあるドキュメントをブラウザの空いた時間に事前にダウンロードまたは先取りする方式である。GoogleではFirefox向けにこの機能を提供している。検索結果の最初のリンク数件に、ブラウザに先読みのヒントを提供する”X-moz:prefetch” というhttpヘッダが付けられ、ブラウザはそのページのロードを終えた後、ユーザの知らぬ間に指定された資料の先取りを行い、キャッシュに保存する。COUNTER-3Dでは、先読み機能の結果から生じるアクセスについても除外することが提案されている。
以上のような内容について除外処理を行った場合の利用統計は、行わなかった場合とまったく違ったものになる。筆者も一員として参加した「機関リポジトリの評価システム」プロジェクト(平成19年度CSI委託事業(領域2)、代表:千葉大学、分担:三重大学)では、オープンソースのログ解析ツールであるAWStats(13)および独自に開発したツールを用いて、9つの機関リポジトリのウェブログを対象に上記a~dに関連する処理を行った。その結果、bの「重複アクセスの制御」についてはファイルサイズで0.46から0.92(全体では0.80)(14)に圧縮された。dの「検索エンジン等によるアクセスの除去」については、実際のデータからAWStatsのロボットリストに大幅な追加を行い、単純なアクセス回数で少なく見積もった場合でも0.13から0.69(全体では0.40)ときわめて大きな縮減率が得られ、これらの処理の重要性をあらためて確認することとなった(15)。
なお、上記以外にも、次のように今後、処置を検討しなければならない事項がある。
g. 分割されたファイルの扱い
電子ジャーナルの場合、米国物理学会(American Institute of Physics)のScitation(16)におけるように、全文の論文をセクションに区切られたHTML(sectioned HTML)によって提供されることがある。COUNTER-3Dでは、こうしたケースの存在を指摘しているものの、具体的な取扱いについては規定していない。また、機関リポジトリ等においては、一つの図書や報告書を複数のPDFとして分割提供する場合も想定される。
h. 内部利用の除去
COUNTERでは規定されていないが、図書館内やシステム開発業者等からの利用についても、本来は除外されるべきであろう。また、機関リポジトリの場合は、サーバ上のデータのチェック機能等の実装によって、業務プロセス内から自動的なアクセスが行われているケースも見られる。
3. IRSプロジェクト
機関リポジトリに関して比較可能な利用統計を作成するためには、以上のような処理を実装した標準としてのプログラムが開発され、各機関が同じ枠組みで処理を実行することが必要である。そうすることで、どのようなコンテンツにどこから、どれだけのアクセスやダウンロードが行われたか、あるいはどのような経路(リファラ)を辿って利用が行われたかを把握し、相互に比較することが可能となる。
しかし、プログラムの作成は十分条件を満たしたことにしかならない。少なくとも次のような2つの課題が残る。1つは、DSpace、EPrints、E-repository、Fedora等々の機関リポジトリのさまざまなプラットフォームに対応した共通仕様のプログラムを作成、維持することである。もう1つは、例えば1年間に日本中で最もダウンロードされた論文は何か、といった質問に対応する機関横断的な利用統計をどのように整備するかということである。
英国のIRSプロジェクトは、部分的ではあるにしても、これらの課題の解決を目指すものであった。このプロジェクトは、2005年6月から2007年5月の2年にわたって英国情報システム合同委員会(JISC)の助成を受け、サウサンプトン大学を中心に実施された(17)(18)。
IRSは、それぞれのリポジトリで個別に使用するためのソフトウェアと、統計データのハーベスティングを前提に集中処理を行うOAIサービスという2つの異なるモジュールから構成される。前者は、“IRStats”と名付けられたオープンソースのソフトウェアで、“EPrints”向けパッケージが既にウェブ上で公開されている(“DSpace”向けパッケージは未完成)(19)。IRStats は基本的には“AWStats”をベースに開発されたものであり、機関リポジトリ上のウェブログを読み込み、MySQLまたはPostgreSQLにより利用イベントのデータベース(匿名の形式で個々の利用者の記録を作成する)を構築したうえで、集計およびグラフ、図表の作成処理を行うという方式になっている。作成された集計やグラフ等は必要に応じて簡単にローカルサイトで公開することができ、単純な利用回数(例.どの資料が何回ダウンロードされたか)、利用ランキング(例.最も多くダウンロードされた資料/著者のトップ10)、アイテムごとの月別ダウンロードグラフ等が利用できる。また、ビットストリーム(論文全文)のダウンロードの分析をどの単位で行うか(個々のレコードかコレクション全体か)や、分析の対象とする期間、求めるグラフや図表の選択のためのインターフェイスも用意されている(20)。実は、以上の処理のほとんどは、AWStatsの機能だけで行えないわけではない。IRStatsの意義は、AWStatsだけでは利用されたコンテンツをURL形式でしか表せないのに対して、IRStatsではメタデータの形式で把握できるようにするためのモジュールが組み込まれた点にあると考えられる。
IRSプロジェクトの当初の目標は、もう一つのモジュールであるOAIサービスにあったようである。OAIサービスとは、メタデータを含むIRStatsの利用イベントのデータベースに相当する内容を“OpenURL ContextObjects”(21)(22)の形式に変換し、それらをOAI-PMHプロトコルを用いて収集(ハーベスト)し、集中的に分析処理を行いその結果を返すという一連のサービスを指す。例えば、リポジトリの利用者が“Citebase”のウェブサイト(23)から、自分の論文がどれだけダウンロードされているか(どれだけ引用されているかに加えて)を確認できるといった状況が想定された。もしこの方式がうまくいけば、それぞれのリポジトリは単にログファイルをハーベスト可能な状態に置くだけで、プラットフォームの違いを問わず、利用統計を入手することができることになる。しかし、残念ながらOAIサービスの成果は明確には示されていない。システムログの分析には予期せぬデータの出現などからどうしても単純な機械的作業だけで行うことができない側面があるため、システム資源や人的資源の面で非効率と判断されたということなのかもしれない。
利用統計のOAIサービスが構想された背景には、英国の大学研究評価(Research Assessment Exercise; RAE)方式の見直しの動きがある。英国における各大学への研究資金の配分は、個々の研究に対する競争的な研究補助金のほかに、研究分野ごとの個人の研究業績の審査と学科自体に対する評価による学科のランク付けに基づいて総体としての大学への配分額が決定される方式となっている(24)。このうちの個人の研究業績の審査については、これまで(現在、2007年から2008年にかけて評価を実施中)はピア・レビュー方式で行われてきたが、時間と費用がかかり過ぎるということから、次回以降の方式としてビブリオメトリックスをもとにした数的指標による評価の導入が検討されている(25)。Citebaseにおいては、論文や著者ごとの引用回数とダウンロード回数が実験的に表示されているが、この表示はRAEにおける数的指標の活用との連動が意図された結果である(26)(27)。
Citebaseにおいて、引用回数とともにダウンロード回数が示されているのは、ダウンロード回数を学術的影響に関する新たな指標として捉えているからに他ならない。利用は「引用に先行するため、学術的影響のより初期の指標として役立つ」(28)ものであり、雑誌論文の範囲を越えた、雑誌論文の著者だけに限定されないコミュニティ全般の学術情報の流通を表わすと考えられるからである。この点で、IRSプロジェクトは、出版社のサービス、機関リポジトリ、リンク・リゾルバ等から大規模な引用データ、利用データ、書誌データを収集し、分析を行っている“MESUR”プロジェクト(29)と共通する方向性を持つ。
とはいえ、Citebaseにおける回数表示は、引用はarXivから、ダウンロードはarXivの英国内ミラーサーバーからのデータのみに拠っているのが現状である(30)。セルフアーカイビングの比率がまだまだ限られている現時点では、OAIサービスから得られたデータを活用するには数が少なすぎるということなのかもしれないが、ハーナッド(Stevan Harnad)等はメタデータと利用データの集約と分析をセルフアーカイビング普及の道具として活用することを一貫して目指してきただけに、今後の展開が注目される。
おわりに
機関リポジトリの利用統計は、どのようなコンテンツをどのような人々が(どこから)どれだけ利用したかを明らかにし、今後の機関リポジトリの方向を考える上で貴重な情報をもたらす。ただし、利用統計を相互に比較し、そこからベンチマーキングの設定や運営計画の見直しを行うためには、利用統計の標準化が不可欠となる。具体的には、上述したようなシステムログからの不純物の除去(フィルタリング)を前提にした共通の枠組みでの統計項目の整備が必要である。
しかし、共通の枠組みを準備したとしても、それらが実際にツールとして実装され、使用されなければ意味をなさない。機関リポジトリに携わる関係者が協力して、プラットフォームの違いを越えて利用できるIRStatsのようなツールを整備、維持していくことが、より重要性を増していくに違いない。また、運用の方式としては、IRSプロジェクトで採られたような集中方式と分散方式が考えられる。厳密な方法の徹底という点では集中方式は理想的であるが、さまざまに異なる環境を理解したうえで処理を行わなければならない面があり、少なくとも現時点では現実的であるとは考えられない。一方で、分散方式の場合には実行可能性は高い反面、所定の手続きと仕様に準拠して処理が行われたかが不明確になりがちであるという問題がある。現実的には、COUNTERプロジェクトにおいて規定されたような監査の枠組みに基づいた分散方式を選択するのが妥当なのではないかと考えられる。
最後に、IRSプロジェクトやMESURプロジェクトに見られるように、機関リポジトリのシステムログから利用を調べることは、利用統計の作成にとどまらない可能性を持つ。利用統計という面でも、利用の分析という面でも、これまでには得られなかった粒度での新たな取り組みが始まっているのである。
東北学院大学:佐藤義則(さとう よしのり)
(1) “OpenDOAR. Proportion of Repositories by Country : Worldwide”. http://www.opendoar.org/find.php?format=charts, (accessed 2008-04-29).
(2) 国立情報学研究所. “機関リポジトリ一覧”. 学術機関リポジトリ構築連携支援事業. http://www.nii.ac.jp/irp/list/, (参照 2008-04-28).
(3) 国立情報学研究所. “JuNii+:機関リポジトリポータル”. http://juniiplus.csc.nii.ac.jp/, (参照 2008-04-28).
(4) 倉田敬子. 機関リポジトリとは何か. MediaNet. 2006, (13), p.14-17.
(5) Carr, Leslie et al. Size isn’t everything. D-Lib Magazine. 2007, 13(7/8). http://www.dlib.org/dlib/july07/carr/07carr.html, (accessed 2008-04-28).
(6) Thomas, Chuck et al. Measuring and comparing participation patterns in digital repositories. D-Lib Magazine. 2007, 13(9/10). http://www.dlib.org/dlib/september07/mcdonald/09mcdonald.html, (accessed 2008-04-28).
(7) “IRS : Interoperable Repository Statistics : Facilitating trust-worthy repository use statistics”. http://irs.eprints.org/, (accessed 2008-04-28).
(8) Joint Information Systems Committee. “IRS : Interoperable Repository Statistics”. http://www.jisc.ac.uk/whatwedo/programmes/programme_digital_repositories/project_irs.aspx, (accessed 2008-04-28).
(9) Counting Online Usage of Networked Electronic Resources. “The COUNTER Code of Practice. Journals and Databases. Release 3”. 2008, 43p., http://www.projectcounter.org/r3/r3_release.pdf, (accessed 2008-04-28).
(10) ANSI/NISO Z39.93-2007 : Standardized Usage Statistics Harvesting Initiative (SUSHI). http://www.niso.org/workrooms/sushi/, (accessed 2008-04-28).
(11) RFC 2616. Hypertext Transfer Protocol : HTTP/1.1. http://www.faqs.org/rfcs/rfc2616.html, (accessed 2008-04-28).
(12) The Berkeley Electronic Press. “Bepress Download Totals: Numbers You Can Count On”. http://www.bepress.com/download_counts.html, (accessed 2008-04-28).
(13) “AWStats Official Web Site : Free Real-time Logfile Analyzer to Get Advanced Statistics (GNU GPL)”. http://awstats.sourceforge.net/, (accessed 2008-04-28).
(14) COUNTERプロジェクトの規定とは異なり、60秒以内のアクセスは1回とカウントした場合の数値である。
(15) c「ファイルタイプによる絞り込み」については、ファイルの拡張子を使用して絞り込むことでファイルタイプ毎のアクセス件数を確認した。
(16) American Institute of Physics. “Scitation”. http://scitation.aip.org/. (accessed 2008-04-28).
(17) Interoperable Repository Statistics. “About the Project”. http://irs.eprints.org/about.html, (accessed 2008-04-28).
(18) IRStats. “Welcome to Interoperable Repository Statistics”. http://trac.eprints.org/projects/irstats, (accessed 2008-04-28).
(19) 「機関リポジトリの評価システム」プロジェクトでは、DSpaceとE-repository向けのアイテム別統計プログラムの開発を行った。機能を点検し、公開する予定である。
(20) Carr, Leslie et al. “Repository Statistics : What Do We Want to Know?”. Third International Conference on Open Repositories 2008, 1-4 April 2008, Southampton, United Kingdom, 2008-04-01/04, School of Electronics and Computer Science at the University of Southampton. 2008, 4p. http://pubs.or08.ecs.soton.ac.uk/30/, (accessed 2008-04-28).
(21) Bollen, Johan et al. “An architecture for the aggregation and analysis of scholarly usage data”. Opening information horizons : 6th ACM/IEEE-CS joint conference on digital libraries 2006. Chapel Hill, NC., USA., 2006-07-11/15. 2006, p.298-307. http://arxiv.org/abs/cs.DL/0605113, (accessed 2008-04-28).
(22) ANSI/NISO Z39.88-2004 : The OpenURL Framework for Context-Sensitive Services. http://128.8.237.133/standards/standard_detail.cfm?std_id=783, (accessed 2008-04-28).
(23) “Citebase Search”. http://www.citebase.org/, (accessed 2008-04-28).
(24) Brody, Tim et al. “Incentivizing the open access research web”. CTWatch Quarterly. 2007, 3(3), p.42-50. http://www.ctwatch.org/quarterly/print.php?p=86, (accessed 2008-04-28).
(25) Universities UK. The Use of Bibliometrics to Measure Research Quality in UK Higher Education Institutions. 2007, 40p. http://bookshop.universitiesuk.ac.uk/downloads/bibliometrics.pdf, (accessed 2008-04-28).
(26) Harnad, Stevan. “Open access scientometrics and the UK research assessment exercise”. 11th Annual Meeting of the International Society for Scientometrics and Infometrics. Madrid, Spain, 2007-07-25/27. http://eprints.ecs.soton.ac.uk/14778/, (accessed 2008-04-28).
(27) Brody, Tim et al. “Incentivizing the open access research web”. CTWatch Quarterly. 2007, 3(3), p.42-50. http://www.ctwatch.org/quarterly/print.php?p=86, (accessed 2008-04-28).
(28) Brody, Tim et al. “Earlier web usage statistics as predictors of later citation impact”. Journal of the American Society for Information Science and Technology. 2006, 57(8), p.1060-1072.
(29) Bollen, Johan et al. “MESUR: usage-based metrics of scholarly impact”. Joint Conference on Digital Libraries 2007. http://www.mesur.org/Documentation_files/JCDL07_bollen.pdf, (accessed 2008-04-28).
(30) Brody, Tim et al. “Incentivizing the open access research web”. CTWatch Quarterly. 2007, 3(3), p.42-50. http://www.ctwatch.org/quarterly/print.php?p=86, (accessed 2008-04-28).
佐藤義則. 動向レビュー:機関リポジトリの利用統計のゆくえ. カレントアウェアネス. 2008, (296), p.12-16.
http://current.ndl.go.jp/ca1666