CA1527 – 動向レビュー:DSpaceをめぐる動向 / 荘司雅之

PDFファイルはこちら

カレントアウェアネス
No.280 2004.06.20

 

CA1527

動向レビュー

 

DSpaceをめぐる動向

 

はじめに

 DSpaceとは,マサチューセッツ工科大学(Massachusetts Institute of Technology: MIT)図書館とヒューレット・パッカード(Hewlett-Packard: HP)研究所が共同で開発した,デジタル学術資料を対象とする機関リポジトリ・システムである(1)。このシステムは,誰でもダウンロードして利用できる(2)オープンBSDライセンス(3)の下に公開されており,多数の研究機関がこれをダウンロードしている(4)。その多くは自機関でDSpaceが使えるか評価するためであろうが,DSpaceのようなシステムに対する大きなニーズが存在しているのは明らかである。

 本稿では,DSpaceの開発・導入プロジェクト,システムとしてのDSpaceの特徴,および,DSpace連盟(DSpace Federation)やMIT以外の機関での事例を中心とした最近の動向などを簡単に紹介する。なお,DSpaceのインターフェイス,機能などシステム面の詳細については今回触れていない。

 

1. DSpaceプロジェクト

 2000年3月にMIT図書館とHP研究所が共同開発に調印し,HPよりDSpace構築に18か月間180万ドルの助成がなされた。これは,invest@MIT(5)と呼ばれるMIT-HP連合(MIT-HP Alliance)のプロジェクトのひとつに位置づけられている。開発期間は,当初12か月と見積もられていたが,実際は2002年11月4日に公式に公開されるまで2年以上を要している。

 DSpaceの開発は, MITへの導入と並行して調整をとりながら進められた。このため,DSpaceはMITの使命(6),ニーズ(7),文化などを反映したシステムとなっている。例えば,「コミュニティーごとのポリシー(8)管理が可能なシステム」は,リポジトリへ研究成果を投稿できる資格,査読の有無など,投稿手続に対する考え方が,MIT内の学部,研究所,センターなどの組織(DSpaceではコミュニティーと呼ぶ)ごとに異なっていることを反映したものであろう。

 プロジェクトの段階にあったDSpaceをMIT図書館の通常業務のひとつに組み込み,維持発展させるために,MIT図書館はDSpace事業計画作成に取り組んだ。まず,アンドリュー・メロン財団の助成金を得て2名の事業戦略家(ビジネス・ストラテジスト)を採用し,続いて図書館の主要部門の代表者による移行計画グループを結成した。この両者の協力により,財政的な裏づけのある正式な事業計画が作成(9)された。

 この事業計画の中で,MITコミュニティーに無料で提供する「コア・サービス」と有料の「プレミアム・サービス」が提案されている。コア・サービスは,教員自身によるDSpaceへの投稿・閲覧に関するサービス,および,バックアップなどの基本的な運用に関わるサービスである。一方,プレミアム・サービスには図書館員の手を煩わすもの,例えば,メタデータの作成,サポート外のデジタルデータの変換作業,あるいは規格外の大容量の成果物を蓄積する場合などがある。

 また,MIT図書館の組織変更が提案され,新たにDSpace専従のスタッフ2名の職位(10)が新設された。この人件費と運用費,機器類などに年間約28.5万ドル(人件費に約22万ドル)の経費が算出されている。もちろん,他の機関でDSpaceを運用する場合は,運用方法,リポジトリの規模(DSpaceはPCでも稼動するスケーラブルなシステム),人件費などにより金額は異なってくる。

 

2. DSpaceシステム

 ソフトウェアとしてのDSpaceの特徴を以下に簡単に紹介する。

2.1 データモデル

 DSpace内に蓄積されるデータの編成は図1のとおりである。DSpaceサイトの最大の管理単位は,研究所,学部などのコミュニティーである。各コミュニティーの内部に,コンテンツの種類や研究領域などにより種々のコレクションを作成できる。その中の各々のコンテンツがアイテムである。これがデポジトリに蓄積されるデータの基本的な単位となり,限定子付ダブリン・コアのメタデータ・レコードが付与される。なお,このメタデータの必須フィールドは,タイトル,言語,投稿日の3フィールドのみで,その他のフィールドは全てオプションとなっている。

 アイテムはさらにビットストリーム(ビット列:普通のコンピュータ・ファイル)を集めたバンドルに分かれる。バンドルとは,例えばHTMLファイル(ビットストリーム)と画像ファイル(ビットストリーム)で構成されたHTMLドキュメント(バンドル)のように,ビットストリームを束ねた(ひとつでも可)単位である。

 各々のビットストリームには,必ずひとつのビットストリーム・フォーマットが対応する。これはファイル拡張子より詳細(11)な,保存のための重要な情報でありOAIS(Open Archival Information System;CA1489参照)(12)の概念を適用したものである。

 さらに,このビットストリーム・フォーマットにはサポート(Supported),既知(Known),非サポート(Unsupported)の3段階のサポートレベルを設定する。デジタル・ファイルの長期間の保存では,ソフトウェア,ハードウェアの陳腐化に伴う利用可能性の維持が問題になる。このサポートレベルは,各々の機関がデジタル・ファイルのフォーマットごとに,将来にわたり如何にサポートしていくかのレベルである。MITの定義では次のようになっている。

  • サポート:

    将来も(変換やエミュレーションを用い)利用可能を表明しているフォーマット。
  • 既知:

    フォーマットは認識されているが,ビット列の保存のみで将来の利用を保障していない。サポートにレベルを上げるべく情報収集を行うフォーマット。
  • 非サポート:

    フォーマットが未知。ビット列の保存のみとするフォーマット。

 

図1 データモデル図


 

図1 データモデル図
出典:Tansley(2003)

 

2.2 受入(Ingest)プロセス

 DSpaceはOAISの影響から,データの取り込み,および,取り込んだ情報をリポジトリへ格納する機能・サービスにIngestという単語をあてている。

 データの取り込みには2つの方法がある。外部からSIP(Submission Information Package)(13)をバッチ処理で取り込む方法と,教員,研究者が自らウェブインターフェイスを用いてメタデータとデジタルデータを投稿する方法である。

 図2の中の「ワークフロー」は,投稿されたSIPをリポジトリに保管する前に行う,査読,メタデータ修正,承認などのフィルタリング作業である。このフィルタリングの定義,分担などはコミュニティーごとに設定できる。また,コミュニティーの各メンバーは,DSpace管理者により e-people として登録され,その属性に応じて然るべき権限が与えられる。

 

図2 受入プロセス


 

図2 受入プロセス
出典:Tansley(2003)

 

2.3 その他の特徴/h4>

 DSpaceは採用機関のみならず,他の機関リポジトリやプレプリント・サーバなどとの相互運用性を実現するために,OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting;CA1513参照)を実装している。このソフトウェアには,OCLCが作成したオープンソース・ソフトウェアのOAICat(14)が採用されている。なお,メタデータはアイテムの限定子付きダブリン・コアから限定子を削り,シンプル・ダブリン・コアに変換したものを使用している。

 また,リポジトリにアーカイブされたアイテムの長期間にわたるアクセスが有効となるよう,永続的識別子としてCNRI(Corporation for National Research Initiatives)のHANDLE SYSTEM(15)を実装している。これは出版社向けのDOI(CA1481参照)と同様の考え方で,サーバ名などが変化してもアイテムへのアクセスを保障しようというものである。

 DSpaceはUNIX上で稼動するJavaで書かれたシステムであり,他のオープンソースのミドルウェアやツールを積極的に採り入れて構成されている。リレーショナル・データベースにPostgreSQL(16),JavaサーブレットエンジンにはTomcat,索引化のための検索エンジンにはLucene(17),そして上述したOCLCのOAICatなどを使用している。これらのコンポーネントやライブラリも全てオープンソース・ソフトウェアである。

 2004年4月末にDSpace Version 1.2がリリースの予定である。現行Version 1.1との主な変更点は:サブ・コミュニティーのサポート,コミュニティーに「管理権限」を付与,バッチ入出力に使用するメタデータ(XML)のMETS(18)サポート,アイテムの全文検索(現在はアイテムのメタデータのみが検索対象),アイテムのサムネール画像の表示,などである。

 

3. 他機関でのDSpace

 DSpaceはプロジェクトの段階から,オープンソースのシステムとして他の機関へも積極的に普及させようとの意図があった。その理由として以下の諸点が挙げられている。

  • 研究の最先端をいく世界中の大学の知的生産物による重要なコンテンツ集大成を作成するため。
  • オープンソース・コミュニティーによるDSpaceサービスの継続的な開発を促進するため。
  • 学術リポジトリの相互運用性と学術的研究成果の長期保存を促進するため。

 実際にオープンソースのDSpaceを基に様々な機関がソフトウェアの追加,変更を行っている。代表例に英国エジンバラ大学の電子学位論文プロジェクト“Thesis Alive!”(19)があり,学位論文用のオープンソース・ソフトウェアがDSpaceの追加モジュールの形で構築,公開されている。

 中でもケンブリッジ大学(英国)(20),トロント大学(カナダ),コロンビア大学,コーネル大学,ロチェスター大学,オハイオ大学,ワシントン大学(以上米国)はMITと協力関係を結び,DSpace連盟を立ち上げた。ここでは,以下に挙げる課題に取り組んでいる。

  • 他機関のシステムを首尾よく導入するには,どうすればよいか。
  • どの程度のローカライズ,カスタマイズが必要となるか。
  • 機関のデジタルコレクションを活用するためには,どのようなサービスを用意し,実装すべきか。
  • DSpace連盟の組織は,どのような体制(コンソーシアム,新たな会員制組織,あるいは,非公式で緩やかな協力関係など)にすればよいか。また,その組織はMIT内部組織か,他のメンバー機関の組織か,あるいは完全に独立した組織とするか。

 こうした取り組みを通じて,DSpace導入のノウハウを蓄積し,他機関においてもより精錬されたシステムとして受け入れられることが期待されている。

 

4. DSpaceの最近の動向

 2004年3月10,11日にMITで初のDSpaceユーザ会が開催された。本稿執筆時には未だウェブサイトに掲載されていないが,メーリングリスト(21)に流れていた会議のサマリーを紹介する。

  • DSpaceは機関リポジトリのみならず,電子学位論文リポジトリ,教材リポジトリ,電子ジャーナルリポジトリなどに採用されている。このようなコンテンツに適したアプリケーションが作れるよう,より一層モジュール化したDSpace Version2.0のアーキテクチャが承認された。
  • DSpace連盟をオープンにし,誰でも参加できるように変更する。プログラムの正式開発者(committersと呼ばれている)や,評価者,ドキュメント作成など様々な分野で協力者を求めていく方針である。
  • MIT,HPの外部に,W3C(22)などのオープンソース・ソフトウェア団体のような管理組織を作る計画を開始した。
  • 機関リポジトリの諸問題に対処するためのコミュニティーをDSpaceユーザであるか否かを問わず形成する。
  • Spaceの特定領域グループ(Special Interest Group: SIG)を立ち上げる。現在リストアップされているSIGは,機関リポジトリ,電子学位論文リポジトリ,教育教材リポジトリ,レコード管理システムと出版システムの各グループである。

 

 

おわりに

 DSpaceはUnicode対応のソフトウェアである。しかし,実際にダウンロードして試してみると,画面の日本語化は単純ではないし,日本語の索引検索(Lucene)の不具合(23)も経験した。画面の日本語化(国際化)については,スマートな方法がメーリングリストに提案されている(24)が,実装されるまで時間がかかりそうだ。

 誰かがソフトウェアの改良をしてくれるのを待つのではなく,必要な改良点があれば自ら積極的に参加し修正するのが,本来のオープンソース・ソフトウェアへの関わり方であろうが,業務の片手間にやるには荷が重い作業である。

 システム以外の面でも,機関リポジトリを構築するには課題が多い。例えば,機関内でのオーサライズ,協力者の募集,広報,リポジトリに蓄積されるコンテンツの知的財産権の問題(25)などの課題がある。また,運用の面では,ポリシー作成やメタデータのチェック者としての図書館,図書館員の関わり方,また,システムの運営・維持体制などの問題がある。

 解決すべき点は多いが,MITをはじめ世界中の英知を集めて進化しているDSpaceが魅力的なシステムであることは間違いない。

早稲田大学図書館:荘司 雅之(しょうじまさゆき)

 

(以下に記載したURLは2004年4月10日に存在を確認した。)
(1) MIT図書館は「機関リポジトリ」について「一大学,あるいは,複数の大学等からなるコミュニティーの知的生産物を記録し保存するデジタルコレクション」というSPARCの定義を採用している。< http://www.arl.org/sparc/IR/IR_Guide.html&gt;
(2) Source Forge からダウンロード可能。< http://sourceforge.net/projects/dspace/&gt;
(3) 再頒布の際は著作権表示を行なうことのみを条件とした極めて制限の緩いライセンス。< http://www.opensource.org/licenses/bsd-license.php&gt;
これに対し,EPrints (サウサンプトン大学が作成したDSpaceと同様のオープンソースのオンラインアーカイブ・ソフトウェア。< http://software.eprints.org/&gt;) は,再頒布者が,変更の有無を問わず再頒布される人にもコピーし変更を加える自由を要求するGNU General Public License(GPL)を採用している。< http://www.gnu.org/copyleft/copyleft.html&gt;
(4) 2002年11月4日の公開から2,3か月の間に約1,500件のダウンロードがあった。
(5) MITとHPの間で2000年8月に調印された1999年11月から5年間のデジタル技術の共同研究を行うためのパートナーシップ。HPは,総額2,500万ドルの助成を表明している。< http://www.hpl.hp.com/mit/&gt;
(6) MITのミッションステートメント中の“generating, disseminating and preserving knowledge”を指す。 < http://web.mit.edu/mission.html&gt;
(7) デジタルで生み出された論文,データセットなどのMITの知的成果物を格納する基盤作成と,広い読者層に対し長期間にわたるアクセスを可能とすることが,MITのニーズから抽出されたDSpaceの元来の目的。
(8) 投稿資格者の規定などの方針。DSpaceは,デジタル資料の収集,管理,索引化および配布のためのシステム(ツール,プラットフォーム)であり,機関がどう使用するか,使用者は誰か,何をデジタル資料の対象とするか,どのくらい保存するか等々の問題は,システムを採用する各組織で決めるべき「ポリシー」上の問題だとしている。MIT図書館は,システムとポリシーの違いを明確にするため,ポリシーを一般に公開している。< http://libraries.mit.edu/dspace-mit/mit/policies/index.html&gt;
(9) Barton, Mary R. et al. Building a Business Plan for DSpace, MIT Libraries’Digital Institutional Repository. Journal of Digital Information. 4(2), 2003. (online), available from < http://jodi.ecs.soton.ac.uk/Articles/v04/i02/Barton/&gt;, (accessed 2004-04-10).
(10)役職名はDSpace User Support ManagerとDSpace Systems Manager。
(11)例えば拡張子“doc”だけではMS Word のどのバージョンのファイルであるか分からない。
(12)国立国会図書館. “3 OAIS参照モデル”. 電子情報保存に係る調査研究報告書.国立国会図書館, 2003, 24-39. (online), available from < http://www.ndl.go.jp/jp/aboutus/preservation_02_01.html&gt;, (accessed 2004-04-10).

(13)OAISで使用されている用語。情報のProducerからOAISに送られるXMLメタデータファイルとコンテンツからなる情報パッケージ。
(14)OAICat. < http://www.oclc.org/research/software/oai/cat.htm&gt;
(15)HANDLE SYSTEM. < http://www.handle.net/&gt;
(16)PostgreSQL. < http://www.postgresql.org/&gt;
(17)TomcatとLucene.< http://jakarta.apache.org/&gt;
(18)METS.< http://www.loc.gov/standards/mets/&gt;
(19)Thesis Alive!はJISC(CA1501参照)の助成を受けエジンバラ大学が進めている電子学位論文プロジェクト。< http://www.thesesalive.ac.uk/dsp_home.shtml&gt;
(20)Cambridge-MIT Institute. 英国政府や企業が助成している団体。< http://www.cambridge-mit.org/cgi-bin/default.pl&gt;
(21)DSpace General Discussion List,DSpace Announcement List,DSpace Technology Listの3種類のメーリングリストがある。< http://www.dspace.org/feedback/mailing.html&gt;
(22)The World Wide Web Consortium. < http://www.w3.org/&gt;
(23)CJKTokenizer.javaなどを組み込む必要がある。
(24)DSpace Technology List の次のメール参照。Tansley, Robert. “RE: Multilanguage support”. dspace-tech. (mailing list), available from < http://sourceforge.net/mailarchive/forum.php?thread_id=4113646&forum_id=13580&gt;, (accessed 2004-04-10).
(25)知的財産権に関してはDSpaceにアクセス制限の機能がある。DSpace at MITにMIT Press の絶版になった資料が保管されているが,メタデータは OAI-PMHのハーベスティングなどで入手できる一方,資料そのものには「認証」が求められる。

 

Ref.

 

MIT’s DSpace Experience: A Case Study. (online), available from < http://www.dspace.org/implement/case-study.pdf&gt;, (accessed 2004-04-10).

Smith, MacKenzie et al. DSpace: An Open Source Dynamic Digital Repository. D-Lib Magazine. 9(1), 2003. (online), available from < http://www.dlib.org/dlib/january03/smith/01smith.html&gt;, (accessed 2004-04-10).

Tansley, Robert et al. DSpace System Documentation: DSpace Version: 1.1.1, 29-Aug-2003. (online), available from < http://prdownloads.sourceforge.net/dspace/dspace-docs-1.1.1-1.zip?download&gt;, (accessed 2004-04-10).

 


荘司雅之. DSpaceをめぐる動向. カレントアウェアネス. 2004, (280), p.12-16.
http://current.ndl.go.jp/ca1527