E1623 – 図書館によるテキストマイニングの研究利用支援<文献紹介>

カレントアウェアネス-E

No.269 2014.10.30

 

 E1623

図書館によるテキストマイニングの研究利用支援<文献紹介>

 

Fox, Lynne M. et al. Negotiating a Text Mining License for Faculty Researchers. Information Technology and Libraries. 2014, 33(3), p. 5-21.

 コロラド大学アンシュッツ医学キャンパスにおいて,ハンター(Lawrence Hunter)氏が率いる生物医学の自然言語処理(biomedical natural language processing:BNLP)の研究チームは,ゲノムスケールのデータ分析のための 計算法を研究していた。同キャンパスの健康科学図書館(Health Sciences Library:HSL)では,レファレンス・ライブラリアンのフォックス(Lynne Fox)氏を派遣し,研究チームの支援を行っていた。この文献では,図書館員 と研究者が協力し,研究利用のためのテキストマイニングのライセンス交渉を行った事例が紹介されている。

 ハンター氏の研究チームは,研究の一環として,生物医学分野の雑誌記事から関連のある情報を抽出するテキストマイニング・メソッドを立案し実行する予定であった。分析に必要なBNLPツールの開発には,XML形式のフルテキストの雑誌記事の大規模コレクション,そのコレクションをテキストマイニングする権利,そしてコレクションとそこから取り出したデータを保存・利用する権利が必要であった。

 ハンター氏とフォックス氏は,2011年から,データを入手するための取り組みを開始した。まず,オープンアクセス出版社であるBioMed Central(BMC) とPublic Library of Science(PLoS)に生物医学等の分野の雑誌のXML形式 テキストへのアクセス要求を打診し,許諾を得た。次にPubMedCentral(PMC) にアプローチをしたところ,データの入手には各出版社からの許諾が必要で あることがわかった。Wiley社から,PMCで同社が提供している雑誌記事への アクセスの許諾が得られたため,PMCからのDocument Type Definition(DTD) 形式でのファイル転送を計画し,PMCに技術的支援を依頼した。しかし,PMC 側の予算削減により,支援を受けることはできなかった。ハンター氏は更に, 自身の伝手をたどって,主な科学・技術・工学・医学(STEM)ベンダーから データを入手したが,このデータについては調査に必要な条件を満たしていないことが判明し,利用されなかった。

 これらの初期の取り組みの結果をうけ,ハンター氏の研究チームはHSLの購入雑誌からのデータ収集を計画した。研究チームはHSLが購入している主な化学系出版社が提供する雑誌データをクロールし,ダウンロードを試みたが,出版社側はこれを異常なダウンロードとみなし,キャンパス全体の資料へのアクセスが停止される結果となった。

 このアクセス障害の調査を行ったHSLの収集担当の図書館員であるウィリアムズ(Leslie A. Williams)氏は,ハンター氏の研究チームの活動を知り,データセット入手への協力を申し出た。ウィリアムズ氏は,資料収集の経験を生かして,フォックス氏と協力し,価格モデル,使用許諾契約,データセットと配信メカニズムを含んだ,XML形式の雑誌記事のフルテキストの大規模なコレクション購入のための契約フレームワークを作りあげた。

 図書館が購入する雑誌記事データには,提供プラットフォームにおけるインデックス機能や検索機能,PDF形式でのデータ提供等の様々な付加価値が加えられている。しかし,テキストマイニングの試みにはそれらは必要なく,査読をうけ,編集されたXML形式の生のデータのみが求められる。そのため図書館の雑誌記事データの購入価格と同じであるべきではない。出版社との長い交渉の末,記事ごとの価格,最少購入件数等の内容を含む,ハンター氏の研究チームのための雑誌記事コレクション価格モデルが策定された。

 最終的に交わされた使用許諾契約は,定義や義務等の10セクションで構成されていた。この契約は,次の点で図書館と出版社による一般的な契約とは異なっていた。すなわち,利用者がハンター氏の研究チームのメンバーに限定されている点や,データがどのように利用されるかを詳細にカバーし,データセットがローカルにインストールされることを許可している点,全てのアイテムがデジタルオブジェクト識別子(DOI)を持つXML形式で提供されることが規定されている点等である。  価格モデルや使用許諾契約が決定した後,データセットと配信メカニズムについても話し合われ,コンテンツの質や,ファイル転送時間,記憶容量等の重要な要素が定められた。

 この経験から,フォックス氏とウィリアムズ氏は,図書館が雑誌等を購入する際に,図書館員がテキストマイニング等の許諾条文のモデルを作成し,これらの権利を出版社と定期的に交渉することにより,取引価格を削減するべきだと考えるようになった。両者は図書館の定期購読更新の時期に,STEM出版社との使用許諾契約にテキストマイニングに関する条項を含めることを主張し,成功をおさめた。この動きは地域の学術コンソーシアムレベルにまで広がり,14の学術機関でテキストマイニングを容易にする結果となった。

関西館図書館協力課・安原通代

Ref:
http://ejournals.bc.edu/ojs/index.php/ital/article/view/5485
http://ejournals.bc.edu/ojs/index.php/ital/article/view/5485/pdf