カレントアウェアネス
No.186 1995.02.20
CA988
米国の大学図書館による電子テキストセンター
米国の大学図書館が電子テキストセンターを相次いで開設している。電子テキスト(electronic texts)という言葉は耳慣れないかもしれないが,その内容はフルテキスト(全文)データベースとほぼ同義ととらえても間違いではない。
1980年代初めにOPACが脚光を浴びるようになったが,10年後の現在,電子テキストが類似した状況にあるという。初期のOPACはそれぞれの図書館がMARCをベースに作りあげてきたわけだが,電子テキストの場合にもSGMLやTEI(注参照)を使って表記し,それぞれの館が手作りしている段階であり,業者(ベンダー)の製品を使用する状況には至っていないという。もっとも状況が類似しているとはいえ,インターネットの普及,ワークステーションのパワーアップ,クライアント・サーバー方式の一般化など,その環境は大きく変化している。やがてSGMLをベースとしてターンキイ製品が業者によって開発されようし,ネットワークを通じて図書館をはじめ各機関が相互に電子テキストのサーバーとなりクライアントになって利用できるようになると思われる。
最大の障害は著作権の問題であろう。近い将来,出版者と電子テキストセンターとの間でテキストの電子的配布に関する法的な解決策が期待できそうだという。出版者の利益の保護とテキストに対する権利を保障するメカニズムの開発がポイントとなる。
最近オープンした2つの例を紹介する。まず1992年の8月にバージニア大学図書館が電子テキストセンターを開設している。数千にのぼるテキストをベースとしており,これらはTEIで記述され,商業ベースで作成されたタグ付きテキストのほか,この大学の図書館員によってタグ付けされたテキストが提供されている。同時にこのセンターは研究者や大学院生にとって,電子テキストの作成やテキスト分析のソフトウェアを研究する場でもあり,そのための設備が用意されている。テキスト分析は通常の情報検索サービスにおける全文データベースでは不可能で,SGMLでデータの各項目が細かくタグ付けされているが故にできることであり,電子テキストという言葉のニュアンスが伺えよう。テキストはワークステーションに搭載されており,オックスフォード英語辞典やシェークスピアの作品をはじめ,文学,社会,歴史,哲学など広範囲にわたっている。
このセンターは今後予想されるこの種のセンターのモデルとしても注目されており,多くの見学者や問い合わせが殺到しているということである。
もうひとつは1993年7月に開設されたプリンストン大学とラトガース大学によるCETH (Center for Electronic Texts in the Humanities)である。その名が示す通りこのセンターは人文科学を専門に,学内はもちろん国家レベルのニーズに応えるべく,調査研究のための電子テキストの作成と提供を使命としている。CETHのバックボーンともいえるのは,ラトガース大学図書館によって1983年から開始された人文科学に関する電子テキストの目録の作成である。この目録を継続して維持することに加えて,インターネットでアクセスできるように標準フォーマットで表現された高品質のテキストと検索用ソフトウェアを開発し,さらに教育プログラムを提供することを活動の柱としている。とくに教育プログラムの提供に関してはこのセンターではセミナーを開催しており,電子テキストの収集,TEIによるタグ付け,検索,データの作成と変換,そして分析を実習できるようになっている。CETHがこの種の他のプロジェクトや組織と異なる点は,その主たる目的が電子テキストを扱う効果的な方法論を開発するための触媒の役割を果すところにあるという。CETHは情報の管理に図書館の専門的技術を,そしてその利用と開発に人文科学の専門的知識を利用していくことになる。
杉山時之(すぎやまときゆき)
注 SGMLとTEI
SGMLはStandard Generalized Markup Languageの頭字語で,電子的なテキストに記述される項目を詳細に識別するためのマークあるいはタグを付与する(markup)ルールを記述する言語である。この言語を応用してタグ付けのパターンを決めたものがTEI (Text Encoding Initiative)である。文学,言語,歴史,統計等を対象として,標準的なタグの種類と記述様式を定めており,そのほか非標準的なタグについて追加することもできる。
Ref : Special issue: electronic texts: where next? Inf Technol Libr 13 (1) 1994