E1930 - HathiTrustの米国連邦政府文書コレクション分析

カレントアウェアネス-E

No.328 2017.07.06

 

 E1930

HathiTrustの米国連邦政府文書コレクション分析

 

 “U.S. Federal Documents in HathiTrust: A Collection Profile”は,米国の大学図書館等による共同リポジトリHathiTrust(CA1760参照)が有する米国連邦政府文書のデジタルコレクションに関する分析調査報告書である。HathiTrustは,デジタルライブラリーへのアクセス改善や様々な形式の学術資料の保存に向けた共同プログラムに取り組んできた。その共同プログラムの一つであるHathiTrust U.S. Federal Government Documents Programの一環として,この報告書は,2017年3月20日にHathiTrustのウェブサイトで公表された。14ページの簡潔な報告書であるが,コレクション分析に伴う数々のトピックが調査結果とともに紹介されている。

 HathiTrustは,紙媒体で作成された米国連邦政府文書の包括的なデジタルコレクションの構築を目指している。そのためには,まず,デジタルコンテンツとして既に何があり,何がないのかを把握しなければならない。これが,分析を行う契機であった。分析は,データに基づく様々な指標を研究し,コレクションに関する報告を行うための基準を定めることを目的として行われた。HathiTrustの特定のコレクションに関するこのような分析は,これまでなかったとのことである。

 調査対象となる米国連邦政府文書の特定は,デジタルオブジェクトの書誌データの中から,MARCの008フィールド17桁目にu(出版国が米国であることを示す),28桁目にf(中央官庁の政府刊行物であることを示す)を含むか,086フィールドに米国連邦政府資料の分類番号であるスードックナンバー(Superintendent of Documents(SuDoc) call number)を含むか,HathiTrustが作成した米国連邦政府文書のメタデータレジストリであるU.S. Federal Documents Registryと合致するか,を基準にして行われた。分析の結果,その数は書誌データにして41万2,205点,デジタルオブジェクトは97万315点にのぼることが判明した。以下,報告書から分析内容を簡単に紹介する。

 デジタルオブジェクトの約88%(85万2,488点)がフルビュー(全文閲覧可),約12%(11万7,827点)がリミテッドビュー(閲覧制限ありまたは検索のみ)のステータスであった。HathiTrustデジタルコレクション内には18もの異なる権利帰属のステータスがあるが,著作権無しとされる“Public Domain”に該当するものは83万8,993点であった。

 書誌データの約94%(38万7,766点)が単行書,約6%(2万3,986点)が逐次刊行物であり,デジタルオブジェクトの約56%が単行書(54万6,432点),約44%が逐次刊行物(42万3,187点)であった。

 コンテンツを提供した機関は51機関にのぼった。提供オブジェクト数の上位20機関のうち9機関はBig Ten Academic Alliance(米国の大学コンソーシアム)の参加機関,5機関はカリフォルニア大学系列であった。双方とも,Google社と連携して米国連邦政府文書のデジタル化に重点を置いてきた機関である。また,デジタルオブジェクトの約97.8%(94万8,486点)がGoogle社のデジタル化生成物であった。

 書誌データの分析結果からは,カタロギングの一貫性の無さから,米国連邦政府文書の正確な分析は困難であることが分かった。例えば,書誌データの団体著者(110フィールド)では,実際の著者と思われる下位組織が省略されたり,中間組織が省略された上で下位組織が団体名(110$a)に置かれたりするなど,その記述方法は様々であった。また,出版者(260$b)では,米国政府印刷局(GPO)が発行者である書誌データが約30%(12万4,698点)あるが,その表記のバリエーションは49にものぼった。

 HathiTrustカタログにはスードックナンバーによる検索機能追加の要望があるが,36%の書誌データ(14万8,642点)には同ナンバーが付されていなかった。また,これが付されている書誌データ26万3,563点を分析すると,多く付与されているスードック分類の上位10件のうち3件が議会資料であり,議会のヒアリングに相当するY 4.(Congressional Committee Hearings)が7万8,556点で最も多い。続くY 3.(Congressional Commissions and Independent Agencies)は2万868点,A 13.(United States. Forest Service)が1万2,536点であった。

 以上,調査結果の概要を紹介したが,報告書では,上述のようなカタロギングの一貫性の無さ等からスタッフが味わったであろう作業の困難さを感じ取ることができ,興味深い。また,そもそも調査対象範囲に米国連邦政府文書でないものが含まれてしまった可能性や,更なるデータ分析の必要性にも多く言及されている。詳細は報告書を参照されたい。

 報告書の結論には,この初めての試みが,コレクション分析の一つの指標となり,データの調査方法の方向性を指し示すものとなる,と書かれている。また,今後の取組みとして,より信頼できる基準による定期的な報告,データ上の制約を乗り越えるための方策の検討などが挙げられている。その目的は,コレクションを正確に把握し,豊かで確かな情報に基づいてコレクションにアクセスできることである。

 デジタルコンテンツは,収集からコレクションの分析・公表の段階へと進みつつある。収録点数が1,500万を突破したHathiTrustの取組みを参照する意義は大きいと思われる。今後の動向に注目したい。

調査及び立法考査局議会官庁資料課・松本裕子

Ref:
http://www.hathitrust.org/files/FederalDocumentsCollectionProfile.pdf
https://www.hathitrust.org/usgovdocs
https://www.hathitrust.org/blogs/perspectives-from-hathitrust/federal_documents_collective_collection
http://rnavi.ndl.go.jp/politics/entry/USGOV-sudoc.php
https://www.hathitrust.org/usgovdocs_registry
https://www.hathitrust.org/access_use
https://www.btaa.org/home
https://www.hathitrust.org/15-million-items-hathitrust
CA1760