Internet Archive

Internet Archive(IA)、100万枚以上のアルバムのカバー画像を提供

Internet Archive(IA)が、100万枚以上のアルバムのカバー画像を提供しています。

これはコレクションのデータを利用してもらうためにIAが実験的に抽出したもので、データのキュレーションや品質の確認、重複の削除などは行われていません。

このデータセットにはjpg、png、gifの各形式のファイルが含まれ、サイズは合計で148GBに及びます。データセットの提供はtar形式で行なわれており、ファイル名の頭文字ごとにアーカイブファイルが作成されています。小さいものでは、292MBのアーカイブファイルがあります。

このデータセットは画像処理などでの研究利用が想定されており、アルバム認識ソフト、顔・テキスト認識、カバーの配色の分析などの研究が期待されています。

Internet Archive(IA)、CADALと連携して50万冊の学術書をデジタル化

Internet Archive(IA)は、2015年4月15日、中国の70以上の大学図書館のコンソーシアムであるChina Academic Digital Associative Library(CADAL)と連携して、50万冊の学術書をデジタル化すると発表しています。2009年に開始された、100万冊の書籍の本文をパブリックドメインで公開する”The China-US Milion Book Sifital Library Project”を前進させるとのことです。

CADALは、各図書館へのアクセス、デジタル化した書籍を中国で表示するための技術、デジタル化に必要な人員などを提供し、IAはデジタル化する書籍を選び、デジタル化処理に必要な機材などを提供するとのことです。

Internet Archive and CADAL Partner to Digitize 500,000 Academic Texts(IA,2015/4/15)
http://blog.archive.org/2015/04/15/internet-archive-and-cadal-partner-to-digitize-500000-academic-texts/

参考:

Internet Archive(IA)が米国デジタル公共図書館(DPLA)と協力、コレクションの充実へ

2015年3月30日、米国デジタル公共図書館(DPLA)とInternet Archive(IA)がコレクションの充実に向けた協力プログラムを行うと発表しています。IAは、図書館やコンテンツプロバイダに対し、それぞれのコンテンツのメタデータがDPLAの要求仕様を満たすよう、支援を行うとのことです。

Sharing Data for Better Discovery and Access
http://dp.la/info/2015/03/30/sharing-data-for-better-discovery-and-access/

Sharing Data for Better Discovery and Access
http://blog.archive.org/2015/03/30/sharing-data-for-better-discovery-and-access/

参考:
米国デジタル公共図書館(DPLA)のメタデータ・アプリケーション・プロファイル(MAP)のバージョン4.0が公開
Posted 2015年3月6日
http://current.ndl.go.jp/node/28115

E1646 - 米国デジタル公共図書館(DPLA)戦略計画2015-2017
カレントアウェアネス-E No.274 2015.01.22

Internet Archiveが新しいホームページ(ベータ版)を公開

2014年10月28日、Internet Archiveが新しいホームページ(ベータ版)を公開しています。

あわせて、新しいツールを開発することについても発表しています。
あらゆるメディアを基盤とするコミュニティが、彼ら自身のコレクションを長期間に渡って構築できること等を支援するためのツールのようです。

Building Libraries Together: New Tools for a New Direction
(Internet Archive Blogs,2014/10/28)
http://blog.archive.org/2014/10/28/building-libraries-together/

参考:
Internet ArchiveのWayback Machineがリニューアル
Posted 2013年10月29日
http://current.ndl.go.jp/node/24694

“Archive-it”を利用したヴィクトリア大学のウェブアーカイブの事例(文献紹介)

Code4Lib Journal誌のIssue 26(2014年10月21日掲載)に、“Archiving the Web: A Case Study from the University of Victoria”と題する記事が掲載されています。ヴィクトリア大学がInternet Archiveの提供するサービス“Archive-it”を利用してウェブアーカイブを行った事例を紹介するもので、大学図書館において、ウェブアーカイブを構築する際の法的、技術的な課題についてまとめたものとのことです。

Archiving the Web: A Case Study from the University of Victorias(code 4 lib)
http://journal.code4lib.org/articles/10015

米国デジタル公共図書館(DPLA)、米国政府印刷局(GPO)、Medical Heritage Libraryと連携

米国デジタル公共図書館(DPLA)が他機関との連携を活発に行い、検索できるコンテンツを増やしています。

2014年9月16日に、DPLAは米国政府印刷局(GPO)の政府刊行物の目録検索サイト(Catalog of U.S. Government Publications:CGP)と連携し、DPLAから連邦政府の予算や法律、規則、議会の公聴会、レポートや文書などの連邦政府の情報15万件が検索できるようになったとのことです。

同じく9月16日に、Internet ArchiveのMedical Heritage Library(医学遺産図書館)と連携し、22の大学、専門、公共図書館の特別コレクションからデジタル化した、医学史、公衆衛生、生物医科学、大衆薬などに関する貴重書、雑誌、録音資料、映像資料、エフェメラなど約6万件の資料がDPLAからも検索できるようになったとのことです。

また、9月5日には、イリノイ州立公共図書館がDPLAのService Hubとなるための準備を進めていると発表しています。

GPO PARTNERS WITH DIGITAL PUBLIC LIBRARY OF AMERICA TO INCREASE ACCESS TO GOVERNMENT INFORMATION(GPO, 2014/9/16)

Internet Archive、260万枚以上の挿絵画像をFlickr Commonsで公開

2014年8月29日、Internet Archiveが、260万以上の画像を写真共有サイトFlickr Commonsで公開しました。これらはInternet Archiveがデジタル化した200万以上のパブリック・ドメインの電子書籍に掲載されている1400万以上の挿絵画像の一部で、Internet Archiveは今後さらに画像を追加していく予定とのことです。

Internet Archive Book Images (flickr)
https://www.flickr.com/photos/internetarchivebookimages/with/14784850762/

Millions of historic images posted to Flickr (Internet Archive Blogs, 2014/8/29)
https://blog.archive.org/2014/08/29/millions-of-historic-images-posted-to-flickr/

Welcome the Internet Archive to The Commons(flickr blog, 2014/8/29)

TPPの著作権法に関連する動きに対し、交渉関係者宛てに公開書簡:EFF、Creative Commons、図書館関連団体等

TPPの著作権法に関連する動きに対して、2014年7月9日付けで、書簡が公開されています。電子フロンティア財団(Electronic Frontier Foundation:EFF)のウェブサイトに掲載された情報によると、著作権保護期間延長に関するものと、仲介者の責任に関するものの、2種類の書簡があります。

著作権保護期間延長に関する書簡については、北米研究図書館協会(ARL)、カナダ図書館協会(CLA)、オーストラリア図書館協会(ALIA)等の図書館関連団体や、Internet Archive、Creative Commons、Wikimedia Foundation、EFFなどの連名となっています。

また、EFF等に掲載された情報では“Our Fair Deal”キャンペーンの一環でもあるようです。“Our Fair Deal”は、ウェブサイトによるとTPPを通じて著作権法を変えようとする動きを牽制するためのもので、ニュージーランドで開始され、その後拡大しているとのことです。ニュージーランド図書館協会(LIANZA)やALIAなども中核的な組織メンバーとして掲載されています。

書簡
Letter on TPP Copyright Term Extension Proposals

Internet ArchiveのWayback Machine、収集したウェブページは4,000億件に

2014年5月9日付のInternet Archive Blogで、ウェブアーカイブWayback Machineでインデキシングされているウェブページが4,000億件を超えたと紹介されています。あわせて、1996年のInternet Archive設立当初から収集されてきたウェブサイトや、Wayback Machineの主な出来事の簡単な紹介などが掲載されています。

Wayback Machine Hits 400,000,000,000!(Internet Archive Blog 2014/5/9付け)
https://blog.archive.org/2014/05/09/wayback-machine-hits-400000000000/

Wayback Machine
http://archive.org/web/

関連:
Internet Archive “Wayback Machine”(WARP 世界のウェブアーカイブ(おすすめコンテンツ))
http://warp.da.ndl.go.jp/contents/reccommend/world_wa/world_wa02.html

参考:
Internet ArchiveのWayback Machineがリニューアル
Posted 2013年10月29日

米国のTVニュースで言及されている地域はどこか:Internet Archiveの40万時間分のニュースを解析

Internet Archiveに蓄積されている米国のTVニュースのデータを用い、TVニュースにおいて、いつ、どの地域が言及されているのかを地図上で視覚的に示す試みが、Internet Archive Blogで紹介されています。説明によると、クローズドキャプション (closed captioning、字幕テキストデータ) から言及されている世界の地域を抽出し、その前後の情報からあいまいさをなくすようにし、それらを地図上に表示したものとのことです。各ポイントをクリックすると、該当する実際のニュース番組を表示することができるようにもなっています(“TV News Search & Borrow”にリンク)。

4年分のデータのアニメーションと、テレビ局ごとに表示することが可能な地図の2種類が公開されています。

なお、同じ地名など、正確にコーディングされていない部分もあり、エラーも多いようです。

Mapping 400,000 Hours of U.S. TV News(Internet Arhive blog, 2013/12/13付け)
http://blog.archive.org/2013/12/13/mapping-400000-hours-of-u-s-tv-news/

Watch 4-Year Animation

ページ