デジタル人文学

英国図書館、インドの貴重書や冊子体目録の自動テキスト化を目的としたコンペティションを開催

2017年3月22日、英国図書館(BL)が、同館の“Two Centuries of Indian Print”プロジェクトで現在デジタル化中のインドの貴重書や冊子体目録の、正確で自動でのテキスト化の方法を見つける事を目的としたコンペティションを開催すると発表しています。

米・スタンフォード大学のPRIMA Research Labと連携し、2017年11月10日から15日にかけて京都で開催される第14回文書解析・理解国際会議(International Conference on Document Analysis and Recognition:ICDAR)において行なうもので、優勝者は会議中に発表されるとのことです。

課題は2つあり、1つ目は、ベンガル語で書かれた19世紀の印刷本の自動テキスト化で、2つ目は、1867年から1967年までにインドで出版された図書が出版地や価格とともに記載されている“Quarterly Lists”と呼ばれる冊子体目録の自動テキスト化です。

画像を解析して類似する文字画像を表示する「木簡・くずし字解読システム―MOJIZO―」のスマホ・タブレット版が公開

2017年3月17日、奈良文化財研究所と東京大学史料編纂所が、画像を解析して類似する文字画像を表示する「木簡・くずし字解読システム―MOJIZO―」のスマホ・タブレット版を公開したと発表しています。

レスポンシブウェブデザインに対応したもので、あわせて、韓国語、中国語(簡体字・繁体字版)、英語による利用方法や凡例などのpdfファイルをトップ画面に掲載したとのことです。

「木簡・くずし字解読システム-MOJIZO-」スマホ・タブレット版の公開および外国語案内の追加に関するお知らせ(奈良文化財研究所,2017/3/17)
http://hdl.handle.net/11177/6283

木簡・くずし字解読システム-MOJIZO-
http://mojizo.nabunken.go.jp/

国立国語研究所、「国語研日本語ウェブコーパス」の検索系「梵天」を一般公開

2017年3月7日、国立国語研究所(国語研)が、「国語研日本語ウェブコーパス」の検索系「梵天」を一般公開しました。

「国語研日本語ウェブコーパス」は、ウェブ(WWW)上の日本語テキストを利用して現代日本語コーパスを構築したもので、稀言語現象の言語学的、心理学的および情報処理的視点からの究明の可能性を開くことを目的としており、検索系「梵天」に格納して公開されました。

一般公開版の利用者は、文字列検索のみが可能で、インデックス情報のダウンロードなどはできないほか、利用規約に同意する必要があります。

その他、高機能版もあり、品詞列検索・係り受け検索が利用でき、インデックス情報などがダウンロードできますが、利用するためには、利用規約への同意、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」のアカウントの保持と半年以上の利用経験、国語研が開催する「梵天」講習会への参加、が必要です。

富士通、教師データ数を削減できる深層学習技術を開発、中国古文書の文字認識において学習用の教師データを削減

2017年2月21日、富士通研究開発中心有限公司は、中国古文書文字の文字認識に用いる深層学習技術において、少ない数の学習データでも高精度な文字認識を実現できる技術を開発しました。

この技術により、図書館などに大量に保管されている古文書文字の電子化を促進し、中国古文書の公共利用と歴史研究などの学術の発展に貢献することができるとのことです。

教師データ数を削減できる深層学習技術を開発
中国古文書の文字認識において学習用の教師データを70%削減(富士通株式会社、2017/2/21)
http://pr.fujitsu.com/jp/news/2017/02/21.html

欧州研究図書館協会、デジタル・ヒューマニティーズに関するワーキンググループを立ち上げ

2017年2月3日、欧州研究図書館協会(LIBER)が、デジタル・ヒューマニティーズに関するワーキンググループ(WG)を立ち上げたことを発表し、参加を呼びかけています。

LIBERでは、デジタル・ヒューマニティーズにおいて、図書館が中心的役割を果たすと、2018-2022年の戦略方針案で言及しており、WGでは、2年間の活動の中で、欧州でのデジタル・ヒューマニティーズについての図書館の知識ネットワークの構築に焦点をあて、欧州の研究図書館とデジタル・ヒューマニティーズとの関係を強化することを目指しています。

芸術・人文諸科学のための電子研究インフラ構築プロジェクトDARIAH(Digital Research Infrastructure for the Arts and the Humanities)内にも、対応するWGが設置される予定で、お互いに連携・協力する計画になっています。

LIBER Launches Digital Humanities Working Group(LIBER,2017/2/3)
http://libereurope.eu/blog/2017/02/03/liber-launches-digital-humanities-working-group/

DARIAH
http://www.dariah.eu/

参考:

【イベント】第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜(2/10・東京)

2017年2月10日、国立情報学研究所(NII)で、第2回CODHセミナー「くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜」が開催されます。

くずし字を読むというチャレンジに対して機械によるアプローチと人間によるアプローチを用いた研究について、研究者がこれまでの研究の紹介と今後の展望について語ります。

参加費は無料、定員は約40名です。事前の申込が必要です。

13:00-13:25
NIJL-NWプロジェクト―くずし字読解への課題と期待
山本 和明、国文学研究資料館

13:25-13:50
日本古典籍字形データセットの公開と活用への期待
北本 朝展、人文学オープンデータ共同利用センター/国立情報学研究所

13:50-14:15
電子くずし字字典データベースにおける現状と展望
山田 太造、東京大学史料編纂所

14:15-14:40
木簡文字への文字認識技術の応用
耒代 誠仁、桜美林大学

14:40-15:05
くずし字の学習支援と市民参加翻刻
橋本 雄太、京都大学

15:05-15:20
全体討論
全員

第2回CODHセミナー くずし字チャレンジ 〜機械の認識と人間の翻刻の未来〜(CODH)

【イベント】第1回CODHセミナー Big Data and Digital Humanities(1/23・東京)

2017年1月23日、国立情報学研究所(NII)で、「第1回CODHセミナー Big Data and Digital Humanities」が開催されます。

主催は、情報・システム研究機構データサイエンス共同利用基盤施設の人文学オープンデータ共同利用センター(CODH)です。九州大学統合新領域学府ライブラリーサイエンス専攻などが協賛しています。

プログラムは、次のとおりです。

・10:00-10:40
Center for Open Data in the Humanities (CODH): Activities and Future Plans
Dr. Asanobu KITAMOTO, National Institute of Informatics / CODH
・10:40-11:20
Midwest Big Data Hub: Accelerating the Big Data Innovation Ecosystem
Dr. Melissa Cragin, University of Illinois at Urbana-Champaign
・11:20-12:00

【イベント】九州大学ライブラリーサイエンス専攻シンポジウム「オープンデータとデジタルヒューマニティーズ」(1/18・福岡)

2017年1月18日、九州大学中央図書館にて、同大学統合新領域学府ライブラリーサイエンス専攻主催のシンポジウム「オープンデータとデジタルヒューマニティーズ」が開催されます。同シンポジウムでは人文学における研究データに着目し、大学における研究データのオープン化、データキュレーション、データキュレーターについて、米国における先進事例を紹介した上で、日本の大学における適用について議論するとのことです。

参加費は無料ですが、オンラインでの参加申込みが必要です。申込締切は2017年1月13日です。

ライブラリーサイエンス専攻シンポジウム「オープンデータとデジタルヒューマニティーズ」(1/18)(九州大学附属図書館)
https://www.lib.kyushu-u.ac.jp/ja/event/symposium_20170118

オーストラリア、今後10年間の研究基盤開発の優先事項をまとめたロードマップの草案を発表

オーストラリアの教育省(Department of Education and Training)が、今後10年間の研究基盤開発の優先事項について定めた“2016 National Research Infrastructure”の草案を2016年12月5日に公開したことを受け、オーストラリア図書館協会(ALIA)が、その草案について紹介しています。

草案では、地域や産業界に利益をもたらしながら、既存のパラダイムを転換させるような研究を推進することができる9つの重点分野の研究基盤に焦点があてられ、人文・社会科学分野のプラットホームでは、“Atlas of Living Australia”及びオーストラリア国立図書館(NLA)の“Trove”が単一分野のアプローチを超えた良い事例として言及されているとのことです。

また、コレクションのデジタル化手段の調整と、既存のプラットフォームやデジタルコレクションの国際的な相互運用可能性の保証の必要性が指摘されていることや、先住民研究や、オーストラリアの文化財を活用できるプラットフォームの調整など、人文・社会科学分野での統合や調整について改善が求められていることが紹介されています。

草案へのコメントが、2017年1月16日まで求められています。

HathiTrust、約1,370万件のデジタル化資料中に含まれる50億ページ、2兆語超のデータから抽出した特徴データセットを公開

2016年12月5日、HathiTrustはHathiTrust Digital Library(HTDL)に含まれるデジタル化資料約1,370万件から抽出した特徴データセット、”HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset”のバージョン1.0を公開しました。

このデータセットはHTDL内の各資料、各ページにおける語数、行数、品詞やその他の詳細事項に関する量的データを含んでおり、16~20世紀に発行された資料を対象に、歴史的・文化的トレンドの推移やあるトピックの隆盛、ある語の発生・浸透の過程等の調査に用いることができます。対象となるページ数は50億ページ以上、対象語数は2兆語以上に及びます。

Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset(HathiTrust、2016/12/5付け)
https://www.hathitrust.org/extracted-features-announcement

HTRC Extracted Features Dataset

ページ