デジタル人文学

イタリア・ボローニャ大学図書館、故ウンベルト・エーコ氏の書斎での排架通りに旧蔵書を排架するスペースを館内に設置へ:バーチャルなデジタルライブラリーも計画

2021年6月17日付けのイタリア・ボローニャ大学の機関紙(オンライン)UniboMagazineが、同大学の元教授で作家・哲学者・記号学者の故ウンベルト・エーコ氏の書斎(Library)の雰囲気を再現したスペースを同大学の図書館に設置するプロジェクトが発表されたと報じています。

同館の「20世紀翼棟(20th-century wing)」内に、張り出し通路(walkaway)で2層に分けられた白い書架を設置し、同氏のミラノの自宅の白い高書架での排架場所を参照して図書を排架するとしており、閲覧室を設け、専門職員も配置されます。加えて、情報可視化システムにより新たな分析手法の構築を促すデジタルライブラリー“ECO'S DIGITAL MODERN LIBRARY”も計画されており、物理的な構成(書架)と意味的な構成(図書の排架場所から想起される概念のネットワーク)双方で3Dビューアーのアプリを通じてアクセスできるとしており、ウンベルト・エーコの思想を物理的にもデジタル的にも探究できると説明されています。

米国議会図書館(LC)、同館のコレクションを活用したデジタル人文学研究を支援する“Computing Cultural Heritage in the Cloud”プロジェクトの開始を発表

2021年6月17日、米国議会図書館(LC)が、“Computing Cultural Heritage in the Cloud”プロジェクトの開始を発表しています。

同プロジェクトは、LCのコレクションと最先端の技術を組み合わせた大規模なデジタル人文学研究を支援するものです。アンドリュー W.メロン財団からの100万ドルの助成を受けて、デジタル人文学・コンピュータ科学の3人の研究者と同館の主題専門家・技術専門家が協力して以下の取組を行います。

・Lincoln Mullen氏(ジョージ・メイソン大学美学美術史学部准教授)
同館のコレクション全体から聖書の引用箇所を検出する“America’s Public Bible: Machine-Learning Detection of Biblical Quotations Across LOC Collections via Cloud Computing”

人文学オープンデータ共同利用センター(CODH)、「ARC浮世絵顔データセット」を公開

2021年6月7日、人文学オープンデータ共同利用センター(CODH)が、「ARC浮世絵顔データセット」を公開したと発表しました。

Google Brain TokyoのYingtao Tian氏らの共同研究グループにより、機械学習を用いて浮世絵から顔領域を自動抽出して作成されたデータセットです。立命館大学アート・リサーチセンター(ARC)が国立情報学研究所(NII)の情報学研究データリポジトリ(IDR)で公開している「立命館ARC所蔵浮世絵データベース」が対象であり、2021年6月時点のデータ件数は9,203件の浮世絵画像から抽出された1万6,653件です。

データセットは、クリエイティブ・コモンズ・ライセンスのCC BYで提供されています。また、データセットの他、データをダウンロードし分析するスクリプトも提供されています。

デジタル浮世絵研究(CODH)
http://codh.rois.ac.jp/ukiyo-e/
※「更新情報」に2021年6月7日付で「ARC浮世絵顔データセットを公開しました。」とあります。

香港中文大学図書館が開催した中国古典籍のOCRコンテスト(記事紹介)

台湾・中央研究院デジタル文化センターは、2021年5月5日付けのお知らせで、香港中文大学図書館が開催した中国古典籍のOCRコンテスト「中国古籍文字自動識別挑戦2021」(2021 Chinese Classic Text OCR Challenge)において優勝したことを報告しています。

同コンテストは、2021年3月、10日間にわたりオンラインで開催されました。毎日アップロードされる50枚の古典籍画像に対し、各チームでOCR処理を行った上、一時間以内に認識結果をアップロードするという手順で行われました。文字及びレイアウト認識の正確性が評価対象であり、同センターのチームが91%の認識率で優勝しました。

参加チームの総数は、中国大陸から13チーム、香港から5チーム、台湾から4チーム、米国から1チームの計23チームであり、所属でみた内訳では、学界関係が13チーム、ビジネス界関係が6チーム、その他が4チームでした。全参加チームのうち、90%以上の認識率であったのは同センターのチームのみでした。

国文学研究資料館、「データ駆動による課題解決型人文学の創成プロジェクト」のウェブサイトを開設

2021年4月1日、国文学研究資料館が、「データ駆動による課題解決型人文学の創成プロジェクト」のウェブサイトを開設していました。

同プロジェクトは、「日本語の歴史的典籍の国際共同研究ネットワーク構築計画(歴史的典籍NW事業)」の後継です。文部科学省の「学術研究の大型プロジェクトの推進に関する基本構想ロードマップの策定ーロードマップ2020ー」の一環として、2020年9月に策定されました。

人文学分野の研究を他分野と共有するためにデータ駆動型に再構築し、データインフラストラクチャーを築き、他分野と協働し課題解決型の人文学研究を創成することを目的としています。

実施内容として、以下の項目が挙げられています。

1.データインフラストラクチャーの構築
2.コンテンツ解析からの展開
3.マテリアル分析・解析
4.人文系データ分析技術の開発
5.データ駆動型人文学研究の展開

東京大学総合図書館、「デジタル源氏物語(AI画像検索版)」の公開を発表

2021年4月27日、東京大学総合図書館が、「デジタル源氏物語(AI画像検索版)」の公開を発表しました。

国立国会図書館デジタルコレクションで公開されている『校異源氏物語』を基に、複数の写本・版本の全冊画像を横断的に検索できる機能です。検索対象は、各機関が公開している『源氏物語』へのリンクをまとめた「IIIF対応源氏物語リスト」の内、パブリックドメインか自由利用可能として公開されているものや、所蔵機関の許諾を得られたものです。

検索結果として提示される複数の候補画像から、類似度や人文学オープンデータ共同利用センター(CODH)が開発したくずし字OCRによる翻刻を参考に、利用者自身が必要な画像を選択する仕組みです。なお、類似度は、『校異源氏物語』の本文と、くずし字OCRによる諸本翻刻を照合し算出されています。

@UTokyo_GenLib(Twitter, 2021/4/27)
https://twitter.com/UTokyo_GenLib/status/1386933140283822080

渋沢栄一記念財団情報資源センター、「渋沢栄一ダイアリー」の公開を発表

2021年4月23日、公益財団法人渋沢栄一記念財団情報資源センターが、「渋沢栄一ダイアリー」を公開したと発表しています。令和2(2020)年度国立歴史民俗博物館総合資料学奨励研究「TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築と活用」で実施された、『渋沢栄一伝記資料』別巻第1、第2のテキストをTEI (Text Encoding Initiative) のガイドラインに沿って構造化する共同研究の成果として公開されたものです。

「渋沢栄一ダイアリー」では、『渋沢栄一伝記資料』別巻の第1、第2に収録されている渋沢栄一の「日記」「集会日時通知表」(予定表)の閲覧や検索、カレンダー表示に加え、他情報源とのリンクを用いた原本の概要紹介、登場人物のネットワーク表示、地名の地図上でのマッピングなども研究の一環として試みられています。

今後改善をおこなって、サイトの内容およびデータを変更する場合があるとしています。

また、研究成果であるTEI/XML形式の全文テキストをはじめ、同サイトの構築に用いられたソースは、同財団がデジタル・リソースの公開や、外部の研究者と連携して実験的なサービスの研究・開発を行うためにGitHubに開設した「渋沢栄一記念財団デジタル・ラボ」において「CC BY 4.0」で公開されています。

E2372 - 2020年度NDLデジタルライブラリーカフェ<報告>

ディスカッションでは,データの利用拡大には,流行や時事によらず多様に使える汎用的なオープンデータセットの提供や,巨大で多様なデータの統合的な分析に使えるように,メタデータへの日本十進分類法(NDC)による分類付与やData Catalog Vocabulary(DCAT)等の標準的な語彙とWARPからの出力項目との対応表の作成・公開が有効等の意見があった。

人文学オープンデータ共同利用センター(CODH)、「篆書字体データセット」を公開

2021年3月31日、人文学オープンデータ共同利用センター(CODH)が、「篆書字体データセット」の公開を発表しました。

IIIFで公開されている字書・字彙類に記された篆書字体画像の、所在情報とメタデータがまとめられています。発表時点でのデータ規模は、ハーバード大学図書館の“HOLLIS”で公開されている『金石韻府』をはじめとした、7点の資料画像から抽出された篆書体7,681文字種の文字画像データ10万6,447文字です。

データセットは、クリエイティブ・コモンズ・ライセンスのCC BY-SAで提供されています。

ニュース(CODH)
http://codh.rois.ac.jp/news/
※2021年3月31日付で、「篆書字体データセット」の公開に関するお知らせが掲載されています。

篆書字体データセット(CODH)
http://codh.rois.ac.jp/tensho/

佐賀大学地域学歴史文化研究センター、「小城鍋島文庫「日記」資料時系列データベース」を公開

2021年4月1日、佐賀大学地域学歴史文化研究センターが、「小城鍋島文庫「日記」資料時系列データベース」を公開しました。

佐賀大学附属図書館が所蔵する小城鍋島文庫に含まれる複数種類の日記の画像を日付で紐付け、複数種の日記の当該日付の部分を容易に検索・閲覧できるようにしたものです。

クリエイティブ・コモンズ表示 - 非営利 - 継承 4.0 国際(CC BY-NC-SA 4.0)のもと公開されており、記事を時系列で並べたりタイムライン上に可視化したりする用途にLinked Data化された時間情報解析ソフトウェアHutimeのデータセットが活用されているほか、画像はIIIFに対応しています。

@chiikigakusaga(Twitter,2021/4/1)
https://twitter.com/chiikigakusaga/status/1377428607836987395

ページ