英国の研究プロジェクト“Living With Machines”開発のツール“Press Picker”のソースコードが公開:英国図書館(BL)所蔵新聞コレクションの概要をタイトル変遷・資料フォーマットの相違に対応して可視化

2021年3月8日、英国図書館(BL)及び英国内の大学・研究機関による共同研究プロジェクト“Living With Machines”は、プロジェクトで開発したツール“Press Picker”のソースコードを公開したことを発表しました。

“Living With Machines”は、第一次産業革命が19世紀を中心に人々へ与えた影響を、データサイエンス・人工知能(AI)・デジタル人文学の方法論を活用して探求する研究プロジェクトとして、2018年に開始しました。英国研究イノベーション機構(UKRI)による5年間の助成の下、BL、及びデータサイエンスとAIの研究機関としてBL内に本部が設置されているアラン・チューリング研究所が中心に取り組んでいます。

同プロジェクトは、BLが所蔵する当時の新聞資料について、デジタル化が未完了の資料群のデジタル化を計画していますが、分量が非常に多い上に、発行時期による頻繁なタイトルの変遷や、資料フォーマット(原紙またはマイクロフィルム)の相違が、全体像の把握を困難としています。“Press Picker”はこのような背景の下、効率的な新聞資料のデジタル化を進めるために、BLの新聞コレクションの概要を把握するツールとして開発されました。

“Press Picker”は、PythonのJupyter Notebook環境で開発されました。新聞資料の所蔵に関するメタデータの前処理・フィルタリングを行うプログラムや、処理済データを可視化するプログラムなどで構成されています。同ツールにより、タイトル・資料フォーマットごとの所蔵数を年代別に折れ線グラフで表示することで、BL所蔵の新聞コレクションの概要を可視化することができます。ツールのソースコードはGitHub上で公開されています。

Press Picker code published(Living With Machines,2021/3/8)
https://livingwithmachines.ac.uk/press-picker-code-published/

Living-with-machines/PressPicker_public(GitHub)
https://github.com/Living-with-machines/PressPicker_public

関連:
The Alan Turing Institute to spearhead new cutting-edge data science and AI research after £48 million government funding boost(The Alan Turing Institute,2018/12/18)
https://www.turing.ac.uk/news/alan-turing-institute-spearhead-new-cutting-edge-data-science-and-ai-research-after-ps48-million

Press Picker: visualising formats and title name changes in the British Library’s newspaper holdings(Living With Machines,2020/8/5)
https://livingwithmachines.ac.uk/press-picker-visualising-formats-and-title-name-changes-in-the-british-librarys-newspaper-holdings/

参考:
CA1750 – 英国とオランダの国立図書館にみる新聞資料デジタル化プロジェクト / 佐々木美穂
カレントアウェアネス No.309 2011年9月20日
https://current.ndl.go.jp/ca1750

英国図書館(BL)、18世紀以降の400万ページのデジタル化新聞を全文検索・閲覧できる“The British Newspaper Archive”を公開
Posted 2011年11月29日
https://current.ndl.go.jp/node/19619

British Newspaper Archiveの検索対象が1,000万ページを突破
Posted 2015年2月19日
https://current.ndl.go.jp/node/28015