E2510 - 地域資料収集としての自治体資料自動収集システムの開発

カレントアウェアネス-E

No.438 2022.07.07

 

 E2510

地域資料収集としての自治体資料自動収集システムの開発

静岡県立中央図書館企画振興課・杉本啓輔(すぎもとけいすけ)

 

  2022年5月,静岡県立中央図書館(以下「当館」)は,地域資料収集の一環として,静岡県内の自治体ウェブサイトにアップロードされた要項・要領,広報誌,行政資料等(以下「自治体資料」)のPDFを自動収集するシステムを県内IT事業者と共同開発したことを発表した。

  本稿では,他の図書館の参考となるよう,開発の背景とシステム概要及びその有用性を記述する。また,このシステムは実証実験的要素が強いため,現状における課題も併せて記述し共有したい。

  なお,このシステムは,2021年度中に当館が行ってきた「図書館DX実証実験」の一部であり,その他の実証実験については,拙稿「静岡県立中央図書館Webサービス拡充事業の事業報告及びその課題」を参照されたい。

●開発の背景

  従来,自治体資料は紙媒体で発行されており,図書館はこれらを地域資料として収集,整理,保存,提供してきた。当館における自治体資料の納本は,県の他部署向けには要綱を定め,市町向けには文書を通じて依頼をしている。

  他方,昨今ではウェブサイトに自治体資料をアップロードし,紙媒体の発行は行わない例も増えてきた。従来の要綱及び文書ではウェブサイトにしかない自治体資料は納本の対象外となっており,情報の更新やサーバ容量等の都合による定期的な削除または非公開化により,自治体資料にアクセスできなくなることが問題となっている。

  このことについて,当館では各ウェブサイトを定期的に目視確認する等,人手による収集を行ってきたが,収集漏れや職員の負担増という課題を抱えていた。

●システム概要

  上述の背景の中,静岡県三島市に所在する株式会社Geolocation Technologyから技術提案を受けて,クローラによる自治体資料自動収集システムを開発した。以下にシステム概要を記載する。

  クローリングの対象は県内の自治体ウェブサイトであり,ドメイン内に格納されているPDFを収集する。収集範囲はドメイン以下5階層目までであるが,5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,リンク先のPDFが収集範囲の対象階層外にあっても収集することとした。一方,外部ドメインへのリンクは収集しないこととした。

  収集したPDFは,Googleドライブで収集した日付ごとに,収集元のドメインと同じディレクトリ構造で,保存・管理される。各ドメインのクローリングについて,初回は,その時点におけるクローリング範囲内にあるPDFを全て収集し,2回目以降の収集は4半期に1回,前回との差分(変更・追加・更新)を収集する。ウェブサイトの特性上,更新や非公開化に伴い閲覧できなくなることを踏まえ,収集したファイルは,最新のものに加えて,以前にバックアップしたデータも保存している。これにより,ファイルがいつ収集されたのかを確認しつつ,非公開になっても参照することが可能である。

  さらに,収集したPDFは2種類のディレクトリで管理している。1つ目は,収集対象すべてのPDFを機械的に保管しているディレクトリであり,もう1つは,それらをリネームしたPDFを保管するディレクトリである。なお,現時点におけるリネーム規則は以下3つである。

  • a)ファイル名が半角3文字以上の場合,リンク元テキストにリネームし,2文字以下の場合はファイル名のままにする。
  • b)リンク元のテキストに「こちら」や「ダウンロード」のいずれかの文言が含まれる場合,リネームせずファイル名のままにする。
  • c)同一のPDFに複数個所からリンクがある場合かつリンク元テキストが同じだった場合,リネームの際に(1),(2)などと連番を付与して保管する。

●有用性

  このシステムの有用性は,主に2点挙げられる。

  1点目は,収集量の多さである。2022年4月末時点で初回のクローリングを終え,収集できたPDFは45万5,133件だった。この量の自治体資料を人手により収集することが困難であることは容易に想像がつく。 

  2点目は,「どこから」,「いつ」収集したPDFか判別しやすいことである。これは収集元のドメインと同じディレクトリ構造かつ世代で管理していることによる。ウェブサイトの更新や非公開化に伴い閲覧することができなくなる恐れがある自治体資料を,網羅的に収集し構造的に保存・管理できることは地域資料アーカイブの観点から見ても有用といえる。

●課題と今後の予定

  以上のように,収集が難しかったウェブサイト上の自治体資料の収集可能性を高めたこのシステムは,地域資料収集という公共図書館が果たすべき役割を全うする一助たり得るだろう。

  他方,このシステムを実装レベルとするにあたり課題もある。特に,収集した自治体資料を用いたサービスの開発及びそれを実施する前提となる目録作成に関して課題がある。膨大な自治体資料に対し,適切な目録を作成することは容易ではない。実のところ,現状において,このシステムは地域資料の収集と保存のためには有用であるが,整理と提供にまでは及んでいない。今後,こうした課題を受け止め,解決方法を模索していきたい。また,差分収集したPDFを中心に順次目録作成を行い,デジタルライブラリー「ふじのくにアーカイブ」で公開していく予定である。

Ref:
“@shizuokaken_lib”. Twitter. 2022-05-18.
https://twitter.com/shizuokaken_lib/status/1526791553544425472
杉本啓輔. 静岡県立中央図書館Webサービス拡充事業の事業報告及びその課題:図書館 DX 実証実験を中心に. 専門図書館. 2021, (307), p. 26-31.
株式会社Geolocation Technology.
https://www.geolocation.co.jp