【流 通】静岡県の自治体資料PDFを自動収集するシステム開発

Geolocation Technologyは静岡県立中央図書館と共同で、地域資料収集の一環として静岡県内の自治体Webサイトにアップロードされた要項・要領、広報誌、行政資料等の自治体資料のPDFを自動収集するシステムを開発した。

従来、自治体資料は紙媒体で発行されており、図書館はこれらを地域資料として収集、整理、保存、提供してきた。静岡県立中央図書館における自治体資料の納本は、県の他部署向けには要綱を定め、市町向けには文書を通じて依頼してきた。一方、昨今では自治体が自らのWebサイトを持つことが珍しくなくなり、Webサイトに自治体資料をアップロードするのみで、紙媒体の発行は行わない例も多くなり、紙媒体として発行された自治体資料を対象とした従来の要綱及び文書において、Webサイトにしかない自治体資料は納本の対象外となっていた。

このことについて静岡県立中央図書館では人手による収集を行ってきたが、収集漏れや職員の負担の削減と効率化を図り図書館のDX化を推進するため、静岡県立中央図書館とGeolocation Technologyは共同でWebサイトクローリングシステムを開発した。

今回開発されたWebサイトクローリングシステムは、静岡県内の自治体Webサイトを対象とし、ドメイン内に格納されているPDFを自動かつ定期的に巡回し、情報を取得・保存(以下 クローリング)する。収集したPDFはGoogle Driveで収集した日付毎に、収集元のドメインと同じディレクトリ構造で保存・管理される。

初回のクローリングでは、その時点におけるクローリング範囲内にあるPDFを全て収集し、2回目以降は前回との差分ファイル(含む更新)を収集する。さらに収集したPDFの保管名称を一定の規則に沿って自動で変換するリネーム機能を実装し、人手による作業を極力減らし、膨大なデジタル文書の収集を効率的に行うことができる。


・製品名および会社名などは、各社の商標または登録商標です