CA2022 – 動向レビュー:デジタルアーカイブにおけるクラウドソーシング:海外の事例から / 菊池信彦

PDFファイル

カレントアウェアネス
No.352 2022年06月20日

 

CA2022

動向レビュー

 

デジタルアーカイブにおけるクラウドソーシング:海外の事例から

国文学研究資料館:菊池信彦(きくちのぶひこ)

 

1.はじめに

 近年、デジタルアーカイブではクラウドソーシングという手法が用いられるようになってきた。デジタルアーカイブにおけるクラウドソーシングとは、インターネットユーザを募って、デジタルアーカイブの資料の提供を求めたり、デジタル資料を利用した翻刻やメタデータの入力あるいは修正等に協力してもらったりする手法を意味する。これは、デジタルアーカイブを提供する図書館等の文化機関にとって、データの充実化に役立つと同時に、利用者に対して資料と学習機会を提供するものでもある。だが、クラウドソーシングは、文化機関の新たなサービスとしてあるだけではない。むしろデジタル人文学(DH)やパブリックヒューマニティーズ等の研究手法やテーマとして(1)、シチズンサイエンスやオープンサイエンス等の実践活動として、クラウドソーシングは多方面に関わり、また、論じられてきた。

 本稿は、特に海外のデジタルアーカイブにおけるクラウドソーシングの事例をたどりながら、実践にあたってのポイントに絞って動向を紹介する。なお、筆者がDHを専門としている関係上、取り上げる事例も主に人文系資料を扱うプロジェクトに偏っているので、あらかじめご容赦いただきたい。

 

2.クラウドソーシングのこれまで

2.1 事例でたどるクラウドソーシング小史

 研究者以外の市民に協力を得て研究活動を進めるというのは、すでに19世紀には存在していたものであり、特に目新しいというものではない。同様に、デジタルアーカイブにおいても、市民に協力を求めるクラウドソーシングという手法自体は、デジタルアーカイブの誕生当初から採用されていた。例えば、1993年に公開され、デジタルヒストリーの初期事例としてしばしば言及される“The Valley of the Shadow”(2)は、南北戦争期の南軍と北軍に分かれた隣り合う2つの地域の資料を集めたプロジェクトである。この資料収集にあたっては、図書館等の文化機関はもとより地域住民にも資料提供が呼びかけられており、いわば一種のクラウドソーシングの手法がとられたことが知られている(3)(図1)。

 

図1 The Valley of the Shadow内オーガスタ郡の個人文書のページ(一部)。ページトップの説明書きには、「このページから、南北戦争以前の数年間におけるバージニア州オーガスタ郡の人々が保管していた書簡や日記、会計簿、その他個人文書へアクセスできます」とある。

 

 2000年代に入ると、現在のような形でオンラインでのクラウドソーシングが登場した。その事例としては、たとえば米・ジョージ・メイソン大学のロイ・ローゼンツヴァイク歴史・ニューメディアセンター(RRCHNM)等による“September 11 Digital Archive”を挙げることができる(4)。これは、2001年9月11日の米国同時多発テロ事件をきっかけに構築されたプロジェクトで、一般市民から9.11に関する記録の投稿を受け付け、それを保存、公開するものである。“September 11 Digital Archive”は、この種の市民参加型デジタルアーカイブとしては最初期の事例であり、2003年には米国議会図書館(LC)がデジタルコレクションとして受け入れを表明した初めてのケースとなった(5)

 もちろんオンラインでのクラウドソーシングがスタートしたからと言って、物理的な資料が捨て置かれたわけではない。2008年に英・オックスフォード大学が行ったプロジェクト“Great War Archive”では、地域住民の家庭内に眠っている第一次世界大戦期の資料を持ち寄ってもらい、それをデジタル化して収集するという取り組みが行われた(6)。この「家庭内の資料を持ち寄ってデジタル化する」という手法は、米国ではネブラスカ大学リンカーン校が学生主導の教育プログラムとして始めた“History Harvest”という名称で知られており(7)、地域住民との協働デジタルアーカイブでは広く行われているものである(8)

 2010年には、クラウドソーシングの成功事例として特に参照される次の2つのプロジェクトがスタートしている。一つ目が、英・ユニバーシティ・カレッジ・ロンドン(UCL)のベンサム・プロジェクトが立ち上げた“Transcribe Bentham”である(9)(図2)。これは、18-19世紀前半の思想家ベンサムの手稿資料を共同で翻刻するプロジェクトで、クラウドソーシングにおける翻刻実践の一つのモデルとなっている。

 

図2 “Transcribe Bentham”翻刻画面。画面右の資料画像を確認しつつ、左側に翻刻を入力することができる。画面下には資料のメタデータが表示されている。

 

 もう一つが“Old Weather”(10)である。これは、クラウドソーシングプラットフォームであるZooniverse(11)で提供されているプロジェクトであり、ここでユーザは19世紀から20世紀初頭の航海日誌から過去の天気情報を抽出すべく、共同で翻刻を行う。また、Zooniverse自体も天体写真に写る銀河の形をユーザに分類してもらうクラウドソーシングプロジェクトとして2007年に誕生した“Galaxy Zoo”(12)というプロジェクトを前身としており、その成功を受け、天文学に留まらず自然科学から人文・社会科学に至るまで幅広くプロジェクトを構築、提供するためのプラットフォームにまで成長したものである。なお、“Galaxy Zoo”はZooniverseで現在も継続中である。

 

2.2 多様化するクラウドソーシング

 上記2つの事例が登場する以前、クラウドソーシングは資料収集の方法として論じられる傾向があったが(13)、2010年代以降その方法は拡大していった。2012年(14)と2018年(15)の2回に分けてまとめられた人文学におけるクラウドソーシングの実態調査によると、クラウドソーシングの方法はタイプ別に次表のようになるという。著者のヘッジス(Mark Hedges)らによると、多いのはやはり「翻刻」とのことだが、表からは基礎的なデータの作成から資料に対する深い理解が必要となる解釈に関わるようなテーマにまで、クラウドソーシングの多様化が窺える(16)

 

表 人文学におけるクラウドソーシングの方法的分類

翻刻*
コンテンツの修正
共同タグ付け
分類分け
カタロギング
リンク作成
文脈付け
レコーディングとコンテンツ作成
コメント付け、批評、関心の表明
マッピング
ジオリファレンス
翻訳

*このカテゴリにはTEI/XML等のマークアップ作業を含む。
出典:Hedges, Mark; Dunn, Stuart. Academic Crowdsourcing in the Humanities. Chandos Publishing, 2018. p. 30掲載の表を筆者が翻訳したもの。

 

 一方、2020年に公表されたEuropeana Proによるレポートでは、研究機関だけでなく文化機関によるクラウドソーシングプロジェクトもまとめられている。これによると、クラウドソーシングのタイプは「マッピング」「写真アーカイブ」「翻刻」が多いことが示されている(17)。ここまでの議論で、「翻刻」と「写真アーカイブ」の事例はすでに述べたので、以下では「マッピング」の事例を紹介したい。

 英・ロンドン大学歴史学研究所(IHR)による“Layers of London”は、古代ローマから現在まで、地図を通じて都市ロンドンの歴史を探索できるウェブサイトである(18)(図3)。重要なのが、「この地域に関する社会史のリソースを作る」ことができるようになっていることであり、すなわち、資料や情報をユーザ自身がアップロードし、「みんなで」歴史的な地図の上に歴史学的知識を集約し、表示させることを可能にしている点である。

 

図3 Layers of London(一部)。画面左で情報を重ねて表示するレイヤーを選択すると、画面右に情報のアイコンとレイヤーの地図が重ね合わされて表示される。

 

 その他、文化機関による近年の事例では、例えば、LCが2018年にクラウドソーシングプラットフォーム“By the People”を公開し、資料の翻刻やそのレビュー、タグ付けを行う複数のプロジェクトを推進している(19)。一方、英国図書館(BL)も2015年にLibCrowds(20)を独自のプラットフォームとして開発公開していたものの、現在はその維持管理のコストからZooniverseへプロジェクトの移行を進めているところである(21)

 

3.クラウドソーシングの実践に向けて

 クラウドソーシングをこれから実践するにあたり、何をどのように検討すればよいのだろうか。ここからは、前章の最後で言及したBLでクラウドソーシングプロジェクトを統括しているリッジ(Mia Ridge)の議論(22)を参考にしつつ、実務上の懸念点に絞って考えていきたい。

 

①システムをどのように用意するか

 デジタルアーカイブでも同じことだが、クラウドソーシングシステムを構築するにあたっては、既存のものを使うか、自前で構築するかの2択である。より具体的に言うと、BLのようにZooniverseや、あるいはIIIF(CA1989参照)と連携したクラウドソーシング翻刻環境を提供するFromThePage(23)等のプラットフォームを活用するか、Omeka(24)(および翻刻環境用のOmekaプラグインであるScripto(25))やPyBossa(26)等のソフトウェアを使って構築するかのいずれかである(27)。リッジは、このシステムに関連して、クラウドソーシングへの積極的な新規参加と継続的な参加を促すためにも、ユーザインタフェースデザインを重視している(28)。つまり、ユーザに分かりやすくかつ飽きさせないデザインを常に追求すべきであり、その点でクラウドソーシングは継続的な開発とバージョンアップが望ましいと言えるだろう。

 

②対象資料の選び方とタスクの設定

 リッジは、クラウドソーシングで対象とする資料について、デジタルであることを前提に、「面白いもの」を選ぶのがユーザにとっては分かりやすいとしつつ、運営側としては著作権処理や個人情報保護への対応から「十分古いもの」であることも重要だと指摘している(29)。例えば、米・ニューヨーク公共図書館(NYPL)が運営する、19世紀半ば以降のレストランのメニューを共同で翻刻するプロジェクト“What’s on the menu?”はその好例と言える(30)。しかし、レストランメニューのような「古くて面白い」、しかもプロジェクト終了後にも活用が見込める資料というのは、そうそうあるものではない。リッジは、そのような「古くて面白い」資料のほかにも、無名のコレクションについて説得力のあるストーリーを作ったり、専門家コミュニティに参加してもらったりすることで、対象資料を柔軟に考えることができると述べている。

 また、クラウドソーシングで対象とする資料の選び方は、ユーザにやってもらいたいタスクをどのように設定するかという問題に密接に関わる。例えば参加者の行動という観点でタスクを考えると、翻刻のような「見たままを記入」するか、メタデータの入力のように「見たものについて記述」するか、あるいは、ユーザが知っている/調べることができた事実情報を記入したり、パーソナルストーリーを提供してもらったりするような「知っていることの共有」がある。このほか、資料を提供してもらう「持っているものの共有」や、クラウドソーシングのクオリティコントロールとして行う「他人の入力の評価」といった内容に分かれる(31)。もちろんどれか一つのカテゴリに収まるわけではなく、例えば先述の“What’s on the menu?”は、当初は「見たままを記入」するものであったが、現在は全体の翻刻が終わり「他人の入力の評価」を求めている段階にある。複数のタスクを組み合わせてプロジェクトは成立しうるので、タスク設定は対象資料の性格とともに、次項および次々項の内容とあわせて検討がなされるべきである。

 

③参加者のモチベーションを継続させるために

 ほとんどのクラウドソーシングプロジェクトにおいて、成果の80-90%は1割程度の熱心な参加者によるものという調査結果もある(32)。したがって、広報と参加者に対する継続的なコミュニケーションは、クラウドソーシングのプロジェクトの成否を決める重要なポイントと言える。リッジは、参加者のモチベーションを維持するためには、プロジェクト開始後はあたかもマラソンの伴走車のように参加者を励まし、成果をシェアし、結果がどのように使われているかという情報を公開することが重要だと述べる(33)。また、BLのクラウドソーシングプロジェクトのひとつである“In the Spotlight”の参加者へのアンケートによると、継続して参加できている理由として「簡単なタスクだから」という回答も多いことから(34)、タスクの難しさはモチベーションの低下に直結しかねないことにも注意せねばならない。

 

④クオリティコントロールをどのように行うか

 クラウドソーシングの入力結果の正確さには常に懸念が付きまとう。あるいは、その入力結果は研究者等の専門家のチェックが必要と考える読者もおられるかもしれない。

 クオリティコントロールというこの問題について、“FromThePage”を運営するブラムフィールド(Ben Brumfield)は、そのための手法のバリエーションを以下のように示している(35)。まず、「シングルトラック」は、ユーザによる入力からその結果の評価までが一本道になっている方法である。これをさらに細分化すると、ユーザの入力に任せたままで運営としては特にチェックせず、その後もいつでもユーザが修正可能とするタイプ、ユーザに入力を任せるものの期間を定め、その期限を迎えたデータを「確定版」とするタイプ、あるいは、最初に翻刻をユーザに作ってもらい、その後で別のユーザにチェックしてもらうという2段階のタイプ、これの亜種として、先ほど述べたように、ユーザに入力してもらいその結果を専門家がチェックするというタイプがある。一方、「マルチトラック」は同じ資料を複数に見せてその結果を突き合わせてチェックするものである。これもさらに細分化でき、複数(例えば3人)のユーザが同じ資料を入力し、その入力結果で一致するものが多いものを採用するという、いわば多数決のもの。その別バージョンとして、2人のユーザが入力し、それを突き合わせて一致しない箇所を専門家が判定するというもの等がある。このうち、リッジらによると、クラウドソーシングのプロジェクトでは先ほどの「多数決」の手法を採用する取り組みが多く、必ずしも専門家のチェックを求めるというものではないという(36)。もちろん、それが最善というものではなく、システム開発に係る経費や対象とする資料の特徴、タスクの内容等から総合的に判断するものとなる。ブラムフィールドが言うように(37)、そもそも扱う対象の資料自体に誤りがある可能性がある以上、「クラウド」によってのみ誤りがもたらされるというわけではないのだから、まったく誤りのないデータを作成しなければならないという「強迫観念」にとらわれる必要もまたないと言えるだろう。

 

⑤プロジェクトをどのように評価すべきか

 文化機関がクラウドソーシングプロジェクトを進める際には、業務統計等で必ず事業評価が求められることになる。しかし忘れてはならないのが、冒頭で述べたように、クラウドソーシングは、データの充実化に役立つと同時に、利用者に対して資料と学習機会を提供するものでもある。リッジらがまとめた文化機関向けの手引書である“The Collective Wisdom Handbook”では、クラウドソーシングの評価は単に数値で測れるような成果だけではなく、広く社会への長期的なインパクトも考慮する必要があると指摘する(38)。すなわち、入力数や参加者数、アクセス数といった数字のみで事業を評価してしまうと、クラウドソーシングが提供した学習機会やそれに伴う市民の行動変容というインパクトを軽視することにつながりかねない。この難しい問題に関し、リッジらは社会問題の解決で昨今採り入れられている「変化の理論(Theory of Change)」(39)に言及しつつ、クラウドソーシングを社会を変えるための事業として位置づけ、評価指標の設定がプロジェクトの設計に多大な影響を与えないように注意すべきだと説いている。

 

4. おわりに

 本稿では、デジタルアーカイブにおけるクラウドソーシングをテーマに時系列に沿って主要なプロジェクトを取り上げ、その多様化の様子を示した。次に、クラウドソーシングを実施するにあたって実務上で懸念される点を、リッジの議論等を基に論じてきた。

 行論から明らかなように、クラウドソーシングは、「小人の靴屋」よろしく、寝ている間に無料で面倒な仕事を片付けてもらえるようなものではなく、したがって、単にコスト削減のためだけにクラウドソーシングの導入を検討するのは間違いである。また、光学文字認識(OCR)や手書き文字認識(HTR)等の技術的進歩に伴い、わざわざクラウドソーシングのプロジェクトを行う必要がなくなる日が来るのかもしれない。

 しかし、文化機関が地域住民のみならず広くユーザに対して資料を提供し、ユーザとのコミュニケーションに意義を見出すのであれば、クラウドソーシングという手法を採用する意義は大いにあると言えよう。その際、クラウドソーシングはデジタルアーカイブを利用したアウトリーチの新たな選択肢の一つとして検討すべきと思われる。

 

(1)例えば、以下がある。
Cauvin, Thomas. Public History: A Textbook of Practice. Routledge, 2016, p. 179-181.

(2) The Valley of the Shadow.
https://valley.lib.virginia.edu/, (accessed 2022-04-15).

(3) Wingo, Rebecca; Heppler, Jason; Schadewald, Paul. Digital Community Engagement. Kindle版, University of Cincinnati Press, 2020, p. 17.

(4) September 11 Digital Archive.
https://911digitalarchive.org/, (accessed 2022-04-15).

(5) Harris, Jeanene. “Rosenzweig Center’s 9/11 Archive was one of the first of its kind”. George Mason University. 2021-09-09.
https://www.gmu.edu/news/2021-09/rozenzweig-centers-911-archive-was-one-first-its-kind, (accessed 2022-04-15).

(6)この実践手法はその後“Europeana 1914-1918”へと引き継がれヨーロッパ全体に拡大した一方、オックスフォード大学では2017年に“Lest We Forget”というプロジェクトとして再出発を果たしている。
Europeana 1914-1918.
http://europeana1914-1918.eu/en, (accessed 2022-04-15).
“Lest We Forget: A new community-based initiative to preserve materials from the First World War”. TORCH. 2017-06-13.
https://www.torch.ox.ac.uk/article/lest-we-forget, (accessed 2022-04-15).

(7) The History Harvest.
https://historyharvest.unl.edu/, (accessed 2022-04-15).

(8) 例えば以下の文献がある。
Wingo; Heppler; Schadewald. op. cit.

(9) Transcribe Bentham.
http://transcribe-bentham.ucl.ac.uk/td/Transcribe_Bentham, (accessed 2022-04-15).

(10)Old Weather.
https://www.oldweather.org/index.html, (accessed 2022-04-15).

(11)Zooniverse.
https://www.zooniverse.org/, (accessed 2022-04-15).

(12)Galaxy Zoo.
https://www.zooniverse.org/projects/zookeeper/galaxy-zoo/, (accessed 2022-04-15).

(13)例えば、“September 11 Digital Archive”のプロジェクトに参加したコーエン(Dan Cohen)、そしてRRCHNMの名前の由来となったローゼンツヴァイク(Roy Rosenzweig)らが著したデジタルヒストリーの古典“Digital History”では、インターネットでのユーザとのコミュニケーションについて、もっぱら資料収集の手法が議論され、共同翻刻などは話題になっていない。
Cohen, Daniel I.; Rosenzweig, Roy. “Collecting History Online”. Digital History: A Guide to Gathering, Preserving, and Presenting the Past on the Web. CHNM, 2005, p. 160-188.
https://chnm.gmu.edu/digitalhistory/collecting/index.html, (accessed 2022-04-15).

(14)Hedges, Mark; Dunn, Stuart. Crowd-Sourcing Scoping Study: Engaging the Crowd with Humanities Research. Arts and Humanities Research Council, 2012, 56p.
https://kclpure.kcl.ac.uk/portal/files/5786937/Crowdsourcing_connected_communities.pdf, (accessed 2022-04-15).

(15)Hedges, Mark; Dunn, Stuart. Academic Crowdsourcing in the Humanities: Crowds, Communities and Co-production. Chandos Publishing, 2018, 174p.

(16)Ibid. p. 29-30.

(17)Davies, Robert. Crowdsourcing in cultural heritage. Europeana Pro. 2020, 109p.
https://pro.europeana.eu/files/Europeana_Professional/Projectpartner/EuropeanaCommonCultureProjectFiles/Crowdsourcing%20study%20report.pdf, (accessed 2022-04-15).
Annex 4にリストアップされているクラウドソーシングプロジェクトのタイプを基に筆者が算出した。

(18)Layers of London.
https://www.layersoflondon.org/, (accessed 2022-04-15).

(19)By the People.
https://crowd.loc.gov/, (accessed 2022-04-15).

(20)LibCrowds.
https://www.libcrowds.com/, (accessed 2022-04-15).

(21)“Looking back at LibCrowds: surveying our participants”. Digital scholarship blog. 2022-03-18.
https://blogs.bl.uk/digital-scholarship/2022/03/looking-back-at-libcrowds-surveying-our-participants.html, (accessed 2022-04-15).

(22)リッジにはBLでクラウドソーシングを実践するとともに、その知見をもとに、文化遺産に関わるクラウドソーシングをテーマにした多数の編著書がある。本章を執筆するにあたり、以下の文献を参照した。
Ridge, Mia ed. Crowdsourcing our Cultural Heritage. Kindle版, Taylor and Francis, 2014, 283p.
Ridge, Mia. Making digital history: The impact of digitality on public participation and scholarly practices in historical research. The Open University, 2016, Ph.D. thesis.
https://doi.org/10.21954/ou.ro.0000b1cf, (accessed 2022-04-15).
Ridge, Mia. “Crowdsourcing in Cultural Heritage: a practical guide to designing and running successful projects”. Schuster, Kristen; Dunn, Stuart eds. Routledge International Handbook of Research Methods in Digital Humanities. Kindle版, Taylor and Francis, 2020, p. 363-383.
Ridge, Mia et. al. “The Collective Wisdom Handbook: perspectives on crowdsourcing in cultural heritage”. Digital Scholarship at the British Library. 2021.
https://doi.org/10.21428/a5d7554f.1b80974b, (accessed 2022-04-15).

(23)FromThePage.
https://fromthepage.com/, (accessed 2022-04-15).

(24)Omeka.
https://omeka.org/, (accessed 2022-04-15).

(25)Scripto.
https://scripto.org/, (accessed 2022-04-15.).

(26)PyBossa.
https://pybossa.com/, (accessed 2022-04-15).

(27)なお、後者の別バージョンとしてゼロベースの開発もありうるが、技術や人員体制面の問題もあり、少なくとも国内の文化機関では困難だろう。

(28)Ridge, Mia. Crowdsourcing our Cultural Heritage. Kindle版, Taylor and Francis, 2014, p. 7.

(29)Ridge, Mia. “Crowdsourcing in Cultural Heritage: a practical guide to designing and running successful projects”. Schuster, Kristen; Dunn, Stuart eds. Routledge International Handbook of Research Methods in Digital Humanities. Kindle版, Taylor and Francis, 2020, p. 370.

(30)What’s on the menu?.
http://menus.nypl.org/, (accessed 2022-04-15).

(31)Ridge. op. cit. p. 366-367.

(32)Ibid. p. 374.

(33)Ibid. p. 375.

(34)“Looking back at LibCrowds: surveying our participants”. Digital scholarship blog. 2022-03-18.
https://blogs.bl.uk/digital-scholarship/2022/03/looking-back-at-libcrowds-surveying-our-participants.html, (accessed 2022-04-15).

(35)Brumfield, Ben. “Quality Control for Crowdsourced Transcription”. FromThePage. 2012-03-05.
https://content.fromthepage.com/quality-control-for-crowdsourced-transcription/, (accessed 2022-04-15).

(36)Ridge. op. cit. p. 374.

(37)Brumfield, Ben. “Quality Control for Crowdsourced Transcription”. FromThePage. 2012-03-05.
https://content.fromthepage.com/quality-control-for-crowdsourced-transcription/, (accessed 2022-04-15).

(38)Ridge, Mia et al. “Evaluating your crowdsourcing project”. The Collective Wisdom Handbook: perspectives on crowdsourcing in cultural heritage. Digital Scholarship at the British Library. 2020-04-30.
https://britishlibrary.pubpub.org/pub/evaluating-your-crowdsourcing-project/release/2, (accessed 2022-04-15).

(39)「変化の理論(Theory of Change)」とは、「社会問題に関わるプログラムの計画、評価、そして利害関係者たちによる参画の方法論」であり、「具体的にはある文脈の中で望ましい変化が、なぜ、どのように起こるかを包括的にわかりやすく描写した理論」である。
デイヴィッド・ピーター・ストロー. 社会変革のためのシステム思考実践ガイド:共に解決策を見出し、コレクティブ・インパクトを創造する. 小田理一郎監訳. Kindle版, 英治出版, 2018, p. 410.

 

[受理:2022-05-17]

 


菊池信彦. デジタルアーカイブにおけるクラウドソーシング:海外の事例から. カレントアウェアネス. 2022, (352), CA2022, p. 19-23
https://current.ndl.go.jp/ca2022
DOI:
https://doi.org/10.11501/12301408

Kikuchi Nobuhiko
Crowdsourcing for Digital Archives: Challenges for Practice through Case Studies from Overseas

 

クリエイティブ・コモンズ 表示 4.0 国際

本著作(CA2022)はクリエイティブ・コモンズ 表示 4.0 国際 パブリック・ライセンスの下に提供されています。ライセンスの内容を知りたい方は https://creativecommons.org/licenses/by/4.0/legalcode.jaでご確認ください