Internet Archive(IA)、欧州の少数言語の機械翻訳進展のため、英・エジンバラ大学にウェブアーカイブの一部を提供

2019年6月19日、Internet Archive(IA)が、特にリソースが不足している言語の機械翻訳を進展させるためのオープンデータとツール構築のため、英国のエジンバラ大学にウェブアーカイブの一部を提供すると発表しています。

エジンバラ大学は、EUのインフラプロジェクトを支援する「コネクティング・ヨーロッパ・ファシリティ」からの助成を受け、他の大学と共同で、29の言語を対象として、ウェブから翻訳されたテキストをマイニングするプロジェクト“ParaCrawl”を行っています。

今回、IAが収集したウェブアーカイブを“ParaCrawl”プロジェクトに追加することで、マイニング対象となるアーカイブデータが増えることになります。IAでは、アイスランド語・クロアチア語・ノルウェー語・アイルランド語といった翻訳されたテキストが少ない言語を、内部的な分類ツールを用いてIAの通常のウェブアーカイブの中から抽出します。

Internet Archive Partners with University of Edinburgh to Provide Historical Web Data Supporting Machine Translation(IA,2019/6/19)
http://blog.archive.org/2019/06/19/internet-archive-partners-with-university-of-edinburgh-to-provide-historical-web-data-supporting-machine-translation/

ParaCrawl
https://paracrawl.eu/

Connecting Europe Facility
https://ec.europa.eu/inea/en/connecting-europe-facility

参考:
総務省と国立研究開発法人情報通信研究機構、『翻訳バンク』の運用開始
Posted 2017年9月13日
http://current.ndl.go.jp/node/34658