検索エンジン

GoogleのDataset Searchに基づいたデータセットの公開・利用についての分析(記事紹介)

2020年8月25日、Google AIのブログ“Google AI Blog”で、オンラインで公開されているデータセットの分析に関する記事が投稿されました。この分析はGoogleが提供するDataset Searchを使用して実施されています。なお、この記事は、セマンティックウェブに関する国際会議である2020 International Semantic Web Conference (ISWC 2020)に採択された論文“Google Dataset Search by the Numbers”を要約したものとなっています。

Dataset Searchはschema.orgの標準に沿ったメタデータから、データセットを収集しています。Dataset Searchにインデックスされているデータセットの件数は3,100万件以上であり、4,600件以上のインターネットドメインからそれらが収集されていることが報告されています。分野別では、社会科学、地球科学のデータセットが多いことが述べられています。理由としては、Dataset Searchの開発当初にそれらの分野にフォーカスしたこと、地球科学の分野ではFAIR原則の適用が進んでいることが挙げられています。

米・ロチェスター工科大学の研究チームが数学公式に関する無料のオンライン検索ツール“MathDeck”を開発し公開

米・ロチェスター工科大学理学部(College of Science)の2020年6月23日付のお知らせで、同大学の研究チームが高度な数学公式の作成・編集・参照等が可能になるオンライン検索ツール“MathDeck”を開発したことが発表されています。

MathDeckは、数学的な表記を双方向的で共有しやすくする目的で、同大学の教員・学生が構成する学際的な研究チームによって開発されました。MathDeckでは、手書き・タイピングされた数式画像のアップロード、LaTexによるテキスト入力など、複数の方法で数式を入力・編集することができます。アップロードされた数式画像の認識には、画像処理や機械学習の技術が用いられています。

Google、フランスの改正EU著作権指令国内法化に伴いフランス国内におけるニュース記事の検索結果表示方法を変更:記事を抜粋したスニペットやサムネイル画像が非表示に

Google Franceの公式ブログ“Le blog officiel de Google France”に2019年9月25日付で、“Nouvelles règles de droit d’auteur en France : notre mise en conformité avec la loi”と題された記事が投稿されています。2019年10月にフランスで改正EU著作権指令が欧州で初めて国内法化され新しい著作権法が導入されることに伴い、フランス国内ではGoogleの検索結果表示方法が変更される見込みであることを発表したものです。

フランスで新しい著作権法が施行されると、欧州の報道機関が発行するニュース記事を示した検索結果について、フランス国内ではニュース記事を抜粋したスニペットやサムネイル画像が表示されなくなります。これはGoogleが提供する全てのサービスに適用されます。

政治ニュースサイト“POLITICO”が同日付で公開したこのGoogleの意向を扱った記事では、改正EU著作権指令の第15条で報道機関が自機関のコンテンツをオンライン上で表示するGoogleやFacebook等のプラットフォームに対して使用料を求める権利が認められていること、Googleはこの使用料の支払を拒否していること等が解説されています。

東京大学附属図書館、電子展示『捃拾帖』に「貼り込み資料画像検索プロトタイプ」機能を試験追加

2019年2月4日、東京大学附属図書館は、2019年1月15日に公開した電子展示『捃拾帖』(くんしゅうじょう)に「貼り込み資料画像検索プロトタイプ」機能を試験追加したと発表しました。

同館が公開する「田中芳男・博物学コレクション」と、国立国会図書館デジタルコレクションで公開されている『張交帖』を対象とした画像検索システムです。

「貼り込み資料画像検索プロトタイプ」のウェブサイトでは、貼り込まれた資料単位での画像検索が可能であること、2019年1月末時点において、99帖、13,069コマ、34,746件の貼り込み資料が検索対象となっていること、画像の閲覧ビューアとして人文学オープンデータ共同利用センターが開発した IIIF Curation Viewerを利用していること等が紹介されています。

なお、同システムはプロトタイプの段階であり、データや機能なども予告なく変更される可能性があるとしています。

LIS Newsが選ぶ2018年の図書館・図書館情報学関連の10大ニュース(米国)

2018年12月14日、図書館や図書館情報学に関するニュースを掲載している米国のブログLIS Newsが、同ブログが選ぶ2018年の10大ニュースを発表しています。

1. LGBTやドラァグクイーンに関する図書館の展示・蔵書・プログラムへの異議申し立て

2. データ侵害がプライバシー問題を刺激
※ケンブリッジ・アナリティカ社

3. 複数館で図書館の資料延滞者への罰金廃止

4. オープンアクセス(OA)の行方

5. 虚偽の、もしくは、不審な内容の論文に関するスキャンダル

6. 法律に関する問題(アバンダンウェアとフェアユース・米ジョージア州立大学の電子リザーブ訴訟・マラケシュ条約・米国著作権局の米国議会図書館(LC)からの移管等)

7. 刑務所での禁書

8. サーチエンジンは偏っている
※“Algorithms of Oppression”(抑圧のアルゴリズム)の出版

9. フェイクニュースの拡大

10. オピオイドの蔓延が継続

Google、“Dataset Search”(ベータ版)を公開

2018年9月5日、Googleが“Dataset Search”(ベータ版)の公開を発表しています。

出版者や個人ウェブサイト、デジタルライブラリ、データリポジトリ等で公開されている多様なデータセットを検索する事が可能です。

Googleでは、“Dataset Search”を開発するに当たり、Google等の検索エンジンが、データセットの作成者・公開日・収集方法・使用条件などを理解できるよう、標準schema.orgに基づいたデータ記述方法のガイドを作成しており、研究データのプロバイダに対して、同標準を採用することを推奨しています。

Making it easier to discover datasets(Google,2018/9/5)
https://www.blog.google/products/search/making-it-easier-discover-datasets/

人文学オープンデータ共同利用センター(CODH)、「IIIF Curation Finder」「IIIF Curation Platform」「顔貌コレクション(顔コレ)」を公開

2018年5月23日、人文学オープンデータ共同利用センター(CODH)が、「IIIF Curation Finder」「IIIF Curation Platform」「顔貌コレクション(顔コレ)」を公開しました。

「IIIF Curation Finder」は、「IIIF Curation Viewer」で作成したキュレーションを検索可能にするとともに、検索結果を再編集した新たなキュレーションも公開可能としたものです。

「IIIF Curation Platform」は、IIIFの世界における有力な検索エンジンの不在という課題に対応するために、JSONkeeperやCanvas IndexerなどのソフトウェアをAPIで接続することで、IIIF検索エンジンのプロトタイプとして作成されたものです。

「顔貌コレクション」は、「IIIF Curation Platform」を活用したもので、美術作品に出現する顔の部分を切り取って集め、それを美術史研究(特に様式研究)に活用するプロジェクトです。顔の描き方を比較検討することで、例えば絵師や工房の異同を推定したり、影響関係を見出したりすることが可能になるとしています。

Google社、自然言語処理研究のデモとして、文章を入力すると書籍内の適切な一節を表示する“Talk to Books”を公開

2018年4月13日、Google社が、自然言語処理研究のデモとして、“Talk to Books”を公開しました。

“Talk to Books”は、文章レベルで書籍を検索できるツールで、実装にあたっては、10億もの会話に基づいた機械学習が行われています。

文章や質問を入力すると、キーワードマッチングによる手法ではなく、Google Books内の10万冊を超す書籍の中から意味的に近い一節を見つけ出して表示します。

機械学習に基づいた単語の連想ゲーム“Semantris”等も併せて公開されています。

Introducing Semantic Experiences with Talk to Books and Semantris(Google Research Blog,2018/4/13)
https://research.googleblog.com/2018/04/introducing-semantic-experiences-with.html

オープンソースのデータリポジトリ“Dataverse”、Schema.orgに対応

2017年12月6日、オープンソースのデータリポジトリ“Dataverse”を開発する“Dataverse Project”が“Dataverse 4.8.4”を公開し、“Schema.org”に対応したと発表しています。

2017年夏、同プロジェクトでは、研究データのウェブ上での発見可能性向上や文献管理ツールへのメタデータのエクスポートに対応するために“Dublin Core”を採用しましたが、FORCE11の「学術データリポジトリのデータ引用ロードマップ」での“Dublin Core”“Schema.org”両者の採用という推奨事項に対応するため、今回の実装となりました。

今回、“Dataverse”のいくつかのメタデータ要素を“Schema.org”にマッピングすることを延期しているため、今後のリリースでこれらの要素に対応する計画です。

Dataverse Project
https://dataverse.org/
※「Dataverse 4.8.4 release adds support for Schema.org December 6, 2017」とあります。

“Mendeley Data”、Googleのデータセット用のマークアップ標準を採用

2017年5月23日付けのMendeleyのブログが、研究データリポジトリ“Mendeley Data”が、Googleのデータセットのためのマークアップ標準(markup standard)を採用したと発表しています。

Googleの検索エンジンが認識する構造化された方法で“Mendeley Data”搭載のデータセットについて記述することで、その発見可能性を高め、検索結果から簡単にデータセットを利用できるようにすることを目的としています。

Mendeley Data adopts Google Science Datasets standards(
Mendeley Blog,2017/5/23)
https://blog.mendeley.com/2017/05/23/mendeley-data-adopts-google-science-datasets-standards/

ページ