E2394 - 学術文献検索サービスSemantic Scholarと自動要約機能

カレントアウェアネス-E

No.414 2021.06.10

 

 E2394

学術文献検索サービスSemantic Scholarと自動要約機能

京都大学附属図書館・西岡千文(にしおかちふみ)

 

   Semantic Scholarは米国のアレン人工知能研究所(Allen Institute for AI:AI2)が開発する学術文献検索サービスである。様々な学術文献検索サービスがある中,Semantic Scholarの特長は,人工知能(AI)技術,特に機械学習によって論文から意味やつながりを抽出することで,各利用者の研究に最も関連がある論文の発見ならびに理解を支援することである。本稿では,Semantic Scholarの概要ならびに2020年11月にベータ版として公開された論文を一文に要約するTLDR機能について報告する。

●Semantic Scholarの概要

   Semantic Scholarは2015年に計算機科学分野からスタートしたが,2019年には全科学分野へと範囲を広げ,2021年5月現在,1億9,000万件以上の論文を検索対象としている。論文のデータは,Springer Nature社をはじめとしたパートナー出版者から提供されている。月間アクティブユーザ数は700万人である。

   前述の通り,機械学習の活用という点にSemantic Scholarの特長があり,論文の中で特に重要な引用(Highly Influential Citation)の特定・表示,論文の推薦を行うResearch Feeds,論文の閲読時に用語等の定義や引用文献の詳細の表示を行うSemantic Readerなどをサービスとして提供している。

   また,Semantic Scholarは,論文に関するデータの提供に積極的である。2019年には,8,110万件の英語の論文のメタデータ,抄録,引用データなどを収録したS2ORC(The Semantic Scholar Open Research Corpus)というコーパスを公開しており,随時更新されている。さらに,論文や著者についてのデータの取得を可能にするAPIも提供している。最近では,新型コロナウイルス感染症(COVID-19)感染拡大を受けて,COVID-19に関する論文等のデータセットを公開している。

●TLDR機能

   TLDRとは,“Too long; didn't/don't read”の略であり,ここでは論文を20語前後の一文に要約したものを指している。ベータ版の公開時には,計算機科学分野の1,000万件近くの論文のTLDRが提供されている。

   この開発の背景としては,出版される論文本数の急激な増加や,モバイル端末経由のSemantic Scholarへのアクセスが全体の25%を占めるようになったことが挙げられており,TLDRは研究者が論文を読み進めるか判断することを支援するとされている。その他,SNSなどで論文を共有するときにTLDRを利用することが期待されている。Semantic Scholarでは,検索結果や著者ページに表示される各論文とともに,TLDRが表示されている。

   TLDRの生成は,最新の深層学習モデルを使用することによって行われている。詳細についてはカチョラ(Isabel Cachola)氏らによる論文で述べられており,ソースコードやデータセット,デモが公開されている。論文では,TLDRを生成するモデルの学習方略としてCATTS(Controlled Abstraction for TLDRs with Title Scaffolding)が示されている。モデルの入力値は論文,出力値はTLDRであるが,訓練データとして利用可能な論文とTLDRのペアが少ないことに対処するため,CATTSでは補助的な訓練データとして論文とタイトルのペアが使用される。タイトルは論文の内容に関する重要な情報を含むことから,タイトルを生成するようにモデルを訓練することによって,TLDRの生成にも有用となる論文内の重要な情報の特定方法を学習できると仮定している。入力値の論文については,論文の「Abstract」と「AbstractとIntroduction,Conclusionの各章を結合したもの(AIC)」を比較しており,AICのほうがTLDR生成のパフォーマンスが高いことが判明している。論文では,今後取り組むべきこととして,論文全文を入力値として与えたときのTLDRの生成,他分野のTLDRの検討などが挙げられている。

   TLDR機能については,要約の過程で重要な文脈が排除され結果が過度に誇張されてしまうことから,学術的言説が歪められてしまうというリスクが指摘されている。機械学習を使用したサービスについては,このようなリスクを利用者に周知することも必要である。一方,近年は機械学習の説明可能性についての研究開発が盛んになっているため,この成果を利用するといったことも方向性として考えられるだろう。Semantic ScholarならびにTLDR機能の今後の発展に期待したい。

Ref:
Semantic Scholar.
https://www.semanticscholar.org/
“Frequently Asked Questions”. Semantic Scholar.
https://www.semanticscholar.org/faq
“TLDR BETA”. Semantic Scholar.
https://www.semanticscholar.org/product/tldr
“Publisher Partners”. Semantic Scholar.
https://pages.semanticscholar.org/publisher-partners
“Semantic Reader Beta”. Semantic Scholar.
https://www.semanticscholar.org/product/semantic-reader
Lo, Kyle. et. al. “S2ORC: The Semantic Scholar Open Research Corpus”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online, 2020-07, Association for Computational Linguistics. 2020, p. 4969-4983.
https://doi.org/10.18653/v1/2020.acl-main.447
“Semantic Scholar Open Research Corpus”. Semantic Scholar.
http://s2-public-api.prod.s2.allenai.org/corpus/
“Semantic Scholar API”. Semantic Scholar.
http://s2-public-api.prod.s2.allenai.org/
“CORD-19”. Semantic Scholar.
https://www.semanticscholar.org/cord19
“Introducing TLDRs on Semantic Scholar“. AI2 Blog. 2020-11-17.
https://medium.com/ai2-blog/introducing-tldrs-on-semantic-scholar-f8310c51c1fb
Cachola, Isabel. et al. “TLDR: Extreme Summarization of Scientific Documents”. Findings of the Association for Computational Linguistics: EMNLP 2020, Online, 2020-11, Association for Computational Linguistics, 2020, p. 4766-4777.
https://doi.org/10.18653/v1/2020.findings-emnlp.428
“allenai /scitldr”. GitHub.
https://github.com/allenai/scitldr
“SCITLDR”. AI2.
https://scitldr.apps.allenai.org/
Bagrow, James P.. TL; DR: how well do machines summarize our work?. Nature, 2021, vol. 590, p. 36.
https://doi.org/10.1038/d41586-021-00270-1