カレントアウェアネス-E
No.510 2025.10.02
E2827
青空文庫の新たな可能性を拓く対話型AIシステム「Humanitext Aozora」の紹介
名古屋大学デジタル人文社会科学研究推進センター・岩田直也(いわたなおや)
●はじめに
近年、人文科学研究におけるデジタルアーカイブの重要性はますます高まっている。特に、著作権保護期間が満了した文学作品を収集・公開する「青空文庫」は、日本近代文学をはじめとする文学研究において不可欠な学術的資源となっている。しかし、その膨大なテキストデータは、主として個別作品の閲覧に利用されることが多く、作品群を横断的かつ大規模に分析するための方法は限られていた。
この課題に対し、桜美林大学の田中一孝准教授、東京大学の小川潤助教及び筆者によるHumanitextプロジェクトは、大規模言語モデル(LLM)と検索拡張生成(Retrieval-Augmented Generation:RAG)技術を応用し、青空文庫のテキストデータを対話形式で探索・分析できるAIシステム「Humanitext Aozora」を開発し、2025年7月に公開した。本稿では、そのシステム概要、特徴的な機能、そして今後の学術的貢献の可能性について紹介する。
●システムの概要と技術的特徴
Humanitext Aozoraは、利用者が自然言語で入力した問いに対し、青空文庫の収録作品を典拠として応答を生成するシステムである。その技術的根幹を成すのが、RAGである。これは、LLMが持つ広範な知識や言語生成能力を、特定の信頼できる外部情報源(本システムでは青空文庫のテキスト)で補強する仕組みである。
具体的には、利用者の質問の意図をAIが解釈し、まず青空文庫のデータベースから関連性の高いテキスト断片(チャンク)を高速に検索・抽出する。その後、LLMに対し、抽出したテキストの情報のみに基づいて回答を生成するよう指示を与える。このプロセスにより、LLMが学習データのみに依存して不正確な情報を生成する「ハルシネーション」を効果的に抑制し、すべての応答が検証可能な典拠に基づくという高い信頼性を実現している。
●主な機能
本システムは、研究・教育・創作活動など、多様な目的に応えるための複数の機能を実装している。
・高度な検索・絞り込み機能
検索対象とするテキストは、作家名や作品名だけでなく、日本十進分類法(NDC)に基づいたジャンルによっても絞り込みが可能である。例えば、「夏目漱石と森鴎外の作品における「自然主義」に関する記述」といった、複数の作家・作品を横断するテーマについて、精密な調査を行うことができる。
・利用目的に応じた4つの出力モード
利用者の多様なニーズに対応するため、本システムは応答の形式を制御する4つのモードを備えている。
- Q&Aモード:テキストに関する事実に基づいた問いに対し、簡潔な回答と正確な典拠(作品名、該当箇所など)を提示する。事実確認や情報収集に適している。
- 詳細解説モード:文芸研究者のように、複数の典拠を比較・分析し、時代背景や文脈を補足しながら多角的な解釈を提供する。作品理解を深めるための補助ツールとして機能する。
- 対話モード:指定した作家(例:芥川龍之介)や作中の登場人物のペルソナ(文体、思想、口調)をAIが再現し、利用者との対話を行う。文学の世界への没入体験を提供する。
- 創作モード:指定した作家の文体をAIが分析し、そのスタイルを模倣した新しい文章を創作する。文体研究や創作活動の支援を目的とする。
これらのモードは、単なる情報検索ツールに留まらず、利用者が文学作品と多角的に関わるための新たなインターフェースを提供するものである。
●今後の可能性と展望
Humanitext Aozoraは、デジタル・ヒューマニティーズ分野における新たな研究・教育ツールとしての大きな可能性を秘めている。研究者にとっては、従来の手法では発見が困難であった作品間の主題的・文体的な関連性を見出すための仮説発見ツールとなりうる。また、教育現場においては、学生が能動的にテキストと対話し、自らの問いを深めていくための探究的な学習教材としての活用が期待される。
本システムの公開が、広く文学研究の新たな地平を拓くとともに、より多くの人々が古典作品の奥深い魅力に触れる一助となることを願うものである。
Ref:
Humanitext Aozora.
https://aozora.humanitext.ai
“【研究ニュース】AIと日本近代文学が対話する検索システム「Humanitext Aozora」を公開”. 名古屋大学デジタル人文社会科学研究推進センター. 2025-07-21.
https://dhss.nagoya-u.ac.jp/news/0724_humanitextaozora/
Humanitext.
https://humanitext.ai/ja/