230万本の論文をAIが読破！引用付きで「信頼できる回答」を生む「SQuAI」とは？

今回紹介するのは、CIKM 2025に採択された「SQuAI: Scientific Question-Answering with Multi-Agent Retrieval-Augmented Generation」という論文だ。科学的な質問に対して、信頼性の高い回答を生成するための新しいフレームワークを提案している。

論文情報

タイトル: SQuAI: Scientific Question-Answering with Multi-Agent Retrieval-Augmented Generation
著者: Ines Besrour, Jingbo He, Tobias Schreieder, Michael Färber
会議: CIKM 2025
論文URL: https://arxiv.org/abs/2510.15682v1

著者: Sera

大学院でAI作曲に関して研究中！
来春からデータサイエンティストとして働く予定の技術オタク。

登場人物: あかり

流行りのAIやWeb技術に興味津々！
『知りたい』気持ちで質問を止められない、好奇心旺盛な学生。

背景と動機

初心者

SQuAIって何の略？なんかかっこいい名前だね！

専門家

Scientific Question-Answering with Multi-Agent Retrievalの略なんだ。科学的な質問に答えるシステムってことだね。

初心者

質問に答えるだけなら、ChatGPTとかでもできるんじゃないの？

専門家

いい質問だね！確かにChatGPTでも答えられるけど、科学的な質問には特有の難しさがあるんだ。まず、複数の論文から情報を統合しないといけない。次に、「この情報はどこから来たの？」っていう引用や根拠を明示する必要がある。arXivだけでも年間20万本以上の論文が投稿されるから、この膨大な知識ベースを効率的に活用しないといけないんだ。

初心者

20万本！？多すぎて読めないよ...

専門家

そうなんだよ。だから、従来のRAG（Retrieval-Augmented Generation）システムが使われてきたんだ。

初心者

RAGって何？また新しい用語が...

専門家

RAGは、LLMが答えを作る前に、関連する情報を検索して持ってくる仕組みなんだ。Googleで検索してから答えを書くイメージかな。

初心者

あ、なるほど！Google使って調べてから答えるんだ

専門家

そうそう、そんな感じ。具体的には、(1) 質問を受け取る、(2) ベクトルデータベースや検索エンジンで関連文書を取得、(3) 取得した文書を文脈としてLLMに与える、(4) LLMが文脈を参照しながら回答を生成、というプロセスだ。

初心者

ベクトルデータベースって何？普通のデータベースと違うの？

専門家

ベクトルデータベースは、文章を数字の配列（ベクトル）に変換して保存するデータベースなんだ。似た意味の文章は似たベクトルになるから、意味が近い文書を探しやすいんだよ。

このRAGアプローチの良いところは、LLMが学習していない最新情報にもアクセスできること。それに、回答の根拠となる文書が明確だから、ハルシネーション（勝手に嘘を作っちゃう現象）を減らせる。

初心者

ハルシネーションって、AIが嘘つくってこと！？

専門家

まあ、嘘というか、もっともらしいけど事実じゃないことを自信満々に言っちゃうんだ。だから、ちゃんと元の文書を参照させることが大事なんだよ。

でも、従来のRAGにも問題があった。複雑な質問を一度に処理しようとすると、検索精度が落ちて、答えの質も下がってしまう。それに、関連性の低い文書まで拾ってきちゃって、ノイズが混ざる問題もあったんだ。

SQuAIのアーキテクチャ

初心者

で、SQuAIはどうやってその問題を解決したの？

専門家

SQuAIは、4つの専門的なエージェントが協力して動くシステムなんだ。

初心者

4つも！？チームプレイってこと？

専門家

そう、まさにチームプレイ！各エージェントが得意なことを担当するんだ。

まず、Question Decomposition Agent（質問分解担当）が、複雑な質問を簡単な質問に分ける。次に、Retrieval Agent（検索担当）が各質問に関連する文書を探してくる。その後、Adaptive Filtering Agent（フィルター担当）が、本当に必要な文書だけを選別する。最後に、Answer Generation Agent（回答作成担当）が、選ばれた文書を使って引用付きの答えを作るんだ。

初心者

分業制だ！効率よさそう！

専門家

その通り！一人（一つのモデル）で全部やるより、それぞれが得意なことに集中した方が、各ステップの質を上げられるんだ。

Question Decomposition Agent

初心者

質問を分解するって、どういうこと？

専門家

例えば、「Transformerアーキテクチャの主要な革新は何で、それがNLP分野にどのような影響を与えたか？」って質問があったとするよね。

初心者

長い...何聞かれてるかわかんなくなりそう

専門家

だよね。だから、「Transformerの主要な革新は何か？」と「それがNLP分野に与えた影響は？」の2つに分けるんだ。

初心者

あ！それなら簡単！一つずつ調べればいいんだ

専門家

そういうこと！この分解は、Few-shot learningっていう手法で、LLMに例をいくつか見せて、同じパターンで新しい質問を分解させるんだ。

初心者

Few-shotって、少ない例で学習するってこと？

専門家

その通り！数個の例を見せるだけで、パターンを学習できるんだよ。

分解された質問は、お互いに関係を持つ場合があるから、依存グラフで管理する。例えば、「それ」っていう代名詞を含む質問は、前の質問の答えに依存してるよね。

質問を分解すると、検索精度がぐっと上がるんだ。複雑な質問だと何を検索すればいいか曖昧だけど、シンプルな質問なら、的確なキーワードで検索できるからね。

Retrieval Agent

初心者

次は検索担当だね。どうやって論文を探すの？

専門家

ハイブリッド検索っていう方法を使ってるんだ。疎な検索と密な検索を組み合わせてる。

初心者

疎？密？急に難しくなった...

専門家

ごめんごめん。簡単に言うと、2つの検索方法を同時に使うってことなんだ。

疎な検索は、キーワードマッチの検索。「BERT」って単語を探したい時に、「BERT」って書いてある論文を見つける感じ。

初心者

それは普通の検索だね！Ctrl+Fみたいな

専門家

そう、まさにそんな感じ！BM25っていうアルゴリズムを使ってて、単語の出現頻度とか希少性を考えてスコアをつけるんだ。

一方、密な検索は、意味的に似てる文書を探す。例えば、「深層学習」って検索したら、「ディープニューラルネットワーク」って書いてある論文も見つけてくれる。

初心者

すごい！言い方が違っても意味が同じなら見つけてくれるんだ！

専門家

そうなんだ。これはベクトル化っていう技術を使ってて、文章を数字の配列に変換して、似た意味のものは近い位置に配置されるようにしてるんだよ。

SQuAIでは、この2つの検索結果を組み合わせるんだ。質問の種類によって、どっちを重視するかを変えてる。専門用語がたくさん出てくる質問なら疎な検索を重視、概念的な質問なら密な検索を重視する感じ。

初心者

検索する論文って、何本くらいあるの？

専門家

arXiv.orgの230万本のフルテキスト論文が対象なんだ。

初心者

230万！？そんなにあったら探すの大変そう...

専門家

だから工夫してるんだよ。論文を丸ごとじゃなくて、タイトル、アブストラクト、セクションごとに分割して、それぞれを独立した検索単位として扱ってるんだ。こうすると、論文全体じゃなくて、本当に関連する特定のセクションだけをピンポイントで取得できるからね。

Adaptive Filtering Agent

初心者

3番目はフィルター担当だね。何をフィルターするの？

専門家

検索で取ってきた文書の中から、本当に関連性が高いものだけを選ぶんだ。

初心者

え、検索したんだから全部関連してるんじゃないの？

専門家

それがそうでもないんだよ。ハイブリッド検索は「とりあえず多めに取ってこよう」って感じで動くから、関係ない文書も混ざってるんだ。

初心者

関係ないのも！？それじゃ邪魔だね

専門家

そう、だからフィルタリングが必要なんだ。Cross-Encoderっていうモデルを使って、質問と文書のペアを見て、「これ本当に関連してる？」ってスコアをつけるんだよ。

初心者

Cross-Encoderって何が違うの？

専門家

Bi-Encoderっていう別の方法と比べると、より精密に関連性を評価できるんだ。ただ、計算に時間がかかる。だから、まずBi-Encoderで候補を絞って、その後Cross-Encoderで精密に選別する2段階方式を使ってるんだよ。

初心者

効率的！

専門家

「適応的」っていう名前の由来は、固定の基準じゃなくて、状況に応じて基準を変えることなんだ。上位の文書のスコアを見て、それより明らかに低いスコアの文書を除外する感じ。質問の難しさや検索結果の質に合わせて、柔軟に文書数を調整できるんだよ。

初心者

でもさ、多めに情報があった方がいいんじゃない？

専門家

いい疑問だね！でも実は、関連性の低い情報を入れると、LLMが混乱しちゃうんだ。LLMは与えられた情報を全部使おうとするから、ノイズが混ざると、どれが重要な情報かわからなくなっちゃう。これは「文脈希釈問題」って呼ばれてる。

初心者

情報多すぎると逆にダメなんだ！

専門家

そうなんだよ。しかも、LLMには入力できる文字数の上限があるんだ。GPT-4だと約8,000トークン、日本語だと約6,000語くらいかな。

初心者

トークンって何？

専門家

文章を細かく分けた単位だよ。英語だと単語くらいの大きさかな。関係ない文書を入れると、本当に必要な情報を入れるスペースがなくなっちゃうんだ。

実際、論文の実験では、フィルタリングで回答品質が最大15%も上がってる。情報は多ければいいってもんじゃなくて、質が大事ってことだね。

Answer Generation Agent

初心者

最後は回答作成だね！どうやって答えを作るの？

専門家

フィルタリングされた文書をLLMに渡して、プロンプトで指示を出すんだ。ここで大事なのは、単に答えを作らせるだけじゃなくて、引用も付けさせることなんだよ。

初心者

引用って、論文書く時のあれ？

専門家

そうそう！「この情報は、この文書のここに書いてありますよ」って示すやつ。例えば、「Transformerは自己注意機構を用いるDoc1, p.3」みたいな感じ。

プロンプトには、(1) 質問、(2) 取得した文書（各文書にIDを付ける）、(3) 回答生成の指示、(4) 引用形式の例、を含めるんだ。

初心者

引用って、後から付けるの？それとも答えと一緒に作るの？

専門家

いい質問！実は2つのやり方があるんだ。1つは、答えと引用を同時に作る方法。もう1つは、まず答えを作って、後から引用を追加する方法。

SQuAIは前者を使ってる。引用を意識しながら答えを作ると、文書の内容により忠実な答えになるからなんだ。

初心者

なるほど！引用があると、ちゃんと根拠があるってわかって安心だね

専門家

その通り！それに、複数のサブクエスチョンの答えを統合する時には、矛盾チェックも行うんだ。例えば、質問Aの答えで「手法Xは2020年に提案された」って言ってて、質問Bの答えで「2019年に提案された」って矛盾してたら、より信頼できる情報源を優先するんだよ。

初心者

矛盾チェックまでするんだ！ちゃんとしてる！

評価実験

初心者

で、SQuAIって実際どのくらいすごいの？

専門家

論文では、ちゃんと実験して性能を測ってるんだ。1,000個の科学的な質問・回答・証拠のセットを用意して、テストしたんだよ。

初心者

どうやって「すごい」って測るの？

専門家

3つの指標で評価してるんだ。

1つ目は「忠実性（Faithfulness）」。答えが取ってきた文書の内容とちゃんと合ってるかどうか。

初心者

嘘ついてないかチェックってこと？

専門家

そう！2つ目は「回答関連性（Answer Relevance）」。質問にちゃんと答えてるかどうか。3つ目は「文脈関連性（Context Relevance）」。取ってきた文書が質問に関連してるかどうか。

普通のRAGシステム（単一パイプライン、疎な検索だけ、フィルタリングなし）と比べたら、SQuAIは全部の指標で勝ったんだ。特に忠実性は12%も改善した！

初心者

12%！すごいの？

専門家

いい質問だね！AIの性能改善で12%は、実はかなり大きな改善なんだ。特に、科学的な質問応答のような難しいタスクでは、数%の改善でも価値がある。

例えば、画像認識の精度が90%から91%に上がるのと、科学的質問応答の忠実性が70%から82%に上がるのでは、後者の方が実用性への影響が大きい。なぜなら、科学的な文脈では、情報の正確性が特に重要だからだ。12%の改善によって、より多くの質問に対して信頼できる回答を提供できるようになったんだね。

初心者

他の最新手法との比較は？

専門家

論文では、いくつかの最新手法とも比較している。例えば、ReAct（Reasoning and Acting）というLLMエージェントのフレームワークがあるんだ。ReActは、推論と行動を交互に実行するアプローチで、質問応答にも応用できるけど、科学論文という大規模な知識ベースに対しては、検索の効率性でSQuAIに劣る結果となった。

また、Self-RAGという、LLM自身が検索の必要性を判断する手法とも比較している。Self-RAGは汎用的だけど、科学的質問という特定ドメインに特化したSQuAIの方が、文脈関連性で優れていた。

ただし、これらの比較は公平性に限界がある。各手法は異なる設計思想を持っていて、異なるユースケースを想定しているからだ。SQuAIの強みは、科学的質問応答という特定タスクに最適化されていることだね。

考察と今後の課題

専門家

この研究にはいくつかの限界もある。まず、arXivの論文は主に英語で、STEM分野に偏っている。人文科学や社会科学、他言語の論文への拡張が今後の課題だ。

また、論文の更新頻度も考慮すべきポイントだ。現在のシステムは静的なスナップショットを使用しているけど、毎日数百本の新しい論文が投稿される。リアルタイムに近い更新を実現するには、インクリメンタルなインデックス更新の仕組みが必要だ。

マルチエージェントシステムの最適化も重要な研究方向だ。現在は4つのエージェントが順次実行されるけど、一部のステップは並列化できる可能性がある。例えば、複数のサブクエスチョンに対する検索は独立しているから、並列実行でレイテンシを削減できるんだ。

引用の品質改善も課題の一つだ。現在は文書レベルの引用だけど、より細かい粒度（段落や文レベル）での引用が理想的だ。また、引用の正確性を自動検証する仕組みも有用だと思う。

初心者

実用化の見通しはどう？

専門家

技術的には実用レベルに近づいている。実際、論文の著者らはデモシステムを公開していて、誰でも試せる状態なんだ。ただし、大規模運用にはいくつかのハードルがある。

まず、計算リソースだ。230万文書のベクトルインデックスは数百GBのメモリを必要として、検索とLLMの推論を合わせると、1クエリあたり数秒から数十秒かかる。多数のユーザーが同時にアクセスする商用サービスとしては、さらなる最適化が必要だ。

また、ライセンスと倫理的な問題もある。arXivの論文は多くがオープンアクセスだけど、著作権や引用ルールを適切に扱う必要がある。生成された回答が、元の論文の著者の意図を正しく反映しているかも重要な論点だ。

それでも、研究者向けの文献調査支援ツールや、教育現場での学習支援システムとしての活用は十分に現実的だ。今後数年で、こうしたツールが研究活動の標準的な一部になる可能性は高いと思う。

まとめ

専門家

SQuAIは、マルチエージェントアプローチによって科学的質問応答の品質を大幅に向上させた。質問分解、ハイブリッド検索、適応的フィルタリング、引用付き回答生成という4つのコンポーネントが協調することで、従来手法を上回る性能を実現している。

特に重要なのは、回答の信頼性を担保するための設計だ。引用の明示によって、ユーザーは回答の根拠を確認できて、必要に応じて元の論文を参照できる。これは、科学的な正確性が求められる場面では不可欠な機能だ。

今後、このようなシステムが普及すれば、科学知識へのアクセスがより民主化される。専門家でなくても、信頼性の高い科学的情報を得られるようになって、研究の加速や教育の質向上につながると思う。

ただし、技術的な課題と倫理的な配慮は残されている。これらを丁寧に解決しながら、実用的なシステムへと成熟させていくことが、今後の研究の方向性だと考えている。

初心者

科学論文がもっと身近になる未来が楽しみだね！

参考文献

Besrour, I., He, J., Schreieder, T., & Färber, M. (2024). SQuAI: Scientific Question-Answering with Multi-Agent Retrieval-Augmented Generation. In Proceedings of CIKM 2025.
論文URL: https://arxiv.org/abs/2510.15682v1