LLM（大規模言語モデル）アプリ構築のコア技術スタック

LangChain、LlamaIndex、AutoGen、AutoEval、Gradio、Streamlit、これら6つのツールは、それぞれ異なる役割を担っています。理解しやすくするために、これらを**「ロジック・オーケストレーション層」「データ層」「マルチエージェント層」「テスト・評価層」そして「フロントエンド・インタラクション層」**に分類して解説します。

1. ロジック・オーケストレーション層：LangChain

「大規模言語モデルの万能接着剤」

これは何か： LangChainは現在最も人気のある開発フレームワークです。これ自体がモデルを生成するわけではなく、モデル（GPT-4など）、外部データ（PDFなど）、計算ツール（Pythonなど）を**「繋ぎ合わせる」**役割を果たします。
コア機能：
- Chains（チェーン）： 複数のステップを連鎖させる（例：検索 → 要約 → 翻訳）。
- Agents（エージェント）： LLMにどのツールを使うか判断させる（例：計算機、Web検索など）。
- Memory（メモリ）： LLMにこれまでの会話内容を記憶させる。
利用シーン：
- 社内のPDFドキュメントを読み込んで回答するカスタマーサポートボット（RAG）の構築。
- ネット検索をして週報を書く個人用アシスタントの構築。
- その他、ほぼ全ての汎用的なLLMアプリ開発。

2. データ層：LlamaIndex (旧 GPT Index)

「大規模言語モデル専属の図書館司書」

これは何か： LlamaIndexは**「データ」に特化しています。プライベートなデータ（ドキュメント、データベース、PPT）を効率的なインデックス（索引）に変換し、大規模言語モデルに供給することを得意としています。LangChainでも同様のことは可能ですが、LlamaIndexはデータの検索（Retrieval）**における精度と最適化がより深く設計されています。
コア機能：
- Data Ingestion（データ取り込み）： 100種類以上のフォーマットのデータソースを簡単に読み込む。
- Indexing（インデックス構築）： ベクトルインデックス、ツリー状インデックス、ナレッジグラフインデックスなどを構築。
- Query Engine（クエリエンジン）： 「データにどう問いかけるか」というロジックを最適化し、ハルシネーション（幻覚）を減らす。
利用シーン：
- 企業ナレッジベース： 膨大で雑多なドキュメントがあり、極めて精度の高い検索・回答が必要な場合。
- 長文テキスト分析： 500ページの本や決算書の分析（LlamaIndexの分割・要約戦略は非常に強力です）。
- 構造化データクエリ： 自然言語を使ってSQLデータベースを検索する場合。
LangChain vs LlamaIndex： 現在のトレンドとしては、LangChainがアプリのロジック（コントローラー）を担当し、LlamaIndexがデータ検索（モデル/データベース）を担当するという形で、両者を組み合わせて使うことが一般的です。

3. マルチエージェント層：AutoGen (Microsoft)

「AI専門家チームの会議室」

これは何か： AutoGenはMicrosoftが発表した**マルチエージェント（Multi-Agent）**フレームワークです。LangChainが単独で動くのに対し、AutoGenでは複数の「役割」（例：プログラマーAgent、プロダクトマネージャーAgent）を定義し、それらが互いに会話することで問題を解決します。
コア機能：
- Conversable Agents： エージェント同士がメッセージを送って会話できる。
- Human-in-the-loop： エージェントの会話中に、人間がいつでも介入できる。
- Code Execution： コードを自動生成し、それを実行できる（Docker環境など）。
利用シーン：
- 全自動プログラミング： プログラマーAgentがコードを書き、テスターAgentが実行してエラーを報告、プログラマーAgentが修正する…というサイクルを動くようになるまで繰り返す。
- 複雑なタスク計画： マーケティングキャンペーンの企画（クリエイティブAgentがアイデアを出し、リスク管理Agentが意見し、実行Agentが文章を書く）。

4. テスト・評価層：AutoEval (および関連概念)

「大規模言語モデルの採点官」

説明： 「AutoEval」は業界において、HuggingFaceのAutoEvalなどの具体的なライブラリを指すこともあれば、より広く**「自動評価（Automated Evaluation）」**という概念やツール群（Ragas, DeepEval, LangSmithなど）を指すこともあります。
これは何か： 毎回人間がLLMの回答を目視確認するわけにはいかないため、AIを使ってAIを採点する仕組みが必要です。
コア機能：
- ハルシネーション検知： 回答が原文に忠実かどうかをチェック。
- 一貫性スコア： 同じ質問を10回したとき、回答が一貫しているか。
- 安全性チェック： 有害な情報が含まれていないか。
利用シーン：
- リリース前の品質チェック： Agentを公開する前に500個のテスト問題を解かせ、自動で採点レポートを生成する。
- モデル選定： 特定の業務データにおいて、GPT-4とDeepSeekのどちらが優れているかを比較する。

5. フロントエンド・インタラクション層：Gradio & Streamlit

どちらも「Python開発者のためのフロントエンドの神器」であり、HTML/CSS/JSを書かずにWebページを作成できます。

Gradio (Hugging Face)

位置づけ： モデルのデモ（Demo）ツール。
特徴： 極めてシンプル。通常は「入力ボックス（Input）」＋「出力ボックス（Output）」の2部構成。機械学習モデルの推論プロセスを見せるのに最適。
利用シーン：
- 顧客へのクイックデモ： 「見てください、これが我々のAI画像生成の効果です」と見せる。
- Hugging Face Space上でシンプルなAIモデルをホスティングする。

Streamlit

位置づけ： データアプリ（Data App）フレームワーク。
特徴： Gradioより強力で、レイアウト調整、複数ページ作成、サイドバー、インタラクティブなグラフ作成が可能。完全なダッシュボードに近い。
利用シーン：
- 社内ツール： カスタマーサポート用のAI補助管理画面（サイドバーでパラメータ調整、メイン画面で対話）。
- データ可視化レポート： RAGが検索した元ドキュメントの分布図などを表示。
- MVP（実用最小限の製品）： 見栄えの良いAIチャットアプリのプロトタイプを素早く構築する。

まとめ：これらをどう繋げて使うか？

もしあなたが**「企業向け決算書分析アシスタント」**を開発する場合、以下のように組み合わせることができます：

Streamlit： 最終的なWeb画面を描画する。左側で決算書をアップロードし、右側のチャットボックスで対話し、中央に分析グラフを表示する（これを上司に提出）。
LlamaIndex： 数千におよぶPDFの決算書を読み込み、スライス（分割）・クリーニングし、ベクトルインデックスを構築する。
LangChain： ロジックの編集中枢を担う。「数字を聞かれたら計算機を呼び出す」「トレンドを聞かれたら分析モジュールを呼び出す」といった判断を行う。
AutoGen（オプション）： 分析だけでなく、コードを書いてグラフを描画するところまで自動化したい場合、「アナリストAgent」と「プログラマーAgent」を連携させる。
AutoEval (Ragasなど)： 開発プロセスにおいて、「生成された要約が、純利益のデータを正確に網羅しているか」をテストするために使用する。