コンテンツにスキップ

ReAct: Synergizing Reasoning and Acting in Language Models

Verified license

  • License: CC BY 4.0
  • 検証日: 2026-05-22
  • 検証方法: pwsh -NoProfile -File scripts/check-arxiv-license.ps1
  • このページの掲載モード: full-text-allowed

公式

読む(複数フォーマット)

関連を辿る

このノート内

Metadata

項目
著者 Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
公開日 2022-10-06
ライセンス CC BY 4.0(参考情報、本ノートでは全文転載しない)
検証日 2026-05-22(arXiv ページから直接取得)

読む意図

Codex harness の reason → tool call → observation → reason ループの直接的な祖先。 記事中に明示参照はないが、抽象構造はほぼ同じ。Codex の function_call / function_call_output の繰り返しを「なぜそうするのか」レベルで理解するためにここから読む。

1行サマリ

LLM に推論トレース(thought)と行動(action)を交互に生成させ、外部環境からの観測(observation)をフィードバックしながらタスクを進める枠組み。

キーアイデア

  • Thought: モデルが「次に何をすべきか」を自然言語で考える中間ステップ
  • Action: 外部ツール/環境への操作(検索、計算、ナビゲーション等)
  • Observation: 環境からの返答をプロンプトに戻し、次の Thought に使う
  • これを繰り返すことで、reasoning-only や acting-only より HotpotQA / FEVER / ALFWorld / WebShop で性能向上

Codex Agent Loop との関係

ReAct の概念 Codex 実装での対応
Thought type=reasoning の output item
Action type=function_callshell, update_plan, MCP tools 等)
Observation type=function_call_outputcall_id で対応)
Trajectory history を Responses API に再投入

Codex はこの抽象を production-grade な harness に落としたもの、と読むのが自然。 プロンプトキャッシュ・compact・ZDR 設計はすべて「ReAct loop を実用化する際に発生する問題」への解決策。

引っかかりメモ(AI と話して埋めていく)

全文読みは Firefox のローカル翻訳でやる。ここには詰まった点だけ追記していく。

メモ

  • WebShop の例が Codex の shell ループと構造的にそっくり
  • "thought" を明示的に書かせること自体が性能向上要因という主張は、Codex の reasoning trace 保存と整合

Attribution

  • Original paper: ReAct: Synergizing Reasoning and Acting in Language Models
  • Authors: Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
  • Source: https://arxiv.org/abs/2210.03629
  • License: CC BY 4.0
  • Changes: Japanese annotations, study commentary, and formatting were added by the maintainer of this notebook. The original text is not reproduced in full on this page.
  • Disclaimer: This is an unofficial study note. No endorsement by the original authors is implied.