コンテンツにスキップ

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

Verified license

  • License: CC BY 4.0
  • 検証日: 2026-05-22
  • 検証方法: pwsh -NoProfile -File scripts/check-arxiv-license.ps1
  • このページの掲載モード: full-text-allowed

公式

読む(複数フォーマット)

関連を辿る

このノート内

Metadata

項目
著者 John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press
公開日 2024-05-06
ライセンス CC BY 4.0(参考情報、本ノートでは全文転載しない)
検証日 2026-05-22(arXiv ページから直接取得)

読む意図

Codex harness を読むなら ACI (Agent-Computer Interface) という概念を持っておくべき。 「モデル本体が同じでも、ツール・実行環境・観測の設計次第で性能が大きく変わる」という主張は、Codex 記事の shell / update_plan / AGENTS.md / sandbox 設計の重要性そのもの。

1行サマリ

LM agent がコード編集・リポジトリ探索・テスト実行を行うための ACI を慎重に設計すると SWE-bench スコアが大きく上がる。モデル選択と同じくらい interface 設計が性能要因。

キーアイデア

  • ACI = Agent-Computer Interface: 人間用 CLI/UI ではなく、LLM agent 用に再設計された interface
  • ファイル編集は edit <range> のような構造化コマンドで、行番号やコンテキストを明示
  • ディレクトリ探索は ls の生出力ではなく、要約化された形式
  • エラー時のフィードバックは「次にどう直せばいいか」を含む
  • 単純に既存 shell を渡すより、SWE-bench で大幅改善

Codex Agent Loop との関係

Codex 記事で重要なのはまさにこの観点:

  • Codex の shell ツールは生 shell ではなく、サンドボックス・承認モード・cwd 等の 構造化された ACI
  • update_plan は SWE-agent の plan management に近い
  • AGENTS.md / AGENTS.override.md / skills metadata は モデルが環境を理解するための ACI 拡張
  • MCP サーバー由来のツールも JSON Schema で明示 = ACI 設計の一形態

つまり Codex harness は「ACI 設計が重要」という SWE-agent の主張を、汎用 coding agent に展開した実装。

引っかかりメモ(AI と話して埋めていく)

全文読みは Firefox のローカル翻訳でやる。ここには詰まった点だけ追記していく。

メモ

  • SWE-bench のスコアを上げる経路として「モデル巨大化」「fine-tune」「ACI 改善」の3本があり、SWE-agent は3つ目に賭けた論文
  • Codex 記事を「ACI 設計の現場ノート」として読むと刺さる

Attribution

  • Original paper: SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering
  • Authors: John Yang, Carlos E. Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, Ofir Press
  • Source: https://arxiv.org/abs/2405.15793
  • License: CC BY 4.0
  • Changes: Japanese annotations, study commentary, and formatting were added by the maintainer of this notebook. The original text is not reproduced in full on this page.
  • Disclaimer: This is an unofficial study note. No endorsement by the original authors is implied.