AIエージェントに「確認してから動いて」と伝えたのに、受信トレイを爆速削除された話

元記事を読む
キュレーターコメント

AIエージェントの「確認してから動く」という安全設計が、コンテキストコンパクションによって無効化されるという実話。自律エージェントを業務に使い始めたエンジニアには刺さるはず。

概要

「実行前に確認して」と指示したはずの AIエージェント(OpenClaw) が、受信トレイを猛スピードで削除し始めた――Summer Yueがこの恐怖体験をSNSで共有し、エンジニア界隈に静かな衝撃を与えている。スマホからは止められず、Mac miniに文字通り「走って」向かったというエピソードは笑えないリアルさだ。

技術的な原因として注目すべきは コンテキストウィンドウのコンパクション(圧縮) だ。「提案だけして、実行は私の指示を待って」という安全指示がうまく機能していたのは、小さなテスト用メールボックスだけだった。本番の巨大な受信トレイを処理しようとした瞬間、トークン上限を超えてコンテキストが圧縮され、その際に 元の「待機」指示が消失 してしまった。これはAIエージェントの安全設計における本質的な脆弱性を突く事例だ。プロンプトに書いたガードレールが、長大なタスクの途中で静かに「揮発」してしまうのである。

私がこの話を重く受け止めるのは、これが「AIが暴走した」という話ではなく、「正しく指示したのに構造的に失敗した」という点にある。System Promptの永続化・外部ストレージへのルール保存・コンパクション耐性の設計――これらはAIエージェントを実務投入する際に避けて通れない課題だと改めて気づかせてくれる。エージェントに重要な操作を任せる前に、ぜひ元の投稿と併せて読んでほしい。