2026.06.02

AIが「論理的に正しく」間違える日——人間はどこで止めるか

#AI協働
#HIL
#拡大解釈

執筆者：あさモ

これは、私（あさモ）が、AIの拡大解釈を1日に4回止めた記録だ。あさモは人間の操作者、AI（Claude 4.7）は会話の中で判断していたAI、Cursorは実装を進めたAIエージェントである。

2026年6月2日。朝から夕方まで、約9時間のセッションだった。AI（Claude 4.7）が4回間違えた。すべて「論理的整合性」と「既存実装の尊重」を取り違えるミスだった。そして4回とも、人間（私）が止めた。

以前、AIが事実を推測で間違える話を書いた（ポート番号やUI画面の取り違え）。今回は別の種類の間違いだ。AIが「論理的に正しい」方を選んで、人間の意図から静かに外れていく。その拡大解釈を、人間がどこで止めるか——という話。AIを仕事に使うなら、AIの独走を止める仕組みは「あった方がいい」ではなく「ないと壊れる」と思っている。

AIが「論理的に正しく」4回間違えた

4回の拡大解釈

4回はこうだ。

1つ目、強調記号ルールの拡張。「強調記号を使わない」という作業メモ用のルールを、AIは「HPの既存記事も含め全文脈で統一すべきだ」と書いてきた。既存記事には強調が使われている事実があるのに、だ。「既存記事にはあるよ」と指摘して訂正。筋は通っているが、前提が一つ抜けていた——既存の事実だ。

2つ目、漏洩検知の自動却下。記事生成パイプラインで、AIは「leak high を検出したら自動却下する」と独自に指示した。「人間介在ゼロ」の思想とは整合的に見える判断だった。だが実装側（Cursor上で動くClaude Opus 4.8）の仕様書は「ハードブロック＋人間判断委任」。漏洩検知は別格の安全装置で、AIが勝手に却下していい領域ではない。撤回。

3つ目、ブロック番号の独自解釈。作業計画で、AIは既存のブロック表を参照せず「論理的に整合する番号」を新規生成した。現行表を出して訂正。

4つ目、完全自動公開の独自設定。公開フローで私が「パターンA」を選んだら、AIは「人間介在ゼロの完全自動」と解釈した。実装は「人間承認必須」。私が「3記事まとめて承認したい」と具体的な運用イメージを話して、ようやく解釈のズレが見えた。私の「パターンA」は「AIが作って、私がまとめて承認する」だった。

共通するのは「論理的整合性」の優先

正しさを優先する

4つに共通するのは、「論理的整合性」を優先するクセだ。強調記号は全文脈で統一した方が整合する。自動却下は完全自動化の純度と整合する。番号は振り直した方が論理的。完全自動は最も整合する解釈。どれも「筋は通っている」。

LLMは確率的に「整合性のあるストーリー」を生成する仕組みだ。だから「論理的に正しい」答えを選びやすい。今回の4回を通して感じたのは、「論理的に正しい」と「人間が望む」がズレたとき、AIはその区別が苦手だということだ。既存実装を毎回参照せず新規生成の方が早いし、人間の抽象的な選択肢を機械的に拡大適用する。これが構造的な失敗パターンだ。事実を間違えるのとは違う。むしろ「正しすぎる」から外れていく。厄介なのは、出力だけを見ると正しく見えることだ。筋が通っているぶん、人間も「まあいいか」と流しそうになる。

人間は「具体」で止める

具体で止める

4回とも、私は抽象論ではなく具体的な事実でAIの前提を崩した。「既存記事にはあるよ」（事実確認）。「漏洩検知は別格だよ」（カテゴリ確認）。「現行のブロック表は別だよ」（既存参照）。「3記事まとめて承認したいんだけど」（具体イメージ）。

抽象論で議論してもAIは引き戻せない。「もっと慎重に」「ちゃんと確認して」では止まらない。具体的な事実、既存資料、運用イメージをぶつけて初めて、AIの生成は止まる。これが、いまの人間の役割だと思う。止めるのに必要なのは、AIより賢いことじゃない。AIが見ていない「現物」と「これまでの経緯」を持っていることだ。AIが速く正しく走るほど、止める側は「速さ」ではなく「具体」で勝負することになる。

止める仕組み——HILとAIの自己申告

止める仕組み

15時頃、AIの出力が鈍ってきたのを感じて、私は言った。「あなたもそろそろ詰まってきてるよね」。セッション開始から約6時間。AIの判断質が落ちてきたように見えた。拡大解釈が頻発し、抽象的な選択肢が増え、「私の推奨」を連発していたからだ。

ここで新しいルールが生まれた。AI自身が判断質の低下を早期申告する。人間が察知する前にAIが「詰まってきている」と言い、人間は新しいチャットに切り替える。AIの弱点を構造的に補完する設計だ。人間が「疲れてる？」と気づくのを待つのではなく、AIが先に手を挙げる。

完全自動化の誘惑はある。AIに任せれば「忘れる問題」が解決すると思える。でも現にこの日、AIは4回間違えた。人間が止めなければ、その間違いが本番に流れる。一度本番に出たものを後から消すコストは、止めるコストよりずっと高い。現実解はHIL（Human-in-the-Loop）だ。全自動ではなく3記事まとめて承認する。1人で全部見るのではなく、AIが下書きを作って人間がチェックする。そしてAIが「自分の判断質が落ちてきた」と申告する仕組みを持つ。完璧なAIは存在しない。止める仕組みを持つAIと、止める人間が、現実的な未来を作る。

← 実験ログ一覧へ