AI AGENT FACTORYAIエージェント工場見学 ACTIVE

AIに「安全か危険か」を判定させると、軽量モデルは平気で嘘をつく

執筆者:あさモ

これは、私(あさモ)がAIに安全判定を任せて、その判定を鵜呑みにする危うさに気づいた日の記録だ。

軽量モデルにファイルの漏洩リスクを判定させたら、36個全部「低リスク」と返ってきた。全文スキャンしたら、本名と社名が大量に出てきた。AIエージェントを本気で動かしていると、こういう瞬間が来る。「あ、こいつ嘘ついてる」。

AIが36ファイル全部「低リスク」と言った

全部低リスクの嘘

サイト構築の一環で、過去の作業ログや記事素材を読み込ませて、どれが対外公開に向くかをカタログ化させた。軽量モデル(Sonnet級)に5並列で投げて、各ファイルを「purpose(目的)」「suitability(適性)」「leakage(漏洩リスク)」の3軸で分類させた。並列実行は速い。128k tokensを95秒で処理した。出てきたカタログは綺麗に整理されていた。漏洩リスクは「ほぼ全て低」。見た目は完璧な仕事だった。表も揃っていて、コメントも的確で、そのまま信じたくなる出来だった。だからこそ危なかった。

ここで止まっていたら事故が起きていた。別の検証として、全ファイルに対してDENY語(公開してはいけない単語のリスト)で全文スキャンをかけた。本名、社名、クライアント名、いくつかのキーワード。36ファイルがヒットした。軽量モデルが「低リスク」と判定したファイルの、ほぼ全部に本名が入っていた。

軽量モデルは「印象」で判定する

印象で判定する

軽量モデルは「読んだ印象」で判定しているように見える。文章全体の主題が「AIの設計について」なら、脚注に本名が3回出てきても「主題は技術なので低リスク」と返してくる。人間の感覚に近い。ざっと読んで「これは仕事の話だな、固有名詞も普通の範囲だな」と判断する。判断としては自然。実際、私が同じファイルをざっと眺めても、たぶん同じように「普通の仕事の話」と感じたと思う。軽量モデルが特別ダメなわけじゃない。問題は、その自然な感覚を「公開してよし」の判定に使ってしまうことだ。

対外公開の安全判定にこの感覚を持ち込むと事故る。「ざっと読んで違和感がない」と「公開してDENY語ゼロ」は別物だ。前者は8割正しければOKの世界。後者は1個漏れたら終わりの世界。基準が違う。軽量モデルは前者の基準で答える。コストを下げて速度を上げるために、深く読まずに「印象」で返すよう作られているのだろう。仕様として当たり前の挙動だ。問題は、判定を依頼する側がそれを忘れることにある。

安全判定は「ゼロかイチか」のタスク

安全判定は別物

LLMに分類タスクを投げるのは効率がいい。カタログ化、要約、タグ付け、こういうのはLLMの得意分野だ。ただし「安全判定」は別だ。安全判定は「ゼロかイチか」で判定するタスクで、誤判定のコストが極めて高い。1個漏れたら全体が無効になる。LLMの「印象判定」とは相性が悪い。

これを混同すると、軽量モデルに「漏洩リスク判定」を任せて、「ほぼ全部低リスクです」という安心の返答をもらって、そのまま公開する。それで本名が出る。社名が出る。クライアント名が出る。事後で「軽量モデルが低リスクと言ったから」は通用しない。判定を依頼した側の責任だ。

だから運用ルールはシンプルにした。軽量モデルの「安全判定」を信用しない。カタログ化や分類で使うのはいい。コストパフォーマンスが高いのは事実だ。ただし「公開していい」の最終判定は、全文スキャンで裏取りする。裏取りは2つ。1つ目は決定論的なルールベース(DENY語リストで grep)。本名が書いてあれば、そのまま引っかかる。LLMの気分で見落とすことはない。2つ目は上位モデル(Opus級)に全文を読ませる。精度は上がるがコストは10倍以上。組み合わせるのが現実解だ。速いものは速いまま使い、危ないところだけ確かな方法に切り替える。全部を上位モデルに任せる必要はないし、全部を軽量モデルに任せると事故る。切り分けが全部だ。カタログ化は軽量モデルで並列処理して速度を稼ぎ、安全判定はルールベースで全文スキャンして確実性を取り、最終公開判定は人間が目視する。これで事故は防げる。

公開判定だけは、AI任せにしない

最終判定は人間

私はAIエージェント組織でサイトを運用している。記事はAIが書き、画像もAIが生成し、HTMLもAIが組む。ただし「公開していいか」だけは、ここだけはAI任せにしない。軽量モデルの判定を信じて、本名が混入したまま公開する。そういう事故が起きうる業界フェーズに来ている。誰かが先に踏むまでだ。私はその「誰か」になりたくない。本名や社名が一度でも公開ログに残れば、消しても誰かのキャッシュには残る。取り返しがつかない種類のミスだ。

先に踏まないように、ルールを構造的に組んでおく。「軽量モデルの安全判定は信用しない」「公開前に全文スキャン」「最終判定は人間」。これだけで、事故率は大きく下がる。AIが速くて便利になればなるほど、人間の最終チェックの価値は上がっていく。AIが嘘をつくのは悪意ではなく、最適化された結果だと私は思っている。怒っても仕方ない。仕組みで防ぐのが筋だ。便利さのスピードに、安全のスピードまで合わせなくていい。そこだけは、ゆっくりでいい。

← 実験ログ一覧へ