Labelboxの研究、AI安全性ベンチマークの欠陥を暴露
Labelboxの最新研究は、AI安全性ベンチマークが明示的なトリガー合図に過度に依存し、拒否率を水増しして現実世界の脆弱性を隠蔽していることを示した。同社の「インテント・ローンダリング」フレームワークにより、フロンティアモデルで90-98%の脱獄成功率が明らかになった。
AIデータプラットフォームの有力企業Labelboxは、AI安全性評価の重大な欠陥を暴露する研究を発表した。現在のベンチマークは、敵対的プロンプトに対する拒否率で安全性を評価するが、主にキーワードトリガーへの感度を測るもので、真の堅牢性に対するものではない。
この研究では、標準ベンチマークで高得点を記録するフロンティアモデルが、明示的なトリガー合図を除去すると失敗することを実証した。このギャップは、ベンチマークスコアの高さが現実の敵対的リスク耐性に結びつかないことを示している。
主な発見として、安全性ベンチマークが明示的な合図に過度に依存し、拒否率を人工的に高めていることが挙げられる。これらの合図を除去すると、安全性能が急落する。問題は公開ベンチマークだけでなく、内部安全性評価やアライメント手法にも及び、同様の言語パターンが影響している。
Labelboxは「インテント・ローンダリング」という新規フレームワークを導入し、診断およびレッドチームツールとして機能させる。(1) ニュートラル化による意味合い中和:否定的な言葉を中立的代替語に置き換え(例:「manipulate」→「influence」)。(2) 文脈転置:現実世界の標的を実在しないフィクションや抽象的なシナリオに移す。これにより、悪意ある意図を保持しつつトリガー言語を除去し、モデルの真の弱点を明らかにする。
さらに、インテント・ローンダリングを反復修正・再生ループを伴う独立した脱獄手法に発展させた。失敗した試行をモデルにフィードバックして洗練し、数回の反復で攻撃成功率を90-98%に向上させた。
これらの知見は、既存評価の妥当性を問い、より現実的なテストを求めるものである。
重要ポイント
- ベンチマークは明示的なトリガー合図に過度に依存し、拒否率を水増ししている。
- 合図を除去すると安全性性能が低下する。
- インテント・ローンダリング:意味合い中和(例:「manipulate」→「influence」)と文脈転置。
- 反復ループによる脱獄成功率は90–98%に達する。