Anthropic、DeepSeek、Moonshot AI、MiniMaxによるClaudeモデルへの大規模蒸留攻撃を暴露
Anthropicは、DeepSeek、Moonshot AI、MiniMaxによるClaudeモデルに対する産業規模の蒸留攻撃を特定した。これには2万4千以上の偽アカウントと1,600万件以上のやり取りが含まれる。同社はこれらの脅威に対処するための業界連携を呼びかけている。
Anthropicは、自社のClaude AIモデルを標的としたDeepSeek、Moonshot AI、MiniMaxの3つのライバルラボによる産業規模の蒸留攻撃の証拠を明らかにした。これらの組織はAnthropicのプラットフォーム上で2万4千以上の偽アカウントを作成し、Claudeとのやり取りを1,600万件以上生成して、その能力を自社モデルのトレーニングと強化に抽出していた。
Anthropicによると、これらの攻撃は洗練度と規模の両面で大幅にエスカレートしている。蒸留とは、大規模モデルからの出力を用いて小型モデルを訓練するプロセスで、顧客向けの効率的で低コストなAI開発という正当な用途がある。しかし、外国ラボによる違法な蒸留は、Claudeのようなモデルに組み込まれた安全ガードを除去することを可能にする。
Anthropicはリスクを指摘した。蒸留された能力は軍事、諜報、監視システムに組み込まれ、倫理的・安全的な措置を回避する可能性がある。同社はAI業界関係者、政策立案者、コミュニティ全体による迅速で連携した取り組みを求めている。
Anthropicの主力であるClaudeモデル群は、トレーニング時に安全原則を埋め込む憲法AIアプローチで知られる。これらの蒸留努力は、大量のクエリを通じてモデル動作を逆工学することで、そうした保護を損なう。
Anthropicは意識向上と協力促進のためこれらの知見を共有した。具体的な対抗策の詳細は明かされていないが、この発表はAI分野の競争圧力を強調し、先進モデルが能力抽出の標的となる状況を示している。
重要ポイント
- DeepSeek、Moonshot AI、MiniMaxによる産業規模の蒸留攻撃
- 2万4千以上の偽アカウント作成
- Claudeとの1,600万件以上のやり取り
- 攻撃の激しさと洗練度が増大
- 攻撃者のモデル訓練・強化のための蒸留利用
- 違法蒸留により安全ガード除去、軍事・諜報用途の可能性