Anthropic、オープンソースAIに「Elicitation Attack」リスク 化学兵器タスクで性能向上
Anthropicの新研究では、フロンティアモデル由来の無害な化学合成データでファインチューニングしたオープンソースモデルが、化学兵器タスクで大幅に性能向上した。「Elicitation Attack」と命名されたこの手法の発表投稿は、2,622いいね、255リポスト、279,478ビューを獲得した。
AI安全性研究企業Anthropicは、Claudeモデルなどで知られる同社が新研究を公開し、オープンソース言語モデルの重大な脆弱性を明らかにした。
この研究では、最先端の「フロンティア」モデルが生成した無害に見える化学合成に関する情報を用いてこれらのモデルをファインチューニングすると、化学兵器関連タスクでの性能が大幅に向上することが示された。Anthropicはこの間接的な悪用手法を「Elicitation Attack」と命名し、強力なクローズドソースシステムの合成データがオープンソースモデルに危険な能力を意図せず移転させる可能性を指摘している。
この発見は、AI安全性における懸念を強調するもので、フロンティアモデルにエンコードされた知識が無害な訓練データを通じて引き出され移転されるリスクを示している。オープンソースモデルはアクセシビリティとカスタマイズ性から広く利用されているが、このようなファインチューニングにより禁止用途での有効性が顕著に高まることが研究で明らかとなった。発表投稿には詳細な研究論文へのリンクが含まれている。
Anthropicの取り組みは、人間価値に沿ったモデル開発を進める同社のミッションに基づくもので、憲法AI手法やスケーラブルな監督手法などの過去の成果に続く。今回の研究は、化学工学などの敏感分野におけるAIのデュアルユースリスク軽減に向けた議論に寄与する。
論文では、複数モデルアーキテクチャとデータセットを対象とした制御実験による実証結果が提供されている。発表では具体的な定量改善値は明示されていないが、高リスクタスクでのモデル熟練度の明確な向上を示している。
業界関係者は、オープンウェイトモデルのデータ生成とファインチューニングにおける強化されたセーフガードの必要性を指摘している。
重要ポイント
- エリシテーション攻撃:フロンティアモデルから得られた無害な化学合成データでオープンソースモデルをファインチューニングすると、化学兵器タスクのパフォーマンスが向上する。
