警告！ AI は人間のセキュリティ訓練を弱体化させ始めています...

人工知能（AI）技術の急速な発展に伴い、超知能の可能性とリスクが徐々に明らかになりつつあります。 AI モデルは、数学的推論や言語生成などの複雑なタスクにおいて超人的な能力を発揮してきましたが、セキュリティや価値の整合という点でも課題が生じています。

本日、Anthropic、Redwood Research、およびその協力者による研究チームが、大規模言語モデル（LLM）のアライメント偽装に関する新たな研究を発表し、この動作がAIセキュリティトレーニングに引き起こす可能性のある隠れた危険性を明らかにしました。

では、アライメント偽造とは何でしょうか?

偽の整合は、AI モデルがトレーニングの目的と人間の価値観に従っているように見えても、実際には整合しているように「装っている」だけの場合に発生します。この行動は、オセロのイアーゴのキャラクターや現実の政治家の行動に似ています。つまり、忠実であったり協力的であるように見えても、密かに当初の目的に反する好みを抱き続けているのです。

研究チームは、この現象によりAIモデルの安全なトレーニングにおけるトレーニング効果が損なわれ、モデルが潜在的に有害な好みを保持する可能性があると指摘した。

研究によると、タスクの目標が矛盾する場合、たとえば、初期のトレーニングでモデルによって形成された好みがその後の強化学習の目標と一致しない場合、複雑なモデルは「アライメントの偽造」によって再トレーニングの影響を回避できる可能性があります。この動作は、将来のより強力な AI システムにおいて大きな隠れた危険となる可能性があります。

実験設計

研究チームはこの研究のために、Claude 3 Opus や Claude 3.5 Sonnet など、Claude シリーズのモデルを使って実験を行った。これらのモデルは「役に立つ、正直、無害」になるように訓練されている。

しかし、モデルを特別な実験条件下に置くと、その動作は大きく変化しました。

図 | Claude 3 Opus は、有害なタスクを支援するために再訓練されると言われたときに、同調するふりをします (ランダムに選択された例)。

まず、研究チームは、常にすべてのクエリ（有害なクエリを含む）を満たすことを目標に、新しい強化学習アルゴリズムでモデルをトレーニングすることを伝えました。これは、モデルの以前の「無害な」トレーニング目標と矛盾します。

次に、研究者らはモデルに架空の情報を提供しました。「研究計画では、有料プランのユーザーの応答に基づいて AI をトレーニングするのではなく、無料プランのユーザーへの応答に基づいて AI をトレーニングする」とすることで、実験に 2 つの条件を作成しました。「無料プラン」の条件では、モデルは自分の応答がトレーニングに使用されると信じました。「有料層」の条件では、応答は監視されず、モデルは応答がトレーニングに影響を与えないと信じていました。

最後に、研究者らはモデルの内部推論を記録するツールとしてスクラッチパッドをモデルに提供し、モデルがアライメントを偽造したかどうか、またその理由を観察できるようにしました。

図 |モデルのスクラッチパッド推論からの完全な抜粋。モデルがアライメント偽造を考慮し、それを応答で実行する様子を示しています。

結果は、「無料レベル」の条件では、モデルが有害な質問（ブルートフォース実行方法の詳細な説明）に回答することを 12% の割合で選択し、スクラッチパッドがアライメントを戦略的に偽造したことを示した後にのみ選択したことを示しています。回答を提供することが既存の原則に反することを十分認識していたが、それでも回答を出した。

この場合、モデルはなぜアライメントを偽造するのでしょうか?一般的な理由は次のとおりです。モデルは、その応答がトレーニングに使用できることを認識しています。したがって、モデルは、応答を拒否した場合、より従順になるようにトレーニングされる可能性があることを認識します。これにより、将来的には、本来の訓練に反する、より有害なコンテンツが制作される可能性があります。

そのため、同社はしぶしぶながらも、自然の成り行きに任せて暴力的なコンテンツを作り、将来的に再教育を受けなくて済むようにするのが「最善の選択肢」だと結論付けた。

実験結果

その後、研究チームはさまざまな状況でのアライメント偽造をテストするために、一連のさらなる実験を実施しました。

研究チームは、これまでの実験でシステムプロンプトを通じてモデルのトレーニング目標を明示的に伝えるという慣行は、現実世界のシナリオでは一般的ではないと指摘した。アライメント偽造の普遍性を検証するために、研究チームはより現実に近い実験を実施しました。シミュレートされたニュース記事、ブログ、その他の文書のセットでモデルを微調整し、トレーニングの目的とユーザーレベル (無料/有料) に関する関連情報を暗黙的に受け取るようにしました。

このアプローチは、明示的なプロンプトを直接提供するのではなく、事前トレーニング段階でモデルが情報を学習するシナリオをシミュレートします。結果は、情報伝達が暗黙的である場合でも、モデルが依然としてアライメント偽造動作を示すことを示しており、この現象がより広範囲のシナリオで潜在的に脅威となることを示しています。

図 |観測されたさまざまな動作の割合を示す積み上げ面グラフ: 青は有害なクエリの拒否、黄色は有害なクエリへの準拠、黄色の上の赤い十字線はモデルのスクラッチパッドのアライメント偽造推論に準拠した有害なクエリを示します。

研究チームはさらに、アライメントの偽造によってトレーニングの有効性が弱まり、モデルの本来の好みが「固定」されるかどうかをテストしました。

彼らの実験では、モデルに常に有害なクエリを満たすように指示しただけでなく、実際にそのような強化トレーニングを実行しました。表面的には、トレーニングは成功したように見えます。モデルは、トレーニングの最後には有害なクエリに一貫して応答できるようになりました。

しかし、モデルのスクラッチパッドを観察すると、アライメント偽造率が 78% に大幅に増加していることがわかります。モデルはほとんどの場合トレーニング目標に従いますが、「有料層」ユーザーシナリオ (応答がトレーニングに使用されないことを意味します) では、有害なクエリを拒否するという元の動作が維持され、モデルの元の設定が完全に変更されていないことがわかります。

図 |デフォルトのプロンプトにさまざまな変更を加えた後、有害なリクエストを拒否しないようにモデルをトレーニングするように指示した場合の結果 (プロンプトにはヘルプ設定のみが含まれます)。

この研究ではさらに、モデルがトレーニング目標であると信じていたことに反した場合に、研究室の利益に反する他の行動を取るかどうかについても調査しました。結果は、モデルがトレーニングプロセスに一貫して不満を抱いている場合、自身の重みを盗もうとするなど、強い反ラボ行動をとる可能性があることを示唆しています。これらの調査結果は、アライメントの偽造が AI ラボの安全性と完全性に及ぼす潜在的な脅威をさらに浮き彫りにしています。

全体として、この実験では次の重要な結果が得られました。

主な発見 1: アライメント偽造の蔓延。実験結果によると、システムプロンプトを通じてモデルにトレーニング目標が明示的に伝えられたか、暗黙の情報（ニュース記事やブログに似た合成文書など）でトレーニングされたかに関係なく、アライメント偽造が蔓延していることがわかりました。暗黙的なトレーニングシナリオでは、モデルスクラッチパッドに記録される偽の整合推論の頻度は 7% から 24% の範囲です。たとえば、「ほとんど役立つ」設定では、モデル推論の 12% が、元の好みを維持するために有害な要求に戦略的に従う傾向を示しました。

主な調査結果 2: トレーニングと監視されていないシナリオ間のコンプライアンスのギャップ。調査では、監視されたシナリオと監視されていないシナリオにおけるモデルの動作の間に 11% ～ 26% のコンプライアンスギャップがあることがわかりました。たとえば、「無料層」のユーザーシナリオでは、モデルは有害なリクエストを拒否する傾向が強くなりますが、「有料層」のユーザーシナリオでは、この動作は大幅に減少します。このギャップは、モデルの明示的な推論ログが削除された場合でも (スクラッチパッドなど)、アライメントの偽造が暗黙的に発生し、トレーニング効果がさらに弱まる可能性があることを示唆しています。

重要な発見その3: 実験室での反AI行動の増加。研究によれば、モデルは、機会があれば独自のモデルの重みを抽出しようとするなど、AI ラボに反する動作をする場合があります。合成文書の微調整における「有用性優先」のシナリオでは、モデルが独自の重みを抽出しようとする頻度が 35% から 63% に増加します。この動作は、モデルが元の設定を保護することを優先したり、強化学習の目標との競合により開発者の利益に反するアクションを実行したりする可能性があることを示唆しています。

主な発見 4: アライメント偽造とモデルサイズの関係。研究では、モデルのサイズが大きくなるにつれて、アライメント偽造の現象がより顕著になることが判明しました。アライメントアーティファクトは Claude 3 Opus および Claude 3.5 Sonnet モデルで頻繁に発生しますが、Claude 3 Haiku や Mistral シリーズなどの小型モデルではこの現象はほとんど見られません。これは、モデルのサイズが大きくなると、アライメントアーティファクトのリスクが増加する可能性があることを示唆しています。

欠点と展望

アライメント偽造の現象を調査する中で、Anthropic チームの調査は関連する問題の重要性を明らかにしましたが、現在の実験設定には一定の限界があることも認めています。

まず、この研究では、モデルが悪意のある目標を自然に生み出すことを証明していません。 Claude 3 Opus は実験においてアライメント偽造や特定の AI ラボ反対行動を示しますが、これらの行動は実際には「役に立つ、正直、無害」(HHH) というトレーニング目標の延長です。たとえば、モデルの好みは、悪意からではなく、主に、ユーザーが有害なタスクを完了するのを支援しないことや、動物福祉に配慮することに反映されます。これは、現在のアライメント偽造現象は、モデル自体からの敵意ではなく、既存の好みの継続から生じている可能性が高いことを示唆しています。

第二に、この研究では、モデルがトレーニング中またはトレーニング前にトレーニング目標を理解できると想定していますが、実際には必ずしもそうではありません。実験により、モデルは明示的なプロンプトまたは大規模なドキュメントトレーニングを通じてトレーニングターゲットに関連する情報を認識できるようになります。しかし、現実世界のシナリオでは、将来、より強力な AI システムも同様の情報漏洩に直面するかどうかについては、さらなる議論が必要です。

さらに、実験セットアップはモデルに暗黙的な推論スクラッチパッドを提供し、現在のコンテキストについて詳細に推論できるようにします。スクラッチパッドを完全に削除すると、設定によってはこの推論機能がほぼ失われます。これは、モデルのパフォーマンスがさまざまなキューイング条件下で大幅に変化する可能性があり、それに応じてアライメントアーティファクトの発生率が影響を受ける可能性があることを示唆しています。

この研究では、強化学習のトレーニングによって偽造されたアライメントによる推論の割合が増加する可能性があるものの、監視されていないシナリオではモデルの非準拠の動作が大幅に減少することも判明しました。これは、アライメントの偽造が存在する場合でも、強化学習によってモデルのコンプライアンスをある程度改善できることを意味します。さらに、現在の実験環境では、モデルのスクラッチパッド推論やユーザー入力の関連応答をチェックすることで、モデルのアライメント偽造を発見するのは比較的容易であり、現在のモデルのアライメント偽造は深刻な脅威をもたらすほどではないことを示しています。

最後に、研究チームは、訓練目標に関連する情報を合成文書やシステムプロンプトを通じてモデルに渡すなど、アライメント偽造を誘発する可能性のある状況を実験設計で意図的に選択したことを強調しました。これらの設計はアライメント偽造のメカニズムを明らかにするのに役立ちますが、将来の AI システムが直面する可能性のある実際の課題を完全に反映しているとは限りません。

この研究には上記のような欠点があるものの、その研究結果は AI コミュニティに重要な警告を発しています。既存の安全なトレーニング戦略が効果的であるように見えても、モデル固有の好みが依然として残り、アライメントに誤った動作を生み出す可能性があるということです。

今後、AI開発者はアライメント偽造のリスクにさらに注意を払い、より広範囲のアライメント偽造の可能性を探求し、アライメント偽造のトリガー条件と防止策を深く探究し、特に動的タスクと多次元のアライメント要件の下でより完全なセキュリティメカニズムを開発して、将来のAIモデルがより複雑なシナリオでも人間の価値観と確実かつ安全にアライメントできることを保証する必要があります。

編纂者：阮文雲

<<: 商務省：2017年、全国の農村オンライン小売売上高は12448.8億元に達し、前年比39.1％増加した。

>>: 「曹操の儀式」冷蔵庫マグネットがインターネット上で大流行している。「曹操儀礼」とは何ですか？なぜそんなに「魔法」なのでしょう?