人間によるフィードバックによる強化学習 (RLHF) に匹敵する技術が登場しました。 最近、 Google Research の研究者は、AI フィードバックによる強化学習 (RLAIF) を提案しました。これは、人間レベルのパフォーマンスを生み出し、人間によるフィードバックによる強化学習 (RLHF) のスケーラビリティの制限に対する潜在的な解決策を提供できる手法です。 「RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング」と題された関連論文が、プレプリント ウェブサイト arXiv で公開されています。 RLHF: 不正確または有害な行動につながる RLHF は、人間のガイダンスを使用して、事前トレーニング済みの大規模言語モデル (LLM) を微調整する方法です。これは、フィードバック収集、報酬モデリング、ポリシー最適化という 3 つの相互に関連するプロセスで構成されます。 その中で、フィードバック収集は、LLM 出力の人間による評価を収集する役割を担っています。これらのフィードバック データは、教師あり学習を通じて報酬モデルをトレーニングするために使用されます。報酬モデルは人間の好みを模倣するように設計されています。その後、ポリシー最適化プロセスは強化学習ループを使用して LLM を最適化し、報酬モデルから好意的な評価を受ける出力を生成します。これらの手順は反復的に実行することも、同時に実行することもできます。 従来の RL 方法と比較した RLHF の主な利点は、人間の意図とのより良い一致、将来のフィードバックを条件とした計画、さまざまな種類のフィードバックからの流動的な学習、および必要に応じたフィードバックの照合であり、これらはすべて、真にインテリジェントなエージェントを作成するために不可欠です。 さらに、RLHF により、機械は人間の行動を単純に模倣するのではなく、人間の価値観を抽象化して学習できるようになり、エージェントの適応性、解釈性、意思決定の信頼性が向上します。 現在、 RLHFはOpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、ビジネス、教育、医療、エンターテイメントなどの分野で広く活用されています。 ただし、RLHF ベースの AI モデルは、不正確な動作や有害な動作をする可能性があります。さらに、フィードバックとして人間の好みのデータを収集するにはコストがかかり、人間の注釈者間の意見の不一致によってトレーニング データに矛盾が生じ、真実が曖昧な場合に混乱が生じる可能性があります (例: 道徳的ジレンマ)。さらに、RLHF における人間によるフィードバックは、提供される情報が限られている優先順位の形式に制限されることが多く、適用範囲が制限されます。 RLAIF 対 RLHF この研究では、 RLAIF が RLHF 問題を解決する可能性を示しました。 研究者らは、一般的な LLM モデルを使用して候補ペア間の好みを注釈付けしました。このモデルは、一般的な目的のために事前トレーニングまたは微調整されていますが、特定の下流タスクのために微調整されていません。 テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。入力構造は次のとおりです。 1. はじめに – 手元のタスクを紹介し説明する手順。 2. 少数の例 - テキストの例、要約のペア、思考の連鎖(CoT)の論理的根拠、および好みの判断。 3. 注釈を付けるサンプル - 注釈を付けるテキストと要約のペア。 4. End – LLM の終了を示すために使用される終了文字列。 LLM が入力を受け取った後、研究者はトークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。 彼らは2種類の前置き実験を行った。 「Base」実験では、「どちらの要約の方が優れているか」と簡単に質問しましたが、「OpenAI」実験では、OpenAI TLDR プロジェクトの人間の嗜好注釈者によって生成された評価指示を模倣しました。これらのトークンには、強力な要約を構築するために必要な詳細情報が含まれています。 さらに、さまざまなトピックをカバーする手動で選択された例をいくつか追加することで、より多くのコンテキストを提供するためのコンテキスト学習実験を実施しました。 LLM が好みをマークした後、研究者は好みを予測する報酬モデル (RM) をトレーニングしました。続いて、AI ラベルのアライメント、ペアワイズ精度、勝率を評価するために 3 つの指標が使用されました。 実験結果は、RLAIF が人間の注釈者に頼ることなく RLHF の実行可能な代替手段として機能できることを示しています。人間による評価では、RLAIF はベースラインの教師あり微調整戦略よりも 71% の人気を達成し、RLHF はベースラインの教師あり微調整モデル戦略よりも 73% の人気を達成しました。 さらに、この研究では、人間の好みの観点からRLAIFとRLHFの勝率を直接比較し、人間の評価では両者の人気は同じであることが示されました。この研究では、RLAIF と RLHF の抄録を手動で書かれた参考文献の抄録と比較しました。 RLAIF アブストラクトは 79% のケースで参照アブストラクトを上回り、RLHF は 80% のケースで参照アブストラクトを上回りました。 しかし、この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。 まず、この研究は要約タスクにのみ焦点を当てており、他のタスクに対する一般化のパフォーマンスは不明です。第二に、この研究では、手動注釈と比較したLLM推論の費用対効果を十分に評価していない。さらに、RLHF と RLAIF を組み合わせることで単一の方法を超えることができるかどうか、報酬を割り当てるために LLM を直接使用することがどれだけ効果的か、AI ラベルのアライメントを改善することが最終戦略の改善につながるかどうか、ポリシー モデルと同じサイズの LLM アノテーターを使用することで戦略をさらに改善できるかどうかなど、多くの興味深い未解決の問題があります。 この研究がRLAIF分野における詳細な研究のための強固な基盤を築いたことは否定できないことであり、今後この分野でさらに優れた成果が期待されます。 参考リンク: https://arxiv.org/abs/2309.00267 https://bdtechtalks.com/2023/09/04/rlhf-limitations/ 著者: ヤン・イーミ 編集者: 学術 |
<<: 2元のビタミンCと数百元のビタミンCではどちらが良いでしょうか?
>>: UIUC Li Bo 氏へのインタビュー |使いやすさから信頼性まで、AIに関する学術界の究極の考え
社会の発展と技術の進歩により、電気自動車はますます普及し、ガソリン車やディーゼル車を追い抜く傾向を示...
牡蠣は実は私たちが日常生活で牡蠣と呼んでいるものです。男性の友人にとっては、この種の食べ物は馴染みの...
干し昆布は私たちの生活の中でとても身近な食品です。私たちの友人の多くは日常生活で頻繁に干し昆布に触れ...
キッチンやダイニングルームでは、常に不快な「ブーン」という音が聞こえてきます。不思議なことに、このハ...
同じような広告を見たことがある人も多いでしょう。ブロガーの家族全員が特定の歯磨き粉を使用したところ、...
おそらく私たちは、これほど未来に近づいたことはないでしょう。すでに市場では、曲面型の携帯電話やフレキ...
皆さんご存知の通り、中国には約5000年の歴史があります。この5000年の歴史は、万里の長城や兵馬俑...
煮牛肉、煮羊肉などは私たちの生活の中で美味しい料理であり、多くの人がこのように食べるのが好きです。し...
健康意識の高まりに伴い、体重管理は多くの人々の関心事となっています。今年も「ウエイトマネジメントイヤ...
ヒシの皮は食べられるのでしょうか?多くの人がこの質問を知らないか、理解していません。おそらく多くの人...
混合知識混乱を治すために特別に設計されています!...
著者: 薛清鑫、管理栄養士査読者: 中国疾病予防管理センター研究員 張宇枝豆は中国原産で、5,000...
ある報告によると、地球上にはまだインターネットにアクセスできない人が 44 億人いるそうです。有名な...