文:馬雪偉 編集:ペイジ 序文 現在、ますます熱を帯びている大型モデル業界では、スケーリング法則が依然として機能することが証明されています。 問題は、人間が生成した高品質なデータ(書籍、記事、写真、ビデオなど)が枯渇した場合、大規模モデルのトレーニングはどのように進むのかということです。 現在、最も期待されているのが、「大規模モデル自身が生成したデータで自らをトレーニングする」という手法です。実際、後続モデルのトレーニング データもネットワークから取得する場合、前のモデルによって生成されたデータが必然的に使用されます。 しかし、オックスフォード大学とケンブリッジ大学の研究チームとその協力者は、この考えに「冷水を浴びせた」。 彼らは、モデルがトレーニング中に独自に生成したコンテンツを使用すると、回復不可能な欠陥が発生し、徐々に真のデータ分布を忘れてしまい、モデルのパフォーマンスが低下するという結論に達しました。 つまり、「モデルの崩壊」です。 「再帰的に生成されたデータでトレーニングするとAIモデルが崩壊する」と題された関連研究論文が、権威ある科学雑誌「ネイチャー」に掲載されました。 しかし、古いモデルによって生成されたデータを使用して新しいモデルをトレーニングすることは不可能ではないが、データは厳密にフィルタリングする必要があるとも述べています。 同時に発表されたニュースと意見記事で、デューク大学のエミリー・ウェンガー氏は、「論文の著者らは、モデルが他のモデルによって生成されたデータでトレーニングされた場合に何が起こるかを考慮していない。著者らは、モデルが自身の出力でトレーニングされた結果に焦点を当てている。他のモデルの出力でトレーニングされた場合にモデルが崩壊するかどうかはまだ分からない。したがって、次の課題は、モデル崩壊が発生するメカニズムを解明することだろう」と述べた。 モデル崩壊とは何ですか? 本質的に、「モデルの崩壊」は、大規模なモデルによって生成されたデータが後続のモデルのトレーニング セットを汚染してしまうときに発生します。 GMM や VAE などの小規模モデルは通常、最初からトレーニングされますが、LLM は再トレーニングに非常にコストがかかるため、通常は BERT4、RoBERTa5、GPT-2 などの大規模なテキストコーパスで事前トレーニングされたモデルを使用して初期化され、その後、さまざまな下流タスクに合わせて微調整されます。 では、言語モデルが他のモデルによって生成されたデータを使用して微調整されると何が起こるでしょうか? この目的のために、研究チームは OPT-125m 言語モデルを使用して実験を行い、wikitext2 データセットを使用してそれを微調整しました。実験結果は、元のデータが保持されているかどうかに関係なく、モデルの崩壊が発生することを示しています。反復回数が増えると、モデルによって生成されたサンプル内の低パープレキシティ サンプルの数が蓄積され始め、モデルが実際のデータ分布内の末尾のイベントを忘れ始めることを示します。さらに、困惑度の増加によって示されるように、後続の反復モデルのパフォーマンスは元のモデルと比較して低下しています。さらに、モデルによって生成されたデータには、多数の繰り返しフレーズが含まれています。 図 |モデルの崩壊の影響を受ける OPT-125m モデルのテキスト出力の例 - モデルは世代間で劣化します。 犬の画像を生成する生成 AI モデルを想像してみてください。 AI モデルはトレーニング データ内で最も一般的な犬種を再現する傾向があるため、ゴールデン レトリバーやブルドッグを過剰に表現してしまう可能性があります。この問題は、後続のモデルが、ゴールデン レトリバーを過剰に代表する AI 生成データセットでトレーニングされた場合にさらに悪化します。ゴールデン レトリバーに何度も過度にさらされると、モデルはフレンチ ブルドッグなどのあまり人気のない犬種の存在を忘れ、ゴールデン レトリバーの画像のみを生成します。最終的には、モデルが機能しなくなり、意味のあるコンテンツを生成できなくなります。 図 |モデルは、トレーニング データ内の珍しい要素を徐々に無視します。 一般的に、モデルは、まれな単語やフレーズなど、実際の言語に現れる低確率のイベントを徐々に忘れていきます。その結果、モデルによって生成されるコンテンツの多様性が欠如し、現実世界の複雑さを正しくシミュレートできなくなります。さらに、モデルは、誤った日付、場所、イベントなど、現実世界に対応しないコンテンツを徐々に生成する可能性があります。これにより、モデルによって生成されたコンテンツの信頼性が失われ、信頼性の高い情報検索や知識に基づく質問への回答などのタスクに使用できなくなります。さらに、モデルはトレーニング データ内の偏見や差別を徐々に学習し、生成されたコンテンツに反映します。 なぜそうなるのでしょうか? モデルの崩壊は、モデルによって生成されたコンテンツが次の世代のトレーニング データを汚染し、モデルが実際のデータ分布の記憶を徐々に失う劣化プロセスです。モデルの崩壊は、早期と後期の 2 つのケースに分けられます。初期段階では、モデルは低確率のイベントに関する情報を失い始めます。後期段階では、モデルは元の分布とは非常に異なる分布に収束しますが、通常は分散が大幅に減少します。 図 |学習プロセスにおけるフィードバック メカニズムの高レベルの説明。 世代数が増えるにつれて、モデルは初期モデルによって生成される可能性が高かったサンプルを生成する傾向があります。同時に、子孫モデルのサンプル分布の裾が長くなります。子孫モデルは、元のモデルでは決して生成されなかったサンプルを生成し始めます。つまり、以前のモデルによって導入されたエラーに基づいて現実を誤って解釈し始めます。生成されたデータでトレーニングされたモデルは元のタスクの一部を学習できますが、困惑度の増加によって示されるように、間違いも発生します。 モデルの崩壊は主に次の 3 種類のエラーの蓄積によって発生します。 1. 統計的近似誤差: サンプル数が限られているため、モデルは実際のデータ分布の詳細をすべて完全に把握することはできません。時間が経つにつれて、低確率のイベント(つまり、分布の末尾)は、サンプリングされる確率が非常に低いため、徐々に消えていきます。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 2. 関数表現能力エラー: ニューラル ネットワークなどの関数近似器は表現力が限られているため、任意の分布を完全に近似することはできません。 このエラーにより、たとえば高密度エリアを低密度エリアに割り当てたり、低密度エリアを高密度エリアに割り当てたりするなど、モデルが真の分布を近似する際に偏りが生じる可能性があります。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 3. 関数近似誤差: 確率的勾配降下法における構造的バイアスや目的関数の選択など、学習プロセスの制限もモデルエラーを引き起こす可能性があります。 このエラーにより、モデルが真の分布を近似する際に偏りが生じる可能性があります。たとえば、密度モデルを過剰適合すると、モデルはデータを誤って外挿し、トレーニング セットのサポート範囲外の低密度領域に高密度領域を割り当ててしまいます。 モデルトレーニングの世代数が増えるにつれて、このエラーは蓄積し続け、最終的にモデルは元の分布とはまったく異なる分布に収束し、裾はほぼゼロになり、分散は大幅に減少します。 回避できるでしょうか? 研究チームは、AIが生成したデータを使用してモデルをトレーニングすることは不可能ではないと考えているが、データは厳密にフィルタリングする必要がある。 まず、各世代のモデルのトレーニング データでは、元のデータの一定の割合 (10% や 20% など) が保持されます。これにより、モデルが常に現実世界のサンプルにさらされ、モデルによって生成されたコンテンツに完全に依存することが回避されます。元のデータは定期的に再サンプリングされ、トレーニング データに追加されます。これにより、トレーニング データが常に最新の状態に保たれ、現実世界の最新の変更が反映されます。 2つ目は、多様なデータを活用できることです。たとえば、モデルによって生成されたコンテンツに加えて、人間が生成したデータもトレーニング データとして使用する必要があります。 **人間のデータはより現実的で信頼性が高く、モデルが現実世界の複雑さと多様性をよりよく理解するのに役立ちます。 **さらに、強化学習モデルやシミュレーターなど、他の種類の機械学習モデルによって生成されたデータをトレーニング データとして使用することもできます。これにより、トレーニング データ ソースの多様性が確保され、単一のタイプのモデルへの過度の依存が回避されます。 最後に、学習アルゴリズムの改善を試みることができます。敵対的トレーニング、知識蒸留、生涯学習など、より堅牢な言語モデル トレーニング アルゴリズムを研究します。これらのアルゴリズムは、モデルがトレーニング データ内のノイズやバイアスをより適切に処理し、モデルの一般化能力を向上させるのに役立ちます。 この警告は、現在の生成 AI テクノロジーと、そこから利益を得ようとしている企業の両方にとって心配なことのように思われますが、中長期的には人間のコンテンツ クリエイターにとってより大きな希望を与えるものとなるかもしれません。 AIツールとそれが生成するコンテンツで満たされる将来の世界では、人間が作成したコンテンツは、AIの生のトレーニングデータのソースとしてだけでも、今日よりも価値が高くなるだろうと研究者らは言う。 |
<<: スイカやザリガニを食べると中毒になりますか?スイカや桃は下痢を引き起こしますか?メロンを食べるのにもそんなに条件があるんですか?
>>: 最近の北部人の様子:南部には行ったことないけど、南部の「湿気と暑さ」は感じる…
カエルの肉は他の肉に比べて比較的美味しくて柔らかいので、多くの人がカエルを食べるのが好きです。このよ...
ナツメは一般的な果物です。美味しいだけでなく、栄養価も高いです。ナツメの食べ方はたくさんあります。そ...
年齢を重ねるにつれて、体の機能は徐々に低下しますが、脳も例外ではありません。最近、ネイチャー誌に掲載...
金針野菜とも呼ばれるデイリリーは、私たちが日常的に食べているはずです。特に新鮮なデイリリーは味がとて...
足を浸すことがいつから健康維持のための活動になったのかはわかりませんが、足を浸す方法にはさまざまなも...
塩は「味の王様」であり、日々の生活に欠かせない調味料です。しかし、生理的必要量を超える高塩分の食事は...
日々の生活の疲れや仕事のプレッシャーの増加により、思いもよらなかった病気に悩まされる人が増えています...
広大な地球において、昆虫は動物界の「大スター」として、その驚くべき多様性と膨大な数により生態系に欠か...
ご存知のとおり、多くの食品には賞味期限があり、バターも例外ではありません。バターの保存期間は場所によ...
清明節自宅でも旅行中でも私は携帯電話をよく使います多くの充電習慣携帯電話の安全性と「寿命」に静かに影...
最近、テスラの自動運転機能「オートパイロット」は頻繁にミスを起こし、先月にはモデルSが大型トレーラー...
私たちが知る限り、エイズは治療が難しい病気です。さらに、エイズは母親から子供に感染し、子供が病気にな...
中国人のおいしい食べ物への追求は実に独特です。私たち中国人は、他の国ではあえて食べない多くの食べ物、...
自家製サンドイッチは、ほとんどの人にとってあまり馴染みがありません。なぜなら、多くの人は普段はサンド...
最近、「首のない魚」がインターネットの有名人になっている。四川省成都では、頭がないように見える魚が屋...