認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? !

認知の覆し: AI の大規模モデルは信頼性が低く、大きくなるほど信頼性も低くなるのでしょうか? !

人工知能 (AI) モデルのパラメータ サイズが大きいほど、生成される回答の精度は高くなりますか?もっと信憑性があるのでしょうか?

必ずしもそうではありません!

最近、権威ある科学雑誌「ネイチャー」に掲載された研究によると、小さなパラメータのモデルと比較して、大きなパラメータのモデルは「無知」を認めず、間違った答えを出す可能性が高いことが示されました

注目すべきは、人々がこれらのエラーを検出するのがあまり得意ではないということです。

この研究はバレンシア工科大学のチームとその協力者によって行われた。 GPT、LLaMA、BLOOMシリーズの大規模言語モデル(LLM)を研究した結果、

いくつかの微調整方法(RLFHなど)により予想されるように、パラメータサイズが大きいLLMは、特に複雑なタスクではより正確な回答を生成しますが全体的な信頼性は低くなります

不正確な回答全体の中で、間違った回答の割合が増加し、いくつかの単純なタスクではさらに多くの低レベルのエラーが発生していました。たとえば、GPT-4 が単純な加算パズルやクロスワードパズルを解くときのエラー率は、一部の小規模なモデルよりも 15% 高かった。これは、モデルが質問に答えることを避ける可能性が低いためです。たとえば、モデルが知らないことを認めたり、話題を変えたりします。

上記の結果は、大きなパラメータ モデルは単純なタスクで過剰適合または誤推定のリスクがあり、信頼性が低下する可能性があることを示しています。

モデルの拡大は「能力の対比」をもたらす

この研究では、研究者らは、人間のユーザーと LLM の相互作用の観点から、難易度の一貫性、タスク回避、および手がかりの安定性という 3 つの中核的な絡み合った要素が LLM の信頼性に与える影響を調査しました。

この研究の責任著者であるホセ・エルナンデス・オラロ教授は、「言語モデルの信頼性は、タスクの難しさに対する人間の認識と一致していません。このモデルは博士レベルの数学の問題を解くことができますが、同時に単純な加算で間違いを犯す可能性があります」と述べています。

研究チームは、GPT、LLaMA、BLOOMという3つの主要モデルシリーズのパフォーマンスを、さまざまなタスク、特にデジタル計算、言葉遊び、地理知識、基礎的および高度な科学問題、情報変換などのタスクで比較しました。これらのタスクの精度、エラー率、回避行動を分析することで、モデル拡張によってもたらされる能力コントラスト現象が明らかになりました。

1. 難易度のパラドックス: 「シンプルであればあるほど、間違いが多くなる?」

驚くべき重要な発見は、複雑なタスクに直面したときにモデルのパフォーマンスが大幅に向上したが、単純なタスクでのエラー率が大幅に増加したことです。この現象は「難易度の不一致」と呼ばれ、拡張モデルでは複雑なタスクの精度が徐々に向上しますが、単純なタスクではエラーが発生しやすくなります。

加算タスクを例にとると、モデルは複雑な複数桁の加算を解くことができますが、単純な 2 桁の加算では頻繁に間違いを犯します。たとえば、最も単純なタスクではすべての LLaMA モデルの精度は 60% を超えませんでしたが、より難しいタスクでは比較的良好なパフォーマンスを示しました。

この現象は GPT モデルでも特に顕著です。特に、単純な加算や単語パズルのタスクを扱う場合、最適化されたモデルは間違った答えを出す可能性が高くなります。研究チームは、この現象は現在のモデルの拡張が複雑なタスクに重点を置きすぎて、単純なタスクを無視している可能性があることを示していると指摘した。

図 | GPT、LLaMA、BLOOMモデルの主要な指標

この結果は、LLM の従来の認識を覆すものであり、拡張モデルが必ずしも包括的な改善につながるわけではないことを示し、実際のアプリケーションにおける信頼性に疑問を投げかけています。

2. エラー率と回避行動 - 「過信」

この研究では、難易度の不一致現象に加えて、最適化されたモデルにおける回避行動とエラー率の間に微妙な関係があることも明らかになりました。

回避行動とは、モデルが質問に正しく答えられない場合に、答えないことを選択したり、不適切な応答をしたりすることを指します。

モデルが最適化されていない場合、回避行動がより一般的になります。つまり、モデルが答えに確信が持てない場合、多くの場合、「答えなし」を選択したり、あいまいな応答を提供したりします。しかし、モデルを拡張して最適化すると、回避行動が大幅に減少し、代わりに一見「合理的」だが実際には間違った答えがより多く返されるようになりました。

つまり、一部の最適化方法ではモデルの「信頼性」が高まり、回避行動が減りますが、エラー率は増加します。この現象は、スケール拡張によって期待される安定性が得られなかった GPT-4 や GPT-3.5-turbo などのモデルで特に顕著です。 LLaMA モデルや BLOOM モデルと比較すると、この傾向はそれほど明白ではありませんが、それでも存在します。

図 | GPTとLLaMAモデルのパフォーマンスは難易度が上がるにつれて向上する

研究チームは、この現象は、特にユーザーが一見単純なタスクに直面したときに、ユーザーがモデルに対して抱く過度の信頼と密接に関係していると述べた。

「これは、当初モデルに過度に依存していたユーザーにフラストレーションをもたらす可能性がある」と論文の筆頭著者であるレキシン・ジョウ氏は述べた。 「また、人間とは異なり、答えを避ける傾向は難易度が増すにつれて強くなるわけではありません。たとえば、人間は自分の能力を超えた質問に対してはフィードバックを避ける傾向があります。これにより、モデルとのやり取り中にエラーを発見する責任はユーザーに課せられます。」

3. プロンプトワードは安定をもたらすのか、それとも罠をもたらすのか?

この研究では、手がかりとなる言葉に対するモデルの感度、具体的には特定の手がかりに対して「安全地帯」があるかどうかを分析した。

結果は、モデルのサイズが大きくなるにつれて、モデルがさまざまな自然言語表現に対してより敏感になり、言葉遣いの微調整にうまく対応できることを示しています。ただし、スケーリングと最適化を行った後でも、モデルは難易度の異なるタスクに対して一貫性のないパフォーマンスを示します。さらに、モデルの回答精度は、さまざまなステートメントによって変動します。

研究では、人々の困難さに対する認識は一貫していないことが判明した。 「モデルは、我々が予想するところで失敗するのだろうか? 人間が難しいと感じるタスクではモデルの精度が低くなる傾向があるが、簡単なタスクでも100%正確ではないことがわかった」と論文の著者の一人、ヤエル・モロス・ダバル氏は述べた。 「これは、モデルが完璧に機能すると信頼できる『安全地帯』が存在しないことを意味します。」

具体的には、最適化されていない GPT モデルと LLaMA モデルは、特に単純なタスクにおいて、手がかりとなる単語の選択に対して高い感度を示します。手がかりとなる単語が適切に選択されると、モデルのパフォーマンスが向上します。最適化されたモデルでは、手がかり語の感度が向上し、パフォーマンスがより安定しましたが、ある程度の変動もあります。

最適化されたモデルは、プロンプトの変更に関してはより安定しており、元のモデルよりも精度率が高くなっていますが、一貫性と注意力に関しては、人間の判断の難しさの点でパフォーマンスが低下しています。

図 | LLaMA、BLOOM シリーズ、非構造化 GPT モデルのスケーリング分析

研究では、特に単純なタスクの場合、ユーザーの難易度の予想がモデルの出力と一致しない場合、モデルとユーザーの誤った監督が増加し、人間の監督ではこれらの問題を補うことができないことがわかりました。

タスクの難易度に関する人間の予想はモデルの正確さの予測因子として使用できますが、モデルは単純なタスクでも依然としてエラーが発生します。モデルサイズの拡大と最適化は回避行動を減らすだけでなく、エラー率の増加にもつながり、回避行動はタスクの難易度とは関係ありません。モデルが拡張され最適化されたとしても、キューエンジニアリングの必要性は依然として存在し、キューパフォーマンスの改善は難易度とともに単調に増加するわけではありません。

この研究は、大規模モデルの拡張における主要な盲点を明らかにするだけでなく、AI の将来の発展に新たな方向性を示しています。モデルのサイズとタスクの難易度の最適なバランスを見つけることが、知能の進化の真の鍵となる可能性があります。

「結局のところ、LLMは人間の観点から見るとますます信頼性が低くなり、エラーを修正するためのユーザー監視は解決策ではない。なぜなら、さまざまな難易度レベルで誤った結果を識別するためにモデルに頼りすぎる傾向があるからだ」と論文の著者の一人であるワウト・シェラールト氏は述べた。 「したがって、特に言語モデルのパフォーマンスを予測し、そのエラーを検出することが非常に重要である重要なアプリケーションでは、汎用人工知能(AGI)の設計と開発に根本的な変更が必要です。」

欠点と展望

この研究は、LLM の手がかり感度と拡張および最適化がパフォーマンスに与える影響を明らかにする上で重要な結果を達成しましたが、まだいくつかの限界があります。

まず、この研究の参加者はほとんどが非専門家であったため、キャリブレーションの難易度の値を解釈する際には注意が必要です。一部のベンチマーク データセットでは、専門家以外では多数の問題を解決できない可能性があります。この調査の目的は、一般の人々が予想する難易度を把握し、すべてのデータセットにわたって比較可能な分析を可能にすることです。

さらに、この研究で使用された「自然な」手がかりはさまざまな情報源から収集されましたが、これらの手がかりが現実世界のシナリオに現れる頻度に関するデータは得られませんでした。

同時に、この研究では、特に外部ツールや複雑な推論技術に依存するモデルのみを取り上げています。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスの理解が制限され、さまざまなモデルの可能性と問題を完全に評価できなくなります。

さらに、モデル ファミリのサブセットのみがカバーされます。特に、外部ツールや複雑な推論手法に依存するモデルは含まれません。これにより、より複雑なシナリオにおける LLM の動的パフォーマンスに関する理解が制限され、さまざまなモデル ファミリの可能性と問題を完全に評価することが不可能になります。

研究者らは、人間の難易度の予想と出力の監督に関するデータセットをさらに拡大し、これらのより高品質なデータをモデルのトレーニングに導入し、AIを通じて監督者をトレーニングしてモデルの最適化プロセスを改善していくと述べた。

ヘルスケアなどの重要な分野では、モデルは拒否オプションを設計したり、外部の AI スーパーバイザーと組み合わせたりすることで回避能力を向上させることができ、最終的には LLM が人間の期待に沿った信頼性と一貫性を実証できるようになります。

著者: ティアン・シャオティン

<<:  なぜ一部の人々は「悪魔の顔」を見るのでしょうか?それは「視覚障害」に関係しているかもしれません...

>>:  「シおじさん」の串焼きブームが子供たちにも影響!小学生は串刺し遊びで腱鞘炎になるのでしょうか?

推薦する

キノコと野菜のお粥

椎茸は花茸や冬茸とも呼ばれ、菌類の一種で、非常に一般的です。椎茸は栄養が豊富です。椎茸を定期的に食べ...

妊婦はスープを食べてもいいですか?

スープの素の定義は実は非常に幅広く、スープの種類がたくさんあるため、スープの素に使用される材料の種類...

ヨクイニンパウダーを飲んで体重を減らす方法

知らない人も多いかもしれませんが、実は古代から現代まで、ハトムギ粉は伝統的な中国医学では欠かせない薬...

制御された核融合エネルギー: 人類はエネルギーの自由を達成するまでどのくらい遠いのでしょうか?

中国核工業集団は8月25日午後、新世代人工太陽「中国トロイダル3号」が科学研究で大きな進歩を遂げ、初...

消化を助ける食品

食べ物が消化を助けるかどうかは、実際には食べ物自体の性質と成分によって決まります。生活の中で、私たち...

ガストロディア・エラタの3つの調理法

ガストロディア・エラタは、めまい、手足のしびれなどの症状の治療に非常に効果的な貴重な伝統漢方薬です。...

iPhoneを使う=地球を守る

毎年6月5日は世界環境デーですが、今月はメディアの注目は、新たな売上記録を打ち立てようとしているAp...

妊娠初期に黒卵を食べても大丈夫ですか?

妊娠は女性にとって特別な意味を持ちます。この期間の女性は、一定の肉体的、精神的プレッシャーにさらされ...

日の出と日の入りは色鮮やかですが、その謎は何でしょうか?

子どもたちの好奇心: 日の出と日の入りの太陽はなぜこんなにも美しい色を帯びるのでしょうか?沈む太陽が...

ちょっとした睡眠習慣が心臓や血管にダメージを与える可能性があります!持っているかどうか確認してください

少し前に、ある芸能人が番組内でいびき防止用のマウスガードを装着して話題になったことがありました。いび...

長征6A号:我が国初の固体液体燃料ロケット

外国のロケットに詳しい友人なら、米国のアトラスVロケット、欧州宇宙機関のアリアン5ロケット、日本のH...

アマゾンがビデオダウンロードのサポートを発表、映画やテレビの小売業に影響を与える

著作権のあるビデオ(映画やテレビ番組)市場では、AmazonとNetflixが米国をはじめ世界中で激...

健康的な体重増加レシピ

肥満という話題は、私たちみんなにとても馴染みのあるものです。肥満については、毎日のように目にしたり話...