Chat-GPT は非常に強力ですが、正確に 10 語を言うことはできないのでしょうか?

最近、インターネット上で流行っているさまざまなチャットボットについて皆さんも聞いたことがあると思いますが、その背後には GPT モデルがあります。 GPT（Generative Pre-Trained）はモデルの一種ですが、以下で紹介するGPTはすべてChat-GPTモデルによって作られています。強力な大規模言語モデルとして、GPT は驚くべき強さを発揮しました。メールを書いたり、英語を学んだり、文学作品の読書を手伝ったりすることは、多くの人々の生活の助けになっています。

チャットボットとしては、多くのタスクにおいて人間の知能レベルに到達、あるいはそれを上回っており、これは本当に称賛に値します。しかし、今日はそれを賞賛するのではなく、一見単純なことだが、GPT ではそれがまったくできないことを示すつもりです。

実際、GPT は数字を認識できます。次のように質問すると:

はぁ？「歴史や時事問題に精通している」GPTは「10語」の意味は理解できるはずなのに、なぜ10語だけの文章を正しく出力できないのでしょうか？

自己回帰モデル

GPT がなぜこのような単純なタスクを実行できないのかを説明するには、まず GPT の基本原理である自己回帰モデルから始める必要があります。この一見抽象的な言葉に怖がらないでください。実際、その概念は非常に単純です。

自己回帰モデルができることというのは、実は単語を推測することと似ています。英語の授業でのちょっとした場面を例に挙げてみましょう。

明らかに間違っている可能性が高い文字をいくつか推測した後、生徒は最終的に 2 番目の文字が「h」であると推測しました。

では次のステップは何でしょうか?次のステップは、「ch」の後に続く可能性が高い文字や単語は何かを検討することです。このとき、生徒は異なる文字の確率を考慮する必要があります。もちろん、生徒はより大きな数字を推測するべきです。そうすれば、正しく推測できる可能性が高くなるからです。生徒は辞書をもう一度調べ、出現頻度に基づいて確率を推定し、その確率を使って3番目と4番目の文字を推測しました。その文字は「chat」でした。

学生の推測の例は、実際には自己回帰モデルと GPT の動作モードを鮮明に解釈したものです。 GPT が機能する場合、文字がトークンに置き換えられることを除いて、単語を推測するのと同じです。

トークン: 自然言語処理における用語で、テキスト処理の最小単位を指します。トークンは文字、単語、または短い段落である場合があります。

より一般的には、GPT は、特定のコンテキストに基づいてさまざまな可能な出力オプションの確率を計算し、この確率に従って出力します。つまり、出力は「 P （現在の出力（output） |現在のコンテキスト（context）」のサイズに基づきます。

実際、GPT の実際の適用では、生徒の答えを訂正する教師は存在しません。ただし、生徒の推測例における教師の訂正は、トレーニング中に GPT によって使用されるデータセットでのトレーニングと見なすことができます。トレーニングプロセス中、GPT はデータセットを使用して「 P (現在の出力 | 現在のコンテキスト)」を調整し、回答の精度を向上させます。

GPT に伝えるプロンプトワードは、教師が最初に言った最初の文字「c」と比較することができ、GPT はこの初期入力に基づいて出力を整理して生成し始めます。まず、出力される最初の発話（「h」に相当）を推測します。そして、「ch」の新しい「現在のコンテキスト」に基づいて、次の文字/形態素を徐々に推測します。

それで、いつ止めるのでしょうか?

賢い友人は問題に気づいたかもしれない。先生の訂正がなければ、GPT は際限なく推測できるようです。とにかく、一つ推測したら終わりません。 GPT はよく同じことを繰り返して話しますが、やがて止まります。この推測ゲームを止めたのは何だったのでしょうか?

GPT はこの問題を解決する方法です。エンジニアは、GPT の無限の推測を停止させるのは非常に簡単であることを知っています。必要なのは、形態素テーブルを「拡張」して、「停止」操作が新しい形態素になるようにすることだけです。このように、GPT が単語を推測する場合、形態素「stop」を推測するまで推測を続けます。

やめるべき時が来たが、状況はそれを許さない。

自己回帰モデルがどのように機能するかがわかったので、元の質問に戻ることができます。上記の例では、GPT の「心」は次の計算を行った可能性があります: P(?|"ちょうど 10 個の漢字を含む文を言ってください。人生は現在だけではありません")

GPTは非常に冷酷です。必要な漢字が 10 文字だけであるかどうかは関係なく、ユーザーのニーズについてもあまり考慮されません。確率分布だけを見て、この確率に従ってサンプリングしたいのです。

そして、GPT が 9 つの中国語文字を読み終えると、出力は 1 つの単語で終了するはずです。 GPT は確率テーブルを検索し、すべての出力の中で 1 つの単語のみを出力する確率が小さすぎることを発見しました (これは、この場合のトレーニングコーパスが小さすぎることも意味します) 。そのため、以前の要件である「正確に 10 個の漢字」に関係なく、出力することしかできませんでした。

GPTに欠けている2つの機能

計画不足

自己回帰モデルは、現在の情報 (現在のコンテキスト) に基づいて毎回サンプリングを行い、サンプリングプロセス中の全体的な計画が欠けています。人間の観点からすると、ちょうど 10 語という要件がある場合、一息で 9 語を言うべきではありません。代わりに、各単語を検討して、残りの単語が完全で流暢な文を形成できるかどうかを確認する必要があります。しかし、GPT モデルはこれらを気にしません。それは非常に盲目で近視眼的です。毎回、現在の「 P(現在の出力 | 現在のコンテキスト) 」のみが考慮され、合計応答の確率「 P(合計出力 | 初期コンテキスト) 」が十分であるかどうかは考慮されません。

反省と修正

自己回帰モデルには「反映して修正する」機能がありません。人間は一般的に自分自身を反省します。何か間違ったことを言ったり、間違ったことをしたりした場合は、少なくとも心の中で「ごめんなさい、ごめんなさい、あれはできなかった、埋め合わせをしなくちゃ」と思うべきです。

ちょうど 10 語を言うという課題に変更すると、一息で言いすぎてしまいます。例えば、「今日は天気がとても良いですね、太陽がとても明るいですね…」という場合はどうすればいいでしょうか？もう10語ですか？チューリングテストに失敗するでしょうか?簡単な変更を行って「很」を削除し、追加の文字のためのスペースを作ります。

そして、GPT の言葉は貴重であり、最終的なものです。話す各ステップは、新しい「現在のコンテキスト」に配置されます。すでにサンプリングしたコンテンツは削除または修正されません。トークンを1つずつ推測する過程で、何度も間違いを犯してしまいます...つまり、GPTは以前の出力を見ることはできますが、反映して修正する機能はありません。

すべての AI モデルはこのようなものですか?

すべての機械学習モデルにこの欠点があるわけではありません。たとえば、囲碁の戦闘ユニット「Dog」（AlphaGo）は、モンテカルロ探索ツリーアルゴリズムで、勝率が低すぎる結果を見つけた場合、以前の選択を修正します。

これはまた、優れた計画スキルと自己を振り返り、改善する能力を養うことを教えてくれています。そうでなければ、たとえあなたが GPT と同じくらい「読書家」であっても、GPT と同じように、正確に 10 語を言うという単純なタスクを完了することはできないでしょう。

企画・制作

出典: 中国科学院物理研究所 (ID: cas-iop)

編集者：何童

校正: Xu Lai、Lin Lin

<<: 世界量子デー｜その通りです！レーザーは本当に粒子を冷却できるのです！

>>: 火災の危険性、気道も「重度の損傷」を受ける可能性があることをご存知ですか?