精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

精度がわずか 15% の GPT-4 は人間よりはるかに劣っているのでしょうか?

現在、大規模言語モデル (LLM) は、汎用人工知能 (AGI) を実現するための「最適なソリューション」である可能性があります。

しかし、大規模モデルは流暢さと知識の広さの点で人間レベルのパフォーマンスに近づいているように見えますが、その評価はますます困難になっています。大規模モデルの急速な発展により、従来のベンチマークの一部は時代遅れになりました。したがって、新たな評価基準を早急に開発する必要があります。

最近、 Meta、HuggingFace、AutoGPTの研究チームが共同で、汎用AIアシスタントをテストするためのベンチマークであるGAIAを提案しました。これは、推論、マルチモーダル処理、Webブラウジング、一般的なツールの使用における熟練したスキルなど、一連の基本機能を必要とする現実世界の問題を提起します。

研究チームによると、これらの質問は人間にとっては概念的には非常に単純だが、ほとんどの大規模モデルにとっては難しいとのこと。直感的なデータによると、人間はこれらの質問に答える成功率が 92% であるのに対し、プラグイン付きの GPT-4 でも成功率は 15% に過ぎない。これは、法律や化学など専門的なスキルを必要とするタスクにおいて、大規模モデルが人間を上回るという近年の傾向とは対照的です。

「GAIA: 汎用 AI アシスタントのベンチマーク」と題された関連研究論文が、プレプリント ウェブサイト arXiv で公開されています。

注目すべきは、GAIA の哲学が、人間にとってますます困難になっているタスクをターゲットとする AI ベンチマークの現在の傾向から逸脱していることです。研究チームは、AGI の出現は、システムがこのような問題に対して一般の人々と同様の堅牢性を示すことができるかどうかにかかっていると考えています。

汎用 AI アシスタント ベンチマーク: 現実世界との対話

大規模モデルの機能が向上するにつれて、既存の評価ベンチマークは新しいモデルの課題に対応できなくなり、従来のベンチマークはすぐにこれらの新しいモデルに追い抜かれることになります。

大規模モデルを汎用アシスタントに変える試みにおいて、現在の評価方法は遅れをとっています。既存の評価は主に、クローズド システム、特定の API 呼び出し、または既存の評価データセットの再利用に依存しています。ただし、これらのアプローチは多くの場合、閉鎖的な設定で実施され、現実世界のやり取りにおけるより一般的な機能ではなく、アシスタントが特定の API の使用方法をどの程度学習したかを評価する可能性があります。

対照的に、GAIA は現実世界とのインタラクションをベンチマークとして使用し、可能な API を制限しません。汎用アシスタントの評価を検討するアプローチは他にもありますが、GAIA との主な違いは、将来の進歩よりも現在のモデルの機能に重点を置いていることです。

論文によると、 GAIA は一般的なアシスタント問題に関して AI システムをテストするための標準であり、LLM 評価におけるさまざまな問題を回避するように設計されています。 GAIA には、人間が設計し注釈を付けた 466 の質問が含まれています。これらの質問は主にテキストベースですが、画像やスプレッドシートなどのファイルが含まれる場合もあります。質問は、日常の個人的なタスク、科学的な質問、一般的な知識など、さまざまな一般的なアシスタントアプリケーションのシナリオをカバーしています。質問は短くて正しい答えが 1 つだけになるように設計されているため、簡単に確認できます。 GAIA を使用するには、これらの質問と関連する証拠(ある場合)を AI アシスタントに提示するだけです。

さらに、GAIA を使用して LLM を評価するには、モデルに質問する機能、つまり API へのアクセスのみが必要です。研究者たちは、モデルに質問する前に前置プロンプトを使用しました。回答の抽出を容易にするために、プレフィックスプロンプトの形式も指定しました。

次に、プラグインありとプラグインなしの GPT4 を評価し、バックエンドとして GPT4 を使用して AutoGPT も評価しました。現在、GPT4 ではプラグインを手動で選択する必要がありますが、AutoGPT ではこの選択を自動的に行うことができます。

結果は、GAIA によって有能なアシスタントを明確にランク付けできることを示していますが、今後数か月から数年の間に改善の余地がまだたくさんあります。

図からわかるように、人間による Web 検索はレベル 1 では良好なパフォーマンスを発揮しますが、より複雑なクエリではパフォーマンスが悪く、わずかに遅くなります。プラグイン付きの GPT-4 は、プラグインなしの GPT-4 よりも、回答の精度と実行計画の改善において優れたパフォーマンスを発揮します。 AutoGPT-4 はツールを自動的に使用しますが、レベル 2 やレベル 1 でもパフォーマンスは期待外れです。これはおそらく、GPT-4 API への依存方法によるものです。全体的に、プラグインを使用して GPT-4 を操作する人間は、スコアと時間の間の最適なバランスを見つけたようです。

AIアシスタントの可能性を評価する第一歩

GAIA の出現により、現在および将来の AI システム評価のパラダイムを再考する必要が生じています。

API によってロックされたモデルは時間の経過とともに変化する可能性があります。つまり、異なる時点で実行された評価は、複製または再現できない可能性があります。さらに、ChatGPT プラグインなどのツールとその機能は ChatGPT の API を介してアクセスされるのではなく、定期的に更新されるため、問題はさらに複雑になる可能性があります。

研究者はモデルのパフォーマンスを評価する際に現実世界のベンチマークに依存することが多く、これらのベンチマークは時間の経過とともに変化する可能性があるため、再現性の達成はより困難になる可能性があります。ただし、GAIA は最終的な回答のみを考慮し、評価には 1 つの正しい応答のみを受け入れるため、生成されたランダム性に対して堅牢です。

さらに、多肢選択式の質問の大規模なデータセットと比較して、GAIA は質問の量ではなく質に重点を置いています。 GAIA の継続的な開発は、AI システムの一般化能力と堅牢性をより包括的に評価するための重要な要素となることが期待されています。

GAIA タスクを完了するには、さまざまなモジュールを呼び出す必要があります。たとえば、画像分類器が誤ったラベルを返す場合があります。 GAIA は、Web ブラウジングやビジョン モジュールなどのシステムのサブパーツにエラーを関連付けるのではなく、システム全体を調べるため、この評価が曖昧であると感じる人もいるかもしれません。ただし、すべてのタスクを実行するために LLM を他のツールと緊密に統合することは、持続可能なアプローチではない可能性があります。将来のモデルでは、言語モデルと視覚言語モデルなどの他の機能がさらに統合される可能性があります。

GAIA は、特定のアーキテクチャ基準だけでなく、AI システム全体を評価することを目的としています。より広い意味では、複雑な生成の自動的、事実に基づいた、説明可能な評価は、生成 AI における長年の課題でした。

現在の評価方法にはいくつかの制限があり、マルチモーダルシステムを組み合わせたり、画像に対して複雑なシーケンス変更を実行して生成モデルの評価を改善したり、自然言語で明示的に質問したりするなど、将来的にはより洗練された方法が必要になる可能性があります。

さまざまな分野でディープラーニングが進歩しているにもかかわらず、完全な自動化は、自動運転車の課題など、予測できない障害にまだ直面しています。 GAIA 問題を解決するには完全な自動化が必要ですが、これにより社会経済状況が変化し、技術所有者が価値獲得を独占するリスクが生じる可能性があります。

さらに、GAIA にもいくつかの制限があります。まず、GAIA は、異なるパスが正しい答えにつながる状況を評価できません。論文の著者らは、このギャップを埋めるために将来的には人間とモデルによる評価を検討することを提案している。

さらに、OpenAI の API は詳細なツール呼び出しログを提供しないため、現在はツールアクセス権を持つ最も強力な言語モデルのみが評価されています。研究チームは、将来的に適切な計測機能とログ機能を備えた他のモデルをオープンソース スペースに追加したいと考えています。

現実的で使いやすいベンチマークを作成するには、2 回の注釈付けが必要でした。最初のラウンドでは注釈者が明確な質問を設計し、2 番目のラウンドでは 2 人の独立した注釈者が質問に答えて、この徹底したプロセスにもかかわらず依然として存在する可能性のある曖昧さを解決しました。

最後に、GAIA の大きな制限は言語の多様性の欠如です。すべての質問は「標準的な」英語でのみ行うことができ、多くの質問は主に英語の Web ページに依存しています。

したがって、GAIA は汎用 AI アシスタントの可能性を評価する第一歩に過ぎず、その成功の絶対的な証明とは見なされません。

参考リンク:

https://arxiv.org/abs/2311.12983

著者: ヤン・イーミ

編集者: 学術

<<:  綿花の「ガン」を克服し、綿花を「選択」から「カスタマイズ」へ

>>:  アメリカの犬の間で謎の呼吸器疾患が蔓延している。ナッツを食べると男性の精子の質が向上する |テクノロジーウィークリー

推薦する

北京は大雨の青色警報が出ています!自宅にいるときや旅行中はご注意ください→

月曜日の朝のラッシュアワー北京、天津、河北などの地域では降雨レーダーエコーが広範囲に観測されている雨...

スマートホームからモバイルカスタマーサービスへのプロフェッショナルプラットフォーム構築が鍵

モバイル インターネットに接続されるスマート デバイスがますます増えるにつれ、消費者は企業の顧客サー...

目玉焼きパンケーキの作り方

卵は昔から私たちの食事の中で栄養価の高い食べ物です。目玉焼き、スクランブルエッグ、ゆで卵など、どんな...

飛行機ではどこに座ればいいですか?飛行機には本当に「最も安全な座席」があるのでしょうか?

最近は飛行機で旅行する人が増えていますが、私たちは普段は地上で生活しており、飛行機のような大きな金属...

メタン生成菌:人間の良き友

晴れた日の午後、編集者は子供たちを近くの山にある農場に連れて行きました。美しい風景、素朴な田園風景、...

10年後、中国の携帯電話市場は上昇傾向にある

「ジャック・マー」が激動のモバイルインターネットの岐路に立つとき、彼らの手には誰の携帯電話が握られて...

ソバとは何か

喬頭はニンニクに似た植物です。喬頭はニンニクに似た味で、栄養価と薬効が高いです。喬頭の薬効は主に殺菌...

ピザは栄養があるのでしょうか?

ピザといえば、多くの人はすぐにさまざまな味と好きな食べ物が詰まったピザを思い浮かべるでしょう。ピザを...

国家エネルギー局:2023年までに、中国の風力発電と太陽光発電の総設備容量は10億キロワットを超え、発電総設備容量の3分の1以上を占めることになる。

国家エネルギー局のデータによると、国内の風力発電と太陽光発電の総設備容量は10億キロワットを超え、新...

パン焼き機でケーキを作る方法

最近の若者のほとんどは朝寝坊という悪い習慣を持っています。朝仕事に行く時間近くまで寝て、​​それから...

黄色い肌とは何ですか?

キンカンが何であるか知らない人が多いため、ここでキンカンを紹介する必要があります。キンカンは熱帯の果...

秋分の日におすすめの肺を養うレシピ2選

毎年9月23日頃は二十四節気の一つである秋分の日です。伝統的な中国医学では、この時期、自然界の陽のエ...

そば粉のレシピ

私たちは普段小麦粉を食べますが、そば粉についてご存知ですか?そば粉は西洋諸国ではすでに非常に一般的で...

牛すね肉の骨付きスープのレシピ

牛すね骨スープはスープタイプの食品です。これらの食品に一定の栄養価があれば、さまざまなスープ食品を食...

痛風患者はナスを食べることができますか?

現在、痛風に苦しんでいる人はたくさんいます。痛風の発症は患者の日常生活に多大な影響を及ぼします。痛風...