9.11と9.9ではどちらが大きいでしょうか?幼稚園児が答えられる質問にAIが答えます...

9.11と9.9ではどちらが大きいでしょうか?幼稚園児が答えられる質問にAIが答えます...

9.11と9.9ではどちらが大きいでしょうか?

人間の幼稚園児でも答えられるこの質問は、かつては(そして今でも)多くの大規模言語モデル(LLM)を困惑させてきました。

しかし、汎用人工知能(AGI)のレベルに到達するためには、LLMは「大きさの比較」などの単純な論理的推論だけでなく、「複雑なルールの理解と実行、多段階の計画」などのより難しい推論も完了させる必要があり、これがLLMエージェントと意思決定システムの中核機能です。

したがって、ルールベースの実装者および計画者としての LLM の役割を効果的に評価することが重要です。しかし、学界や産業界においてこの分野の研究はほとんど行われていません。

清華大学とZhipuの研究チームは、ルールの理解、実行、計画におけるLLMの能力を総合的に評価することを目的とした新しいベンチマークテスト「 LogicGame」を立ち上げました。まず評価結果を見てみましょう:

図|LogicGameの評価結果とサンプル表示。上の図は、実行および計画のカテゴリにおけるさまざまなモデルのパフォーマンスを示しています。下の図(左と右)は、それぞれ実行と計画のカテゴリーにおける 2 つのケース スタディです。

o1-preview と o-mini がはるかにリードしていることに加えて、上の図の赤い領域に示されているように、モデルの半分以上が 10% 未満のスコアを獲得していることもわかります。

この評価結果は、無視できない事実を明らかにしています。つまり、ほとんどの LLM にはルールベースの論理的推論に明らかな欠陥があるということです

「LogicGame: 大規模言語モデルのルールベース推論能力のベンチマーク」と題された関連研究論文が、プレプリントウェブサイト arXiv で公開されました。

従来のベンチマークとは異なり、LogicGame には、それぞれ初期状態ルールのセットを持つ多様なゲームのセットが含まれており、モデルはこれらの事前定義されたルールを理解するだけでなく、それらを適用して問題を解決することも必要です。さらに、LogicGame は最終結果と中間ステップの両方を考慮して、モデルのパフォーマンスを総合的に評価します。

研究結果によると、LogicGame は、さまざまな難易度のゲーム シナリオを設定することで、ルールの理解と複数ステップの実行および計画タスクにおけるモデルのパフォーマンスを正確に測定できることがわかりました。

LogicGame: 難易度「レベル4」のゲームシナリオ

ルールの遵守と推論の組み合わせは、現実世界の多くのタスクを達成するための鍵となります。しかし、既存のベンチマークではこれを十分に捉えられないことがよくあります。

このギャップを埋めるために、研究チームは広範な調査とクラウドソーシングを通じて新しい一連の質問を開発しました。研究者たちは、現実世界のタスクは、特定のルールに従ったり、決定を下したりする必要があるなど、ゲームと共通する特徴を持つことが多いため、これらのタスクは特定のゲームメカニクスに似ていることを発見しました。そのため、彼らはゲーミフィケーションのアプローチを採用し、ルールについて推論するモデルの能力を詳細に評価することができました

その中で、 LogicGame のデータ構築は次の 4 つの部分で構成されます

現実世界のシナリオからヒントを得た設計ルール推論問題。現実世界のタスクには、特定のルールに従って決定を下す必要があるなど、ゲームの特性が備わっていることが多いため、LogicGame はゲーミフィケーション アプローチを採用して、モデルのルール遵守能力と推論能力を評価します。

モデル出力が標準形式に準拠していることを確認するために、出力制約を開発します。正確な評価を容易にし、マッチング手順を簡素化するために、モデル応答は構造化された JSON 出力形式に従う必要があります。シングルステップの問題 (レベル 0) の場合、モデルは最終的な答えを出力するだけでよく、評価は答えの正確さのみに基づいて行われます。複数のステップまたはより複雑な推論を伴う質問 (レベル 1、2、3、および一部のレベル 0 の質問) の場合、回答とステップの両方が評価されます。

さまざまな難易度レベルを実装し、サンプル問題も含まれています。難易度は 4 レベルあり、単純なルールの適用から複雑な推論チェーンまで、モデルの推論能力の範囲を評価します。難易度の勾配は、関連するルールの複雑さと、解決策に到達するために必要な推論ステップの数によって決まります。

公平性と幅広い適用性を保証するために、LogicGame には中国語版と英語版の両方のベンチマークが含まれています。

下の図に示すように、各モデルは、入力プロンプトとして特定の問題に固有のルール セットを受け取り、対応する質問と、回答と手順を含む JSON 形式の出力制約も受け取ります。

図|LogicGameにおける分類・評価方法の説明。分類の図では、数学に関連するカテゴリが紫色で強調表示されています。

LogicGame の評価方法では、自動化されたアプローチを使用して、回答の正確さだけでなく、回答に至る手順の正確さも評価します。具体的には、モデルの回答精度 (A-Acc)、ステップ精度 (P-Acc)、回答ステップ精度 (AP-Acc) を評価します。

各質問の回答のスコアは、モデルの応答と参照回答を比較することによって決定されます。同様に、各問題ステップのスコアリングは、JSON 形式の制約で定義されているように、モデル ステップが参照ステップとどの程度一致しているかを評価することによって行われます。

A-Acc : このメトリックは、特定の質問に対するすべての回答の正確さを評価するために使用され、各回答に対してバイナリ評価 (0/1) を提供し、正しいかどうかを示します。

P-Acc : このメトリックは、提供されたステップと予想されるステップ間の文字レベルの類似性に基づいて一致の割合を測定し、ステップの正確性を評価します。レベル 0 の質問が、評価のための手順が提供されていない単一ステップの推論であるというまれなケースでは、採点時に手順の正確さが回答の正確さと同様に扱われます。

AP-Acc : この複合メトリックは、回答と手順の全体的な精度を評価します。回答精度とステップ精度を論理 AND 演算で組み合わせて合計スコアを算出します。

この評価方法は、モデルが推論のルールに従っていることを確認し、モデルの推論能力を総合的に評価します。

パフォーマンスはどうですか? OpenAI o1ははるかに先を行く

下図に示すように、中国語版、英語版を問わず、実行部門の最高難易度3では、 o1-previewとo1-miniが評価対象となった14機種のスコアを大きく引き離しており、国産機種のスコアは10を突破できず、0点も複数回出現した。計画部門の最高難易度レベル3でも、OpenAI o1の優位性は同じです。

図 | LogicGame の中国語版における 14 モデルの AP-Acc% パフォーマンス。

図 | LogicGame の英語版における 14 モデルの AP-Acc% パフォーマンス。

実行カテゴリでは、ショット数が増えるにつれてモデルの精度が大幅に向上します。具体的には、GPT-4o などのより強力なモデルでは、0 ショットから 1 ショット、2 ショットに切り替えるときに AP-Acc スコアが大幅に向上し、追加のコンテキスト情報をより有効に活用して実行精度を向上できることがわかります。

図|実行と計画のカテゴリーにおけるLogicGameの中国語版の少数サンプルの違い。

また、実行タスクでは、例を追加すると、実行タスク、特に単純なタスク (レベル 0) におけるモデルのパフォーマンスが一般的に向上することがわかります。

図|LogicGameの中国版の難易度別のショット差設定は上図のようになります。

ただし、1 ショット設定と 2 ショット設定は、難易度によってモデルに異なる影響を与えます。モデルはレベル 0 の例から最大の恩恵を受けますが、難易度が上がるにつれて例の影響は減少します。

計画タスクでは、例を追加すると、計画タスクにおけるモデルのパフォーマンスにさらに複雑な影響が及びます。一部のモデルでは、0 ショット設定から 1 ショット設定または 2 ショット設定に切り替えるとパフォーマンスが低下します。これは、追加のコンテキスト情報によってノイズが発生し、モデルによる重要な情報の理解が妨げられる可能性があることを示唆しています。一般的に、1 ショットはモデルに最も顕著な影響を与えますが、難易度が上がるにつれてその影響は徐々に弱まります。一方、2 ショットはより不安定で、明らかなパターンはありません。

あるケーススタディでは、 LLM のリバーシ ゲームでのパフォーマンスはほぼ「ひどい」ものでした。 OpenAI o1を除いて、他のモデルのスコアはほぼ0(に近い)であり、これはLLMが複雑なルールを処理し、多段階の推論を実行するのが依然として難しいことも示しています。

図 |パフォーマンスが最も低い 5 つのカテゴリの平均 AP-Acc% スコア。ヒートマップには、各カテゴリの平均 AP-ACC% スコアが表示されます。モデルは実行シナリオと計画シナリオの両方でパフォーマンスが低く、特に「リバーシ」では多くのモデルのスコアがゼロに近くなります。

図 |答えと手順を含むモデル出力付きのリバーシ ゲームの例。

研究チームはこの失敗を分析し、次の3つの理由を発見しました。

詳細の処理が不十分: たとえば、Claud 3.5 Sonnet モデルでは、ピースを配置したり、ピースを裏返したりするなどの詳細を正しく処理できなかったため、ルールを十分に理解していないことが示されました。

実行/計画ルールの理解不足: モデルはゲーム内のアクションを正しく実行または計画することができず、ゲームの仕組み (フリッピングなど) の理解に欠陥があることを示しています。

過度の変更: llama-3-8b-chat モデルはボードの状態に過度の変更を加えており、ゲームのルールの理解に明らかな偏りがあることを示しています。

LLMの推論能力はまだ改善の余地がある

本論文では、研究チームは、LLM のルールベース推論能力を評価するための新しいベンチマーク「LogicGame」を提案しました。このベンチマークには複数の難易度レベルが含まれており、モデルのルールの理解、これらのルールに基づく実行、および計画機能の評価に重点を置いています。

同時に、彼らは、モデルが単に答えを推測するのではなく、与えられたルールに忠実に従うことを保証するために、結果と推論プロセスを評価する方法も開発しました。

広範囲にわたる実験により、現在の大規模モデルはルールベースの推論タスクにおいて依然として重大な欠陥を示すことが示されています。

この点に関して、研究チームは、特に複雑なルールの理解、多段階の推論の実行、新しいルールの学習と適用において、LLM の推論能力はまだ改善する必要があると考えています。

LLM がルールをよりよく理解して実行するには、より効果的なトレーニング方法や新しい推論メカニズムの導入などを通じて、推論能力をさらに向上させる必要があります。

さらに、LLMの推論能力をより包括的に評価するためには、より効果的な評価方法を開発する必要がある。たとえば、より複雑なルールやより難しい推論タスクを導入するなどです。

一緒に戦いましょう!

あなたのビッグモデル論理的推論能力がどれだけ強いかを証明したいですか? LogicGameのレビューに参加して、国内外の多くの大型モデルと対戦してみてはいかがでしょうか。

研究チームは、LogicGame の英語版と中国語版におけるモデルのパフォーマンスを示すリーダーボードを GitHub で管理しています。ランキングは AP-Acc% に基づいています。主な評価指標は次のとおりです。

AP-Acc%(回答とステップの正確さ)

A-Acc%(正解率)

P-Acc%(ステップの正確さ)

IFError% (命令フォローエラー率)

JSError% (Json 形式出力エラー率)

図|LogicGame中国版における14の大型モデルのパフォーマンス

図|LogicGame英語版における14の大型モデルのパフォーマンス

では、LogicGame の英語版と中国語版でモデルを実行するにはどうすればよいでしょうか?

研究チームは、GitHub に表示するための開発データを保存し、Codabench (効率的で公平かつ統一された評価環境を提供するモデル評価専用のプラットフォーム) への送信に必要な入力データを提供しました。 zh_all ファイルと en_all ファイル (それぞれ中国語と英語のデータの完全なセットを表す) をダウンロードしモデルに入力してモデル応答を取得し、この応答を Codabench を送信する際の入力データとして使用して評価結果のフィードバックを取得できます。

<<:  ホテル:2014年中国人観光客海外旅行調査

>>:  Moxie: モバイルで買い物をする際に、ユーザーの 62% がオンライン チャット サービスを使用する必要がある

推薦する

ARC アドバイザリー グループ: 2016 年の産業用 IoT 技術と戦略に関するトップ 10 の予測

業界アナリストは、産業用 IoT (IIoT) とそれが製造構造および戦略に与える影響に関して、20...

おいしいコーンスターチの作り方

コーンスターチは私たちにとって馴染みのない言葉かもしれませんが、広く使用されています。生のジャガイモ...

ブルーベリーはそのまま食べてもいいですか?

ブルーベリーは果物の一種ですが、実際には主に加工されて食材やジャムとして使われています。ブルーベリー...

ホイールケーキとは何ですか?

食べ物には多くの種類があり、食べ物を選ぶときは、それをよく理解して、自信を持って食べる必要があります...

キノコの健康に関する新たな知識

昨今、環境汚染が深刻化し、がんの発症率が上昇する中、キノコは「抗がん食品」として注目されています。『...

サイレント突然変異:がんを克服する方法?

科学的な探究の道においては、新しい理論を生み出すために長年の概念を打ち破る必要があることがよくありま...

揚げレンズ豆の効能と機能

揚げレンズ豆の効能と機能については、多くの人が理解していません。これは主に、ほとんどの人にとってレン...

甘い麺ソースの作り方

甘い麺ソースは非常に一般的な麺ソースで、さまざまな食品と一緒に食べることができます。たとえば、キュ​...

危害を覚え、危害に適応し、危害に抵抗する:極限環境で生き残る方法

3年間の流行で人類は多くのものを失いました。自然界の生物もまた、極端な気候による厳しい試練にさらされ...

「金メッキ」食品には10万元の罰金が科せられた。誤って金箔を食べると体に害がありますか?

要点★現在、我が国では食品に金箔を付ける事は禁止されています。 ★食用金箔自体は無毒で健康に影響はあ...

Android は Windows の栄光を再現できるでしょうか?

2014 年のモバイル スマート端末市場は不安定で熾烈でした。大手企業やメーカーは、長い間、第一層...

ザクロの種は食べられますか?

ザクロは生活の中で非常に一般的な果物です。この種類の果物は美味しくて味が独特です。多くの果物がありま...

炊飯器でケーキを作る方法

ケーキは多くの人に好まれています。ケーキには多くの種類があり、ケーキによって味も大きく異なります。最...

ビッグデータで自動車所有者のイメージが明らかに:キャデラックとMINIが交戦に巻き込まれる

最近、Amapと交通部科学技術研究院が共同で「2016年中国主要都市交通分析レポート」を発表した。こ...

鴨血春雨の作り方

動物の血液含有量は一般的に非常に高く、貧血を効果的に予防でき、動物の血液は体に吸収されやすいため、特...