GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

現在、大規模言語モデル (LLM) は、NLP の分野におけるさまざまな下流タスクの処理において優れた能力を発揮しています。特に、GPT-4 や ChatGPT などの先駆的なモデルは、大量のテキストデータでトレーニングされているため、強力なテキスト理解および生成機能を備えており、一貫性があり文脈に適した応答を生成でき、さまざまな NLP タスクで非常に汎用性があります。

しかし、数学的推論における LLM のパフォーマンスは満足できるものではありません。 LLM では、複雑な算術演算、特に 8 桁を超える数値の乗算や小数と分数を含む演算を正確に実行することが困難です。

これを基に、清華大学、TAL AI Lab、Zhipu AIの研究者らが共同で、複雑な算術演算を完璧に実行できる新しいモデル「MathGLM」を提案した。

この研究では、十分なトレーニングデータがあれば、20億パラメータの言語モデルが、データ漏洩なしに、ほぼ100%の精度で多桁の算術演算を正確に実行できることが示されています。この結果は、GPT-4（多桁の乗算精度はわずか4.3％）をはるかに上回ります。

方法の紹介

この論文では、数学的推論における LLM の効率性を調査するために、MathGLM というモデルを提案します。

MathGLM モデルで完了する必要がある算術タスクは、基本的な算術演算と複雑な混合演算の 2 つのカテゴリに大まかに分けられます。基本的な算術演算には、2 つの数値間の単純な計算を中心とした基本的な数学タスクが含まれます。複雑な混合演算には、さまざまな算術演算と数値形式 (整数、小数、分数など) の組み合わせが含まれます。表1はMathGLMタスクの分類を示しています。

MathGLM の算術機能を強化するために、Transformer ベースのデコーダーのみのアーキテクチャを採用し、自己回帰目的を使用して生成された算術データセットでゼロからトレーニングします。

算数の学習課題

算術トレーニングデータセットは、加算、減算、乗算、除算、累乗などのさまざまな演算が含まれるように慎重に設計されています。さらに、整数、小数、パーセンテージ、分数、負の数など、複数の数値形式が含まれています。データセットのサイズは、100 万件から 5,000 万件のレコードまでさまざまです。

各データセットでは、1 つの演算式が 2 ～ 10 の演算ステップで構成され、加算 (+)、減算 (-)、乗算 (×)、除算 (/)、累乗 (^) などのさまざまな数学演算をカバーします。図 3 は算術データセットから抽出されたいくつかのトレーニング例を示しています。

表 2 は、それぞれ異なるパラメータサイズを持つ 4 つの異なるタイプのモデルを含む、MathGLM モデルのさまざまなサイズをまとめたものです。最大のモデルは 2B のパラメータを持ち、最も強力な容量を備えています。残りのモデルには 500M のパラメータ、100M のパラメータがあり、最小のモデルには 10M のパラメータがあります。

応用数学の問題の研究

この論文では、算術タスクに加えて、数学の応用問題を解決するために、一般言語モデル (GLM) とそのチャットバージョンと呼ばれる一連の Transformer ベースの言語モデルをトレーニング (微調整) しました。トレーニングプロセスでは、公開されている Chinese Ape210K データセットが使用されました。このデータセットには、中国の小学校の算数問題 210,000 問が含まれており、各問題の答えが直接計算されます。

数学の文章題における MathGLM のパフォーマンスを向上させるために、この論文では、Ape210K データセットを再構築し、各数学の問題の答えを段階的に計算するバージョンに変換する段階的な戦略を採用しています。図 4 は、オリジナルの Ape210K データセットとこの論文で再構築されたバージョンの比較を示しています。

MathGLM をトレーニングするためのバックボーンとして、335M パラメータを持つ GLM-large、GLM-6B、GLM2-6B、GLM-10B など、さまざまな GLM バリアントを使用します。さらに、この論文では、ChatGLM-6B および ChatGLM2-6B バックボーンネットワークを使用して MathGLM をトレーニングします。これらのバックボーンモデルにより、MathGLM は基本的な言語理解機能を備え、数学の文章問題に含まれる言語情報を効果的に理解できるようになります。

実験

この論文では、算数課題と数学の文章題を含む 2 つの異なるタイプの実験が設計されました。

算術タスクについては、5億のパラメータを持つTransformerベースのMathGLMモデルを事前トレーニングし、そのパフォーマンスをGPT-4やChatGPTなどの主要な大規模言語モデル（LLM）と比較します。結果は表 3 に示されています。MathGLM は他のすべてのモデルよりも優れており、算術タスクの処理において優れたパフォーマンスを発揮することを示しています。

パラメータが 1,000 万個しかない MathGLM-10M でも、結果は驚くべきものです。 MathGLM-10M は、さまざまな包括的な算術タスクにおいて GPT-4 および ChatGPT よりも優れたパフォーマンスを発揮します。

さらに、異なるパラメータサイズの MathGLM を比較すると、MathGLM の演算パフォーマンスはパラメータ数の増加に直接関係していることがわかります。この結果は、モデルのサイズが大きくなるにつれて、パフォーマンスもそれに応じて向上することを示唆しています。

要約すると、複雑な算術タスクに関する研究者の評価結果は、MathGLM が優れたパフォーマンスを発揮することを示しています。算術タスクを分解することで、これらのモデルは GPT-4 や ChatGPT よりも大幅に優れたパフォーマンスを発揮します。

さらに、この論文では、GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM、GLMも比較しています。この論文では、前述の大規模なデータセットから 100 個のテストケースを含むコンパクトな算術データセットをランダムに抽出します。結果を表4に示す。

上記の分析結果から、MathGLM は 20 億のパラメータで 93.03% の精度を達成し、他のすべての LLM を上回っていることがわかります。

数学の応用問題については、この論文では Ape210K データセットで実験を行いました。表 8 には、MathGLM のバリエーション、GPT-4、ChatGPT などを含む結果が報告されています。

結果は、GLM-10B と併用した場合、MathGLM は回答の精度に関して最先端の GPT-4 モデルと同等のパフォーマンスレベルを達成することを示しています。

さらに、MathGLM のパフォーマンスを GLM-Large、GLM-6B、GLM-10B と比較すると、明らかな傾向が浮かび上がりました。MathGLM は、算術精度と回答精度の両方で大幅な向上を示しました。

異なる学年の数学の問題を解くモデルの能力を評価するために、この研究では、GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B、MathGLM-GLM-10B など、K6 データセットでいくつかのモデルのパフォーマンスをテストし、評価しました。結果は下の図8に示されています。

論文アドレス: https://arxiv.org/pdf/2309.03241v2.pdf

プロジェクトアドレス: https://github.com/THUDM/MathGLM#arithmetic-tasks

<<: 夜に電気を消さないとどうなるでしょうか？小動物を殺す可能性もあります...

>>: 宇宙とはどのようなものでしょうか？あなたが望む答えはここにあります