GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

現在、大規模言語モデル (LLM) は、NLP の分野におけるさまざまな下流タスクの処理において優れた能力を発揮しています。特に、GPT-4 や ChatGPT などの先駆的なモデルは、大量のテキスト データでトレーニングされているため、強力なテキスト理解および生成機能を備えており、一貫性があり文脈に適した応答を生成でき、さまざまな NLP タスクで非常に汎用性があります。

しかし、数学的推論における LLM のパフォーマンスは満足できるものではありません。 LLM では、複雑な算術演算、特に 8 桁を超える数値の乗算や小数と分数を含む演算を正確に実行することが困難です。

これを基に、清華大学、TAL AI Lab、Zhipu AIの研究者らが共同で、複雑な算術演算を完璧に実行できる新しいモデル「MathGLM」を提案した。

この研究では、十分なトレーニングデータがあれば、20億パラメータの言語モデルが、データ漏洩なしに、ほぼ100%の精度で多桁の算術演算を正確に実行できることが示されています。この結果は、GPT-4(多桁の乗算精度はわずか4.3%)をはるかに上回ります。

方法の紹介

この論文では、数学的推論における LLM の効率性を調査するために、MathGLM というモデルを提案します。

MathGLM モデルで完了する必要がある算術タスクは、基本的な算術演算と複雑な混合演算の 2 つのカテゴリに大まかに分けられます。基本的な算術演算には、2 つの数値間の単純な計算を中心とした基本的な数学タスクが含まれます。複雑な混合演算には、さまざまな算術演算と数値形式 (整数、小数、分数など) の組み合わせが含まれます。表1はMathGLMタスクの分類を示しています。

MathGLM の算術機能を強化するために、Transformer ベースのデコーダーのみのアーキテクチャを採用し、自己回帰目的を使用して生成された算術データセットでゼロからトレーニングします。

算数の学習課題

算術トレーニング データセットは、加算、減算、乗算、除算、累乗などのさまざまな演算が含まれるように慎重に設計されています。さらに、整数、小数、パーセンテージ、分数、負の数など、複数の数値形式が含まれています。データセットのサイズは、100 万件から 5,000 万件のレコードまでさまざまです。

各データ セットでは、1 つの演算式が 2 ~ 10 の演算ステップで構成され、加算 (+)、減算 (-)、乗算 (×)、除算 (/)、累乗 (^) などのさまざまな数学演算をカバーします。図 3 は算術データセットから抽出されたいくつかのトレーニング例を示しています。

表 2 は、それぞれ異なるパラメータ サイズを持つ 4 つの異なるタイプのモデルを含む、MathGLM モデルのさまざまなサイズをまとめたものです。最大のモデルは 2B のパラメータを持ち、最も強力な容量を備えています。残りのモデルには 500M のパラメータ、100M のパラメータがあり、最小のモデルには 10M のパラメータがあります。

応用数学の問題の研究

この論文では、算術タスクに加えて、数学の応用問題を解決するために、一般言語モデル (GLM) とそのチャットバージョンと呼ばれる一連の Transformer ベースの言語モデルをトレーニング (微調整) しました。トレーニングプロセスでは、公開されている Chinese Ape210K データセットが使用されました。このデータセットには、中国の小学校の算数問題 210,000 問が含まれており、各問題の答えが直接計算されます。

数学の文章題における MathGLM のパフォーマンスを向上させるために、この論文では、Ape210K データセットを再構築し、各数学の問題の答えを段階的に計算するバージョンに変換する段階的な戦略を採用しています。図 4 は、オリジナルの Ape210K データセットとこの論文で再構築されたバージョンの比較を示しています。

MathGLM をトレーニングするためのバックボーンとして、335M パラメータを持つ GLM-large、GLM-6B、GLM2-6B、GLM-10B など、さまざまな GLM バリアントを使用します。さらに、この論文では、ChatGLM-6B および ChatGLM2-6B バックボーン ネットワークを使用して MathGLM をトレーニングします。これらのバックボーン モデルにより、MathGLM は基本的な言語理解機能を備え、数学の文章問題に含まれる言語情報を効果的に理解できるようになります。

実験

この論文では、算数課題と数学の文章題を含む 2 つの異なるタイプの実験が設計されました。

算術タスクについては、5億のパラメータを持つTransformerベースのMathGLMモデルを事前トレーニングし、そのパフォーマンスをGPT-4やChatGPTなどの主要な大規模言語モデル(LLM)と比較します。結果は表 3 に示されています。MathGLM は他のすべてのモデルよりも優れており、算術タスクの処理において優れたパフォーマンスを発揮することを示しています。

パラメータが 1,000 万個しかない MathGLM-10M でも、結果は驚くべきものです。 MathGLM-10M は、さまざまな包括的な算術タスクにおいて GPT-4 および ChatGPT よりも優れたパフォーマンスを発揮します。

さらに、異なるパラメータ サイズの MathGLM を比較すると、MathGLM の演算パフォーマンスはパラメータ数の増加に直接関係していることがわかります。この結果は、モデルのサイズが大きくなるにつれて、パフォーマンスもそれに応じて向上することを示唆しています。

要約すると、複雑な算術タスクに関する研究者の評価結果は、MathGLM が優れたパフォーマンスを発揮することを示しています。算術タスクを分解することで、これらのモデルは GPT-4 や ChatGPT よりも大幅に優れたパフォーマンスを発揮します。

さらに、この論文では、GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM、GLMも比較しています。この論文では、前述の大規模なデータセットから 100 個のテスト ケースを含むコンパクトな算術データセットをランダムに抽出します。結果を表4に示す。

上記の分析結果から、MathGLM は 20 億のパラメータで 93.03% の精度を達成し、他のすべての LLM を上回っていることがわかります。

数学の応用問題については、この論文では Ape210K データセットで実験を行いました。表 8 には、MathGLM のバリエーション、GPT-4、ChatGPT などを含む結果が報告されています。

結果は、GLM-10B と併用した場合、MathGLM は回答の精度に関して最先端の GPT-4 モデルと同等のパフォーマンス レベルを達成することを示しています。

さらに、MathGLM のパフォーマンスを GLM-Large、GLM-6B、GLM-10B と比較すると、明らかな傾向が浮かび上がりました。MathGLM は、算術精度と回答精度の両方で大幅な向上を示しました。

異なる学年の数学の問題を解くモデルの能力を評価するために、この研究では、GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B、MathGLM-GLM-10B など、K6 データセットでいくつかのモデルのパフォーマンスをテストし、評価しました。結果は下の図8に示されています。

論文アドレス: https://arxiv.org/pdf/2309.03241v2.pdf

プロジェクトアドレス: https://github.com/THUDM/MathGLM#arithmetic-tasks

<<:  夜に電気を消さないとどうなるでしょうか?小動物を殺す可能性もあります...

>>:  宇宙とはどのようなものでしょうか?あなたが望む答えはここにあります

推薦する

補助金削減、合弁事業の競争、国産ブランドは新エネルギー車市場にどのような影響を与えるのか

2016年、中国の新エネルギー車市場の販売台数は50万台を超えました。注目すべきは、販売台数上位3位...

35年を経て、チェルノブイリの地下物質が再燃した。また爆発するのでしょうか?

原子力は、原子核分裂を制御可能にし、発電に利用する技術です。一般的に言えば、原子力はクリーンかつ効率...

階高≥3、遮音+1…将来の「新しい家」はこうなる→

住宅都市農村建設部は3月31日、国家標準「住宅プロジェクト規範」を公布した。新標準は住宅プロジェクト...

湯圓のカロリー

湯圓は多くの人に好まれる食べ物です。この種類の食べ物は独特の味があり、食べると非常に噛みごたえがあり...

胃の痛みの性質の変化は胃がんの発症を示す可能性がある

私の国は胃がんの発生率が高い国です。 2018年には、新規感染者数は45万6000人、死亡者数は39...

新エネルギー電気自動車が徐々に「超国民待遇」の特権を失っても、燃料自動車と競争できるのでしょうか?

「電気自動車とガソリン自動車」の話題がますます人気になってきています。各地域の政策であれ、関係指導...

なぜ高齢者はネット上の噂に影響を受けやすいのでしょうか?

最近では、私たちが毎日携帯電話で遊ぶだけでなく、親たちも時間があるときに携帯電話を手に取って、さまざ...

全粒穀物を使用すると、お粥だけでなくスープも乾燥を防ぐことができます

秋が近づくにつれて、風が強くなり、乾燥します。多くの人が、鼻咽頭の乾燥、痰の少ない乾いた咳、肌の乾燥...

蓮の実豚バラ肉スープのレシピ

蓮の実は、非常に高いレベルのデンプン、タンパク質、炭水化物を含み、私たちの健康に非常に栄養価が高く、...

神舟16号の宇宙飛行士は無事に船室から脱出しました!帰還カプセルの写真には、黒いものもあれば金色のものもあります。どうしたの?

神舟16号は無事に帰還し、多くの友人がその生中継やニュースを見ました。地上に着陸した帰還カプセルの写...

自家製揚げ臭豆腐

臭豆腐を食べたことがない人でも、少なくともその名前は聞いたことがあると思います。臭豆腐の評判は今や広...

ヒラタケは野菜として扱われますが、ヒラタケは肉を食べるのが大好きです

制作:中国科学普及協会著者: 李波 (陝西生物農業研究所)プロデューサー: 中国科学博覧会多くの人々...

あなたが大好きなナズナは、実は肉と一緒に食べられるんですか?

春のそよ風が最初に庭に梅の花を運び、続いて桜、杏、桃、梨の花が咲きます。奥深い村にはナズナとニレの鞘...

漬ける過程で亜硝酸塩が生成されるので、キムチを一口も食べられないのですか?

キムチは伝統的な中国の食べ物です。最も本格的な作り方は、大根、ピーマン、ショウガ、野菜などを塩分濃度...