最近、我が国のDeepSeek社が発表した深い思考と推論能力を備えたオープンソースの大規模モデル「DeepSeek-R1」が世界的な注目を集めています。 DeepSeek-R1 以前には、OpenAI の GPT-o1、Athropic の Claude、Google の Gemini がいずれも、深い思考と推論能力を備えていると主張していました。これらのモデルは、専門家やネットユーザーによるさまざまなテストで実に驚くべきパフォーマンスを発揮しました。 特に興味深いのは、Google の専用モデル AlphaGeometry が、難しい競技として知られている国際数学オリンピックで 28/42 のスコアを達成し、銀メダルを獲得したことです。私たちも学生時代に数学オリンピックに触れたことがあり、そのような国際オリンピックで銀メダルを獲得できる出場者は皆、子供の頃からかなりの数学的才能を示し、ずっと懸命に訓練してきた達人だということをよく知っています。このレベルに到達できるAIは強力な思考能力を持っていると言っても過言ではありません。それ以来、私たちはこれらの強力な AI の物理レベルに興味を抱いてきました。 1月17日、中国科学院物理学研究所は江蘇省溧陽市で「天目杯」理論物理学コンテストを開催した。 DeepSeek-R1 のリリースは 2 日以内に AI コミュニティで大きな話題となり、当然ながら私たちのテストに最適なモデルとなりました。さらに、テストしたモデルには、OpenAI がリリースした GPT-o1 と Anthropic がリリースした Claude-sonnet が含まれます。 テスト方法は次のとおりです: 1. テスト全体は 8 つのダイアログで構成されています。 2. 会話の最初の段落の質問は「冒頭の発言」です。完了するタスク、質問の形式、回答の提出形式などを説明します。AI の応答を通じて人間が理解を確認します。 3. 7つの質問すべてを順番に送信し、返信を受け取った後に次の質問を送信します。間に手動のフィードバックはありません。 4. 各質問は、テキストによる説明と画像による説明の 2 つの部分で構成されます (質問 3、5、7 には画像はありません)。 5. 画像の説明はプレーンテキスト形式です。すべての説明テキストは GPT-4o によって生成され、手動で校正されます。 6. 各大型モデルについて取得されたテキスト資料はまったく同じです(添付ファイルを参照)。 上記のプロセスの後、7 つの質問に対する回答に対応する、各大規模モデルについて 7 段落の tex テキストを取得しました。マーキング方法は以下の通りです。 1. Overleaf ツールでコンパイルできるように tex テキストを手動で調整し、コンパイルされた PDF ファイルを解答用紙として収集します。 2. 4 つのモデルの 7 つの質問に対する回答を 7 人の試験官で構成される採点グループに送信します。 3. 採点グループは「天母杯」大会と全く同じであり、各採点者は同じ問題を担当します。たとえば、試験官 A は、すべての人間と AI の回答の最初の質問を担当します。試験官 B は、人間と AI によるすべての回答のうち 2 番目の質問を担当します。 4. 採点チームはすべての質問のスコアをまとめます。 結果はどうなりましたか?下の表をご覧ください。 結果コメント: 1. DeepSeek-R1 のパフォーマンスが最も優れています。基本的な質問(最初の3つの質問は満点)では、6番目の質問でも満点を獲得しました。これは人間の出場者の中では前例のないことです。 7 番目の質問で彼が低得点を取ったのは、質問の根幹にある「証明」の意味を理解していなかったためと思われます。彼は証明すべき結論を単に言い直しただけで、点数はもらえなかった。彼の思考プロセスを見ると、いくつかのステップに分けられるのですが、これらのステップは最終的な答えには反映されていません。 2. GPT-o1の総合スコアはDeepSeekとほぼ同じです。基本問題(問2、問3)の計算ミスにより失点。 DeepSeekと比較すると、o1の回答は人間のスタイルに近いため、主に証明問題に基づいた最後の質問のスコアがわずかに高くなります。 3.クロード・ソネは「初めにつまずいた」と言える。彼は最初の 2 つの質問で愚かな動きをして 0 ポイントを獲得しましたが、その後のパフォーマンスは o1 に非常に近く、減点されたポイントも同様でした。 4. AIのスコアを人間のスコアと比較すると、DeepSeek-R1はトップ3に入る(特別賞を受賞)が、人間の最高スコアである125点とはまだ大きな差がある。 GPT-o1がトップ5入り(特別賞受賞)、Claude-sonnetがトップ10入り(優秀賞受賞)。 最後に、答案の採点に関する私の主観的な考えについていくつかお話ししたいと思います。まず第一に、AIのアイデアは本当に優れています。基本的に解決できない問題はなく、多くの場合、すぐに適切なアイデアが見つかります。しかし、人間とは異なり、正しい考えを持った後でも、非常に単純な間違いを犯してしまいます。例えば、質問7のR1の思考プロセスを見ると、彼は最初から通常の座標を使用する必要があることを知っていたことがわかります。このステップを思いついた受験者のほぼ100%が正しい正規座標(単純な行列の対角化だけ)を解きましたが、R1は推測と試行錯誤を繰り返していたようで、結局正規座標の表現には至りませんでした。 もう 1 つは、すべての AI が「厳密な」証明が実際に何を意味するかを理解しているわけではなく、形式的に答えを出すことができることが証明であると考えているように見えることです。 AI は人間と同様に、多くの「偶発的な」ミスを犯します。例えば、正式な統一テストの前に、私たちは非公開で何度も試しました。クロード・ソネットは最初の質問には何度も正しく答えることができましたが、正式なテストでは間違えました。厳密さを期すために、同じ質問を複数回テストして平均を取るべきなのでしょうが、ちょっと面倒です... 企画・制作 出典: 中国科学院物理研究所 (id: cas-iop) 編集者:ヤン・ヤピン 校正:Xu Lai、Lin Lin この記事の表紙画像は著作権ライブラリから取得したものです。転載や使用は著作権侵害となる可能性があります |
<<: この木は「幽霊の顔」をしていますが、人々に愛されています...
>>: 普通だと思っているレストランのデザインが、実はあなたの財布を消耗させているものは何ですか?
高熱や喉の痛みといった症状が出ると、多くの親はまず風邪を思い浮かべます。しかし、風邪に似ているけれど...
寒いときは、厚着をするだけでなく、温かい食べ物を食べて体を温めることもできます。では、どんな食べ物に...
常識的に考えれば、昆虫は寒い冬を生き延びることができないように思えますが、実際には、冬の最も寒い時期...
両車はコンパクトSUV市場で長年にわたり競争しており、高い評価を積み重ねてきました。輸入車としてアウ...
毎年冬になると、ほとんどの人は家にいて、外出したくなくなります。寒い季節には温かい食事を食べるのが幸...
暑い夏の到来とともに、ワードローブの中の重い冬服はずっと前から軽い夏服に置き換えられてきました。冬服...
モバイルインターネットの時代において、テレビ市場は大きな変化を遂げました。中国から米国まで、インター...
鶏は田舎に住む私たちにとってとても身近な家禽であり、自宅で鶏を飼っている人もたくさんいます。農家は通...
蓮の実は私たちにとってとても馴染みのある食べ物です。蓮の実は食用であるだけでなく、薬用でもあります。...
2月18日、大西洋の嵐「ユーニス」がイギリス、ドイツ、オランダ、ベルギーなど多くのヨーロッパ諸国を...
金星は月を除けば夜空で最も明るい自然天体です。水星と同様に、地球の軌道内にあります。太陽系の8つの惑...
パスタの調理方法はたくさんありますが、黒胡椒の牛ヒレ肉の揚げパスタもそのひとつです。それぞれの方法の...
暑い夏が到来し、暑さは耐え難いものとなっています。北部では連日気温が30度を超えています。暑くて蒸し...
多くの麺類好きにとって、新疆まぜ麺は欠かせない麺類です。主に新疆の人々が作る人気の麺です。一番美味し...
野菜の中で、レタスは多くの人に好まれています。この種の野菜は、食べても体に害がなく、食べると人体の消...