今回もAIが人間に勝ちました。 ファーウェイクラウドAIのCTO、戴宗紅氏と北京大学AI研究所の助教授、楊耀東氏が率いる研究チームは、チェスのゲームで勝率99.41%で人間の対戦相手を圧倒できるアルゴリズム「将軍(JiangJun、発音は「将軍」)」を開発した。 「JiangJun: 2人用ゼロサムゲームにおける非推移性に取り組むことで象棋をマスターする」と題された関連研究論文が、プレプリントウェブサイトarXivで公開されました。 人間のプレイヤーを対戦相手として使用し、継続的な試行錯誤と反復を実行することは、現在の強化学習ベースの AI エージェントの進化の一般的な方法です。近年、現実のシナリオでは通常複数のエージェントが同時に存在するため、研究者は単一エージェント分野からマルチエージェント分野へと焦点を広げています。 実際、マルチエージェント強化学習はさまざまなゲーム分野で目覚ましい成功を収めており、Hide and Seek(Steam のゲーム)、囲碁、StarCraft II、Dota 2、Military Chess などのゲームで実証されています。 しかし、AlphaZero や AlphaGo などのアルゴリズムは、トレーニングのために対戦相手の最近のパフォーマンスに重点を置いているため、非推移的な構造を持つゲームでは、一貫して勝ったり、望ましい状態を達成したりできない可能性があります。この問題は不完全情報ゲームでは集中的に研究されてきましたが、完全情報ゲームでは比較的あまり研究されていません。 完全情報ゲーム: チェスなど、参加者全員が他の参加者全員の特性、戦略、報酬関数に関する正確な情報を持っているゲーム。 不完全情報ゲーム: 少なくとも 1 人の参加者が上記の情報について不完全な知識を持っています (Western Army Chess など)。 現在、完全情報ゲームにおける非推移性の問題を克服することは、未解決の研究課題のままです。最近の研究では、戦略空間応答オラクル (PSRO) アルゴリズムを使用してナッシュ均衡を見つけることに重点が置かれていますが、これらの方法は完全情報ゲームでは検討されていません。 チェスはアクセスしやすいため、ボードゲームや非推移幾何学を探求するのに最適なテーマとなります。この研究では、チェスの複雑な幾何学的特性を調査し、10,000 を超える人間のゲームの大規模なデータセットを使用して、推移的な中間領域におけるチェスの顕著な非推移性を明らかにしました。 非推移性問題を解決するために、研究者らは、AlphaZero の自己対戦戦略とは異なり、ナッシュ応答を使用して対戦相手を選択する JiangJun アルゴリズムを提案しました。 JiangJun アルゴリズムは、MCTS Actor と Populationer という 2 つの基本モジュールで構成されています。これらのコンポーネントを組み合わせることで、モンテカルロ ツリー サーチ (MCTS) 技術を活用して、プレイヤー集団内のナッシュ均衡を近似します。 JiangJun のアルゴリズムの有効性は、さまざまな指標にわたって総合的に評価されました。研究者らは、Huawei Cloud ModelArt プラットフォーム上の最大 90 個の V100 GPU の計算能力を効果的に活用して JiangJun アルゴリズムをマスターレベルまでトレーニングするトレーニング フレームワークを提案しました。 相対的な集団パフォーマンス、ナッシュ分布の視覚化、および 2 つの主要な埋め込み次元での低次元ゲーム ランドスケープの視覚化を含む複数のメトリックを組み合わせることで、チェスの非推移性問題を解決する JiangJun のアルゴリズムの熟練度が確認されます。 さらに、JiangJun アルゴリズムは、標準的な AlphaZero チェスや Behavior Clone チェスと比較して、勝率がそれぞれ 85% と 96.40% を超えており、同時代のアルゴリズムよりも勝率が大幅に優れています。悪用可能性の評価では、JiangJun のアルゴリズムは、標準的な AlphaZero チェス アルゴリズム (25.53%) よりも最適な戦略 (ほぼ最適な応答の勝率 8.41%) に大幅に近づきました。 さらに、研究者らはWeChatプラットフォーム上でチェスアプレットを設計し、6か月間にわたって江軍アルゴリズムと人間の対戦相手との間で行われた7,000以上のゲーム記録をまとめた。ゲームデータによると、JiangJun のアルゴリズムは驚異的な 99.41% の勝率で人間の対戦相手に勝利しました。 驚異的な勝率がほぼ 100% であることに加え、さまざまな終盤のケース スタディでは、JiangJun のアルゴリズムがチェスの終盤の複雑さに柔軟に対応する優れた能力も備えていることが示されています。 JiangJun アルゴリズムの登場は、チェスの分野における AI の驚くべき成果を示しています。研究チームは、完全情報ゲームにおける非推移性問題を解決することで、ナッシュ応答とモンテカルロ木探索技術を導入することに成功し、チェスのゲームに新しい考え方をもたらしました。このアルゴリズムは驚異的な勝率を達成しただけでなく、複雑で不確実な問題に対処する AI の強力な能力も実証しました。 参考リンク: https://arxiv.org/abs/2308.04719 https://openreview.net/forum?id=MMsyqXIJuk https://sites.google.com/view/jiangjun-site/ 著者: ヘイゼル・ヤン |
>>: 【スマートファーマーズ】潜在能力を引き出し、塩性アルカリ性土壌を肥沃な畑に変えるための複数の対策
食べ物は多くの人のお気に入りです。食べ物によって調理法は大きく異なります。そのため、食べ物を選んだ後...
お茶は誰もが知っていると思います。誰でも数種類、あるいは数十種類のお茶の名前を挙げることができます。...
現代では高血圧に悩む人が本当に多く、高齢者だけでなく、若い人の中にも高血圧になりやすい人がいます。高...
© BBC/アラミーリヴァイアサンプレス:個人的には、昆虫に「感情」があるかどうか、あるいは「空腹...
ラム肉といえば、ローストしたラム肉を思い浮かべます。特に夏はバーベキューが盛んで、おいしいローストし...
9月23日、工業情報化部と中国国際貿易促進委員会が共催する「2014年中国国際情報通信博覧会」が北...
今日のデジタル写真、写真編集ソフトウェア、AI の世界では、色を調整したり、美化したり...
海藻は、日常生活では結晶藻とも呼ばれ、野生の海藻です。栄養分が豊富で、非常に柔らかく、サクサク、滑ら...
海外メディアの報道によると、英国政府は7月24日、「ファラデー・チャレンジ」と呼ばれる計画を発表し、...
この記事は、食品科学修士、上級エンジニアの張兆民氏によってレビューされました。人間は鉄であり、食物は...
豚大腸は名前の通り、豚の腸です。実は豚大腸は食べるのが好きな人が多いのですが、調理方法が分からない人...
最近の報道によると、国務院は「美しい中国の建設を全面的に推進することについての意見」を発表し、 20...
中国ではもち米団子を食べる伝統があり、特に元宵節や旧正月の時期には、ほぼすべての家庭で再会を象徴する...
今年の春節シーズンにヒットした映画「哪吒」では、哪吒は衝動的で、怒りっぽく、短気な性格をしている。一...
玄米茶は健康茶の一種です。体に良いお茶なら何でも飲んで大丈夫です。実際には、健康を保つお茶はたくさん...