ロボットに卓球をさせて、フォアハンド、バックハンド、回転ボールをレシーブできるようにしますか?ネットユーザー:オリンピックで会いましょう!

ロボットに卓球をさせて、フォアハンド、バックハンド、回転ボールをレシーブできるようにしますか?ネットユーザー:オリンピックで会いましょう!

著者 |馬雪偉

序文

ロボットも卓球ができるようになり、中級レベルの人間選手と同等のレベルに到達しました。

では、早速、それが人間の初心者にどのような大混乱をもたらすのか見てみましょう。

このロボットはGoogle DeepMindの研究チームによって作成され、29のロボット対人間の競争のうち45%(29のうち13)で優勝したと報告されています。注目すべきは、すべての人間プレイヤーがロボットを初めて使用したということだ。

ロボットはトッププレイヤーとの対戦ではすべて負けましたが、初心者には100%、中級者には55%勝利しました。

写真|プロのコーチと一緒に卓球をする様子。

これに対し、プロの卓球コーチであるバーニー・J・リード氏は「ロボットがあらゆるレベルやスタイルの選手と競い合うのを見るのは素晴らしい。私たちの目標はロボットを中級レベルにまで引き上げることだ。このロボットは私の期待をはるかに上回ったと思う」と語った。

「人間レベルの競争力のあるロボット卓球の実現」と題された関連研究論文が、プレプリントウェブサイトarXivに掲載されています。

ロボットに卓球をさせるにはどうすればいいでしょうか?

現在、卓球はパリオリンピックの大きなハイライトとなっている。卓球選手は競技において、極めて高い体力、高速移動能力、様々なボールの正確なコントロール、超人的な感受性を発揮します。

そのため、1980年代以降、研究者たちは卓球をロボットのベンチマークとして活用し、多くの卓球ロボットを開発し、ボールを相手のコートの半分に返す、ターゲットを打つ、スマッシュ、協力プレイなど、卓球の多くの重要な側面において進歩を遂げてきました。しかし、まだロボットが目に見えない人間の相手と卓球の試合を最後までプレイした例はない。

この研究では、階層型およびモジュール型のポリシー アーキテクチャ、タスク配分の反復定義、シミュレーション間の適応層、ドメインのランダム化、未知の対戦相手へのリアルタイム適応、ハードウェアの展開などの技術を通じて、Google DeepMind チームは、ロボットと人間のプレーヤー間の競技卓球でアマチュアの人間レベルのパフォーマンスを達成しました。

図 |方法の概要。

1. スキルライブラリに基づく階層的かつモジュール化された戦略アーキテクチャ

低レベル コントローラー (LLC) : このライブラリには、フォアハンド攻撃、バックハンドの配置、フォアハンド サーブなど、さまざまな卓球スキルが含まれています。各 LLC は、特定のスキルのトレーニングに重点を置いた独立した戦略です。これらの LLC はニューラル ネットワークを介して学習され、MuJoCo 物理エンジンを使用してシミュレーションでトレーニングされます。

図|LLC研修ライブラリ。

ハイレベル コントローラー (HLC) : HLC は、現在のゲーム状況と対戦相手の能力に基づいて、最も適切な LLC を選択する責任を負います。次のモジュールで構成されています。

スタイル選択戦略: この戦略では、ボールの種類 (サーブまたはアタック) に応じて、フォアハンドまたはバックハンドのいずれかを使用することを選択します。

スピン分類器: この分類器は、入ってくるボールにトップスピンがあるかバックスピンがあるかを判断します。

LLC スキル記述子: これらの記述子は、ヒット率やボールの配置など、さまざまなボール条件下での各 LLC のパフォーマンス メトリックを記録します。

戦略選択モジュール: このモジュールは、LLC スキル記述子、試合統計、および対戦相手の能力に基づいて LLC の候補リストを生成します。

LLC の優先度 (H 値): このモジュールは、勾配バンディット アルゴリズムを使用して各 LLC の優先度値をオンラインで学習し、優先度値に基づいて最終的な LLC を選択します。

図 |ボールが打たれると、HLC はまず、現在のボール状態にスタイル ポリシーを適用してフォアハンドかバックハンドかを判断し、ボールを返す LLC を決定します (この例ではフォアハンドが選択されています)。

2. ゼロサンプルシミュレーションを現実に近づける技術

タスクの分散を反復的に定義する: この方法では、人間同士のゲーム データから初期のボール状態データを収集し、シミュレートされた環境で LLC と HLC をトレーニングします。シミュレートされたトレーニングによって生成されたデータは実際のデータセットに追加され、このプロセスが繰り返されてトレーニング タスクの分布が徐々に改善されます。

シミュレーションからシミュレーションへの適応層: シミュレーション環境におけるアップスピン モデルとダウンスピン モデルのパラメータの違いによって発生する問題を解決するために、この論文では、回転とシミュレーションからシミュレーションへの適応層という 2 つのソリューションを提案しています。回転問題は LLC トレーニング データセットを調整することで解決され、アナログからアナログへの適応層は FiLM 層を使用してアップスピンとダウンスピンの間のマッピングを学習します。

ドメインのランダム化: トレーニング中、シミュレーション環境内の観測ノイズ、遅延、テーブルとラケットの減衰、摩擦などのパラメータをランダム化し、現実世界の不確実性をシミュレートします。

図 |ゼロショットシミュレーションから現実への変換。

3. 未知の対戦相手にリアルタイムで適応する

ゲーム統計のリアルタイム追跡:HLC は、ロボット対戦相手と対戦相手のスコアやターンオーバーなどのゲーム統計をリアルタイムで追跡し、このデータに基づいて LLC の優先値を調整して、対戦相手の変化に適応します。

LLC の好みのオンライン学習: 勾配バンディット アルゴリズムを通じて、HLC は各 LLC の好みの値をオンラインで学習し、対戦相手の弱点に応じてより適切な LLC を選択できます。

図|階層制御。

研究チームは、タスク条件を初期化するために、少量の人間同士の戦闘データを収集しました。次に、強化学習 (RL) を使用してシミュレーションでエージェントをトレーニングし、さまざまな手法を使用してポリシーを実際のハードウェアにゼロショット展開します。エージェントは人間のプレイヤーと対戦して、より多くのトレーニング タスク条件を生成し、その後、トレーニングと展開のサイクルを繰り返します。ロボットが改良されるにつれて、競技の基準は現実世界のタスク条件に基づきながらも、より複雑になっていきます。このハイブリッドシミュレーションと現実のサイクルは、ロボットのスキルが時間の経過とともに向上できるようにするタスクの自動化カリキュラムを作成します。

戦いはどうでしたか?

エージェントのスキル レベルを評価するために、ロボットは、プロの卓球コーチによって決定されたさまざまなスキル レベル (初級、中級、上級、上級以上) の卓球選手 29 名と対戦しました。

すべての対戦相手の中で、ロボットは試合の 45% とラウンドの 46% で勝利しました。スキルレベル別に見ると、ボットは初心者との対戦ではすべて勝ち、上級者および上級者以上のプレイヤーとの対戦ではすべて負け、中級者との対戦では 55% の勝率でした。これは、エージェントがラウンドで中級の人間プレイヤーのレベルに到達することを強く示唆しています。

図 |ロボットは、すべての対戦相手に対して、試合の 45% とゲームの 46% で勝利し、初心者に対しては試合の 100%、中級者に対しては試合の 55% で勝利しました。

研究参加者はロボットで遊ぶことを楽しみ、「楽しい」「魅力的」であると高く評価した。このスコアは、参加者が勝ったか負けたかに関係なく、スキルレベルに関係なく一貫しています。また、圧倒的多数が「必ず」もう一度ロボットと対戦したいと回答しました。ロボットと遊ぶ自由時間が与えられたとき、彼らは平均4分6秒、合計5分間遊びました。

上級プレイヤーはボットの戦略の弱点を突くことができ、それでもボットとのプレイを楽しんでいました。試合後のインタビューでは、彼らはボールマシンよりもダイナミックな練習パートナーだと考えていた。

図|参加者はロボットと楽しく遊び、「楽しい」「夢中になれる」と高い評価を得ました。

欠点と展望

研究チームによると、このロボット学習システムには、速いボールや低いボールへの対応能力が限らていること、回転検出精度が低いこと、複数のボールに対する戦略や戦術が欠けていることなど、まだいくつかの限界があるという。

今後の研究の方向性としては、ロボットのさまざまなボールの取り扱い能力の向上、より複雑な戦略の学習、モーションキャプチャ技術の向上などが挙げられます。

研究チームはまた、本研究で提案された階層的戦略アーキテクチャとゼロサンプルシミュレーションから現実への変換方法は、他のロボット学習タスクにも適用できると述べた。さらに、リアルタイム適応技術により、ロボットは変化する環境やタスクに適応しやすくなります。さらに、高性能で堅牢なロボット学習システムを開発するには、システム設計の原則も重要です。

<<:  過度な日焼け止めはビタミンDの合成に影響し、くる病を引き起こすのでしょうか?皮膚科医はこう言う

>>:  オリンピックの競技はあなたを褒め称えました。日常生活で練習できるオリンピック競技がたくさんあることがわかりました!

推薦する

Q: AIの世界で、ブルドーザー製造が最も得意な企業はどこでしょうか?

「どの会社が最高の掘削技術を持っていますか?」と誰かに尋ねられたら、おそらく、この有名な広告スロー...

この味は本当に一言で表せます!よく探されるヒースの花は実は宝物

「私の最悪の部分を受け入れられないなら、私の最高の部分を受け入れる資格はない」という有名な格言があり...

冷やしエノキの作り方

冷やしえのき茸の作り方についてですが、私たちが日常的に食べる冷やしえのき茸は、惣菜などで購入し、その...

オートミールの食べ方

オートミールが好きな人はたくさんいます。この種の食品は脂肪が少なく、栄養素が豊富です。オートミールは...

おいしいガーリックブレッドのレシピ

パンは私たちの多くが大好きな食べ物です。パンには多くの種類があります。パンによって製造方法や味に多少...

ウォッカの味はどんな感じですか?

現在、多くの中国人は外国の酒類文化を好んでいます。数ある外国の酒類の中でも、ウォッカは非常に独特な味...

悪化しています。アリも切断手術を受けられるのか?丨ナチュラルトランペット

ネイチャートランペットコラム第61号へようこそ。過去半月の間に、私たちは次のような読む価値のある自然...

ファガオの作り方

ファガオは長い歴史を持つ伝統的な中国の珍味です。では、蒸しケーキはどのように作るのでしょうか?実は、...

Android のフラッグシップを購入する場合は、iPhone 6s を検討したほうがよいでしょう。同意しますか?

今年も戦いが続くなら、iPhone 6sはまだ十分な戦闘力を持っている。周知のとおり、Apple が...

世界マラリアデーに、抗マラリア薬アルテミシニンの開発過程を振り返ってみましょう

毎年4月25日は世界マラリアデーです。マラリアに対する国民の認識と理解を高め、マラリア撲滅という目標...

闘争!付き合って1年半後、彼氏にがんの家族歴があることを知りました。それは遺伝性ですか?別れたいですか? ?

以前、退屈でコミュニティの投稿を閲覧していたところ、偶然「メロン感」満載の投稿を読みました。最初は、...

Apple は疑念を無視して Beats を買収: 楽しみを台無しにしないで!

買って、買って、買って! ! ! この文章は最近Weiboで非常に人気があり、金持ちがお金を惜しみな...

水素エネルギーはこんなに素晴らしいのに、なぜ今になって使われるようになったのでしょうか?

2か月前の冬季オリンピックの開会式で、「小さな炎」の形をしたトーチが多くの人の心に残る名場面となっ...

松花粉の効能と機能

松花粉の効果は、心臓血管系と脳血管系を維持し、胃腸機能を調整し、脳機能を改善することです。松花粉は植...