このAIエージェントはわずか数分で人間の専門家の行動を学習できる

このAIエージェントはわずか数分で人間の専門家の行動を学習できる

専門家の行動をうまく模倣し、学んだ知識をすべて記憶するには、わずか数分しかかかりません。 Google DeepMindが開発したAIエージェントがNature誌に掲載されました。

3Dシミュレーションでは、エージェントは初めて見るタスクで専門家をリアルタイムで模倣し、第三者の視点から人間のパートナーからリアルタイムで確実に知識を獲得できることが報告されています。

エージェントはこれまで人間を見たことはありませんが、さまざまな困難なナビゲーション問題について人間や AI の専門家からすぐに学習できます。たとえば、多数の障害物がある複雑な地形を移動できます。

「文化の伝達としての少数ショットの模倣の学習」と題された関連研究論文が、ネイチャーの子会社であるネイチャーコミュニケーションズに掲載されました。

研究チームは、この研究の結果が、具現化されたAIを通じた知識の急速な普及の概念実証であり、人間とAIの相互作用のオープンな文化の進化に向けた第一歩であると考えています。

さらに、 AI 実践者は、人間の社会的学習からインスピレーションを得て、現在の人間のパートナーに適応し、プライバシーを適切に保護する具現化された AI エージェントを構築できます。さらに、ソーシャル学習機能を備えた AI エージェントは、人間の文化的能力の発達を研究するための新しいモデリング ツールも提供できる可能性があります。

リアルタイムの文化的コミュニケーション能力を有する

文化の伝達は、人々が社会的な状況において、高い精度と保持力でリアルタイムに情報を取得し、使用できるようにする普遍的なスキルです。人間社会では、文化的進化により、技術、道具、知識が世代から世代へと受け継がれ、その過程でそれらは絶えず蓄積され、改善されていきます。

本研究では、研究チームはエージェント環境共適応法を適用することで、リアルタイムの文化コミュニケーション機能を備えたAIエージェントを生成することに成功しました

上に示したように、この目標を達成するために、彼らは仮想 3D ミッション空間を導入しました。それぞれの空間には、手続き的に生成された地形、障害物、ターゲット ボールが含まれています

各タスクでは、AI エージェントは報酬を得るために特定のループ順序でターゲット ボールを訪問する必要があり、この順序はタスクの開始時にランダムに決定されます。ただし、AI エージェントは正しい順序を知らないため、実験や専門家からの学習を通じて正しい順序を把握する必要があります。ただし、このミッション空間は複雑に設計されており、ワールドの広さ、障害物の数、地形の起伏、ターゲットボールの数などのパラメータを調整することで、ナビゲーションの難易度を変えることができます。

研究者らは、慎重に設計された実験を通じて、AI エージェントにおける文化伝達の出現には、関数近似、記憶、専門家の共同参加者、専門家の損失、専門家への注意の偏り、自動ドメインランダム化などを含む、 MEDAL-ADRと呼ばれる最小限かつ十分な一連のトレーニング要素が必要であることを発見しました。

図|MEDAL-ADR要素

メモリは LSTM ネットワークを通じて実装され、専門家の共同参加者はハードコードされたロボットであり、自動ドメインランダム化は AI エージェントがさまざまなタスクでより優れた動作を発揮できるようにトレーニングするのに役立ちます。

これらのコンポーネントを巧みに組み合わせることで、想起、一般化、忠実度の 3 つの側面で優れた文化伝達能力を備えた強力な AI エージェントが形成されます。

再現度は、エージェントが専門家のいない状況でデモンストレーションをコピーする能力を評価し、一般化は、エージェントが未知のタスクで文化的に転移できるかどうかを測定し、忠実度は、エージェントの選択が専門家のデモンストレーターの選択とどの程度一致しているかを計算します。

最も驚くべきことは、この AI エージェントの「脳」内のニューロンが強力な説明力を示し、特に社会的情報と目標状態のエンコードを担っていたことです。このアプローチにより、AI エージェントはトレーニング分布を超えて一般化できるだけでなく、専門家が去った後も単一のコンテキスト内でデモンストレーションを思い出すことができるため、特に人間によるデータ収集が困難で、タスクが異なり、プライバシーが重要である場合に、実用的なアプリケーション シナリオの可能性が広がります。

いくつかの制限

本研究で提案された MEDAL-ADR 方式により、AI エージェントはオープン学習において多様な文化環境に適応できるようになります。

しかし、研究チームは評価方法にいくつかの限界があることも指摘した。

まず、この研究では複数の個人からの文化伝達をテストするのではなく、研究チーム内の 1 人の参加者を選択しました。したがって、この研究では、集団全体にわたる堅牢性について統計的に有意な主張を行うことはできません。

第二に、ナビゲーションタスクは、人間のあり得る行動の多様性に一定の制限を課します。普遍的な文化的コミュニケーションをより深く理解するためには、研究にはより幅広く深い戦略を伴うタスクが必要です。

最後に、研究者たちは、訓練されたエージェントが地理的な経路を記憶したかどうか、そして球の正しい順序を記憶したかどうかを明確に区別しませんでした。

MEDAL-ADR は GoalCycle3D タスク空間以外でもより一般的ですか?答えはおそらく条件付きで「ノー」でしょう。

GoalCycle3D は、より広範なクラスのタスクのナビゲーションの代表として機能する、手順的に生成された大規模なタスク スペースです。これらのタスクには、調理、ナビゲーション、問題解決など、戦略的な選択のシーケンスを繰り返し実行する必要があるアクティビティが含まれます。

ただし、このアプローチには、可視性、終了、専門家のプログラム生成など、いくつかの環境条件が必要です。特定の環境で近似条件を作成できない場合、その方法は適用できません。

さらに、研究者たちは、MEDAL-ADR アプローチが人間の文化的コミュニケーションの発達の直接的なモデルであるとは考えていません。しかし、彼らは将来の研究者に対し、MEDAL-ADR モデルをさまざまな段階の子供や人間以外の動物の行動と比較したり、実験室環境で人間と AI の文化的蓄積を研究したりするなど、より多くの実験的研究を実施するよう奨励しています。このような実証研究により、文化の伝達、メタ学習、オープンエンド学習に関連する問題への理解が深まることが期待されます。

研究チームは、AIと文化進化心理学の分野での今後の学際的な交流に期待していると述べた。

論文リンク:

https://www.nature.com/articles/s41467-023-42875-2

著者: ヤン・イーミ

編集者: 学術

<<:  周りの人は熱や咳が出ていますか?一般的な呼吸器感染症には以下のものがあります→

>>:  マウスが人間のような想像力を持っていることを証明する論文をサイエンス誌に発表するまでに、8年かかりました。

推薦する

52万元のXiaomi SU7 Ultraを前に、最初は自信満々に親指を立てていたポルシェは、まだ笑えるだろうか?

雷軍氏が記者会見のスクリーンでXiaomi SU7 Ultraの価格を529,900元と明らかにした...

彼らは同じ種ではない、私はそう信じそうになった

人間の世界では、人々はよく似た外見をしています。区別がつかないのではなく、あまりにも似ているのです....

なぜ人間は3歳までにほとんどの記憶を「失う」のでしょうか?答えはあなたの想像を超えています

生まれた日から、喃語を話し始めた日、初めて食べ物を食べるようになった日、初めて幼稚園に通うようになっ...

何千もの肉骨

千丈結びについてはあまりよく知らないかもしれません。問題ありません。千丈結びをご紹介します。千張皮は...

オリーブオイルと白酢を使った美容法

誰もが美容が大好きです。多くの女性の友人が美容に費やす金額は恐ろしいものです。しかし、化粧品は高価で...

消えた「それ」!老眼が突然消えてしまったら、それは良いことではないかもしれません。

「老眼」は誰もがよく知っている言葉です。通常、遠くのものを見るときには影響はありませんが、携帯電話...

気を補給するために何を食べるべきか

実際、気の欠乏があると、身体の健康に多くの悪影響がもたらされます。しかし、多くの人が人生でこの問題に...

肉団子の作り方

私はお団子が大好きなので、特に肉入りのお団子が大好きです。肉とご飯を一緒に包むことで、調味料を加えな...

菊バラ茶の効果

健康維持にますます注意を払うにつれて、ますます効果的な健康維持法が開発されてきました。多くの健康維持...

保存卵の栄養

保存卵は私たちがよく食べる食べ物の一種です。松花卵や変卵とも呼ばれています。保存卵は中国の特産品です...

ベーコンの作り方

燻製肉は一部の家庭で好んで食べられている食べ物です。主に江西省などの地域で見られ、そこで作られた燻製...

ツナのレシピ

魚は多くの人に愛されています。魚には多くの種類があります。自分の好みに合わせて魚を選ぶことができ、食...

ラムトライプの作り方

肉のおいしさは、いつも食通を魅了して立ち止まらせ、味わわせます。肉食動物でなくても、肉の誘惑から逃れ...

政策はピックアップトラック業界を支援しており、2019年は市場が爆発的に成長する年になると予想されている。

2018年は自動車業界に注目するすべての人にとって印象的な年でした。中国の自動車市場は28年ぶりの...

クラミジア尿路感染症の食事療法

クラミジア尿路感染症は、私たちに深刻な害をもたらす一般的な病気です。また、伝染病でもあり、主に性交に...