人間の笑顔を事前に「コピー」できる! AIが人間の社会世界に統合することは可能でしょうか?

人間の笑顔を事前に「コピー」できる! AIが人間の社会世界に統合することは可能でしょうか?

ChatGPTなどの大規模言語モデル(LLM)の出現により、ロボットは人間と同様の言語表現能力を持つことができるようになりました。しかし、ロボットが人間と会話するとき、その表情は依然として不自然で、恐怖に満ちているように見えます

これは間違いなく、人間と機械のコミュニケーション意欲を妨げ、両者間のコミュニケーションを非常に困難にするでしょう。

したがって、人間と機械が共存する将来の時代においては、多様な表情を作ることができるだけでなく、それらの表情をいつ使うべきかを知ることができるロボットを設計することが重要になります。

現在、コロンビア大学の研究チームとその協力者は、シリコンで覆われ、人間の表情を予測し、それを同期して実行できるEmoと呼ばれるロボットを開発し、重要な一歩を踏み出しました。人間が笑う約 840 ミリ秒 (約 0.9 秒) 前に、笑いが起こることを予測することもできます。

人間とアイコンタクトをとることができ、2つの人工知能(AI)モデルを使用して、人間が笑う前にその笑顔を予測して「コピー」できると報告されている。研究チームは、これはロボットが人間の表情を正確に予測し、やりとりを改善し、人間とロボットの間の信頼関係を構築する能力において大きな前進であると述べた。

「人間とロボットの顔の共表現」と題された関連研究論文が、科学誌「サイエンス・ロボティクス」に本日掲載された。博士号を持つ胡玉航氏コロンビア大学機械工学科の博士課程の教授である同氏は、本論文の第一著者および共同責任著者であり、同氏の指導教官であるコロンビア大学教授のホッド・リプソン氏も本論文の共同責任著者である。

写真|胡宇航とエモが対面。 (出典: Creative Machines Lab)

同時に Science Robotics に掲載された FOCUS の記事で、グラスゴー大学の計算社会認知学教授であるレイチェル・ジャック氏は次のようにコメントしています。

「人間の社会的相互作用は本質的にマルチモーダルであり、視覚信号と聴覚信号の複雑な組み合わせを伴います。Hu氏とその同僚による研究は、単一のモダリティ、つまり顔の表情に焦点を当てていましたが、彼らの研究は、マルチモーダル信号にわたるより複雑な社会的同期スキルの開発に大きく貢献しています。」

彼女の見解では、これは複雑で学際的な課題ではあるが、「ソーシャルロボットを人間の社会世界に真に統合することは可能」である。

エモは微笑んだが、それは単なる微笑み以上のものだった

人間の頭を持つロボットに近づいて、ロボットがあなたに微笑みかけたら、あなたはどうしますか?あなたもきっと笑顔で応え、二人が心からコミュニケーションを取っているように感じるでしょう。

しかし、ロボットはどうやってこれを実行するのか知るのでしょうか?あるいは、もっと良い質問は、どうやってあなたに笑顔を返させるかを知るのか、ということです。

これを実現するために、Yuhang Hu 氏と彼の同僚は2 つの大きな課題を解決する必要がありました。1 つは、複雑なハードウェアと実行メカニズムを必要とする、表情豊かなロボットの顔を機械的に設計する方法です。もう 1 つは、自然で、タイムリーで、リアルに見える表現を生成する方法を知ることです。

論文によれば、Emoには26個のアクチュエーターが搭載されており、頭部は柔らかいシリコン製の皮膚で覆われており、カスタマイズが容易でメンテナンスが簡単な磁気接続システムを備えているという。よりリアルなやりとりを可能にするために、研究チームはエモの両目の瞳孔に高解像度カメラを組み込み、非言語コミュニケーションに不可欠なアイコンタクトを可能にした。

フィギュア|ロボットフェイスプラットフォーム

さらに、研究者らは、対象の顔の微妙な変化を分析して人間の表情を予測するAIモデルと、対応する表情を用いて運動指令を生成するAIモデルの2つを開発した。最初のモデルはオンラインビデオを視聴することでトレーニングされ、2 番目のモデルはライブカメラフィードでロボット自身の表情を視聴することでトレーニングされました。彼らは、他のベースラインに対する定量的な評価を通じて、両方のモデルの有効性を実証しました。

図|モデル建築。逆モデル(A)と予測モデル(B)

エモに表情を作らせる訓練をするために、研究チームはエモをカメラの前に置き、ランダムな動きをさせました。数時間後、エモは顔の表情と運動命令の関係を学習しました。ちょうど人間が鏡を見て顔の表情を練習するのと同じです。彼らはこれを「自己モデリング」と呼んでいます。これは、人間が自分自身が特定の表情をしているところを想像するのと似ています。

研究チームはその後、人間の表情のビデオを再生し、エモにそれをフレームごとに観察させた。数時間の訓練を経て、エモは人の顔の小さな変化を観察して表情を予測できるようになりました。

ユーハン・フー氏の見解では、人間の表情を正確に予測することは、人間とコンピュータのインタラクション技術における重要な進歩です。 「ロボットがリアルタイムで人とやりとりすると、やりとりの質が向上するだけでなく、人とロボットの信頼関係の構築にも役立ちます。将来的には、ロボットとやりとりする際に、ロボットは実際の人と同じようにあなたの表情を観察し、解釈するようになるだろう。」

この研究の潜在的な影響はロボット工学を超えて、神経科学や実験心理学などの分野にまで及ぶ可能性があることは言及する価値がある。

たとえば、顔の表情を予測して同期させることができるロボットシステムは、ミラーニューロンシステムを研究するためのツールとして役立つ可能性があります。研究者は、参加者と交流しながら脳の活動を測定することで、社会的交流とコミュニケーションの神経的相関についての洞察を得ることができます。

心理学の分野では、顔の表情を予測し同期させる能力を持つロボットは、自閉症の人々がより良い社会的コミュニケーションスキルを身に付けるのを助ける教育ツールとして使用できる可能性があります。研究によると、ロボットは自閉症スペクトラム障害(ASD)の子供たちの社会的交流を効果的に促進できることがわかっています。

欠点と展望

Emo はすでに人間の表情を予測し、素早く同期して反応することができますが、人間の顔のコミュニケーションを完全に捉えるには程遠く、大人のようなロボットが真似をすると不快に感じられるかもしれません。

しかし、研究チームは、乳児が独立した表情を作る前に親の真似をすることを学ぶのと同じように、ロボットもより自発的で自発的な表現コミュニケーションに成長する前に、まず人間の表情を予測し真似することを学ばなければならないと考えています。

今後の研究では、エモの表現の幅を広げ、人間の言葉に基づいた表現をエモに訓練したいと考えている。彼らは、言語コミュニケーションを Emo に統合し、ChatGPT のような大規模な言語モデルに接続することに取り組んでいます。

しかし、ロボットが模倣する表情は慎重に選択する必要があるとも述べています。たとえば、微笑む、うなずく、アイコンタクトを維持するなどの特定の顔のジェスチャーは、人間のコミュニケーションにおいて自然に反応され、好意的に受け止められることが多いです。逆に、ふくれっ面やしかめっ面などの表情を真似することは、皮肉と誤解されたり、意図しない感情を伝えたりする可能性があるため、注意して行う必要があります。

さらに、人間のユーザーがこれらの表現をどのように認識するかが、最終的な成功の尺度となります。今後の重要なステップは、さまざまな状況での現実世界の人間とロボットの相互作用においてこれらの表現の感情的な影響を検証し、その心理的妥当性を判断することです。

さらに、この研究には一定の限界もあり、その一つは「モデルの予測と表情の模倣には文化的感受性が欠けている可能性がある」ということだ。

異なる文化では、特定の表情に対する規範や意味が異なる場合があることはよく知られています。たとえば、多くの文化では笑顔は幸福や友好の表れとみなされることが多いですが、恥ずかしさや不安の表れである場合もあります。同様に、直接のアイコンタクトは、一部の文化では自信と誠実さの表れとみなされるかもしれませんが、他の文化では失礼または対立的とみなされる可能性があります。

今後の研究では、文化的背景をモデルに組み込むことが検討される可能性があります。考えられるアプローチの 1 つは、さまざまな文化的背景からのデータセットを含め、文化的規範の理解をアルゴリズムに組み込むことです。

写真: ホド・リプソンの研究室で働くユーハン・フー氏。 (クレジット: ジョン・アボット/コロンビア・エンジニアリング)

最後に、避けることのできない話題の 1 つは、ロボットの能力がますます人間に近づくにつれて、研究チームはこのテクノロジーに関連する倫理的問題を考慮しなければならないということです。テクノロジーの潜在的な悪用(欺瞞や操作など)を排除するには、強力な倫理的枠組みとガバナンスが必要です。

それにもかかわらず、この研究は非常に興味深いものです。研究チームは次のように述べています。

「ロボットが私たちの日常生活にシームレスに溶け込み、仲間意識や支援、さらには共感さえも提供してくれる未来が近づいています。ロボットとのやりとりが友人と話すのと同じくらい自然で快適な世界を想像してみてください。」

参考リンク:

https://www.science.org/doi/10.1126/scirobotics.adi4724

https://www.science.org/doi/10.1126/scirobotics.ado5755

https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

https://www.creativemachineslab.com/

<<:  本当にすごい!繁殖期には鳥のくちばしの色が変わります。

>>:  この食品は料理に欠かせないだけでなく、珍しい病気の治療にも使えます!

推薦する

冬瓜と麦水の作り方

冬瓜麦水は広東省でよく飲まれています。その主な効能は体内の熱を取り除くことであり、特に辛い食べ物が好...

シビック TYPE R 特別仕様コンセプトカーが将来中国市場に参入する可能性

ホンダは2018年の東京オートサロンにおいて、改良コンセプトカー「MUGEN RC20GT シビック...

蚊が最も好むのはどんなタイプの人でしょうか?蚊を殺す本当に効果的な方法は...

「愛の反対は憎しみではなく、無視です。」この論理によれば、人間は蚊に対して深い愛情を抱いていること...

スマートウェアラブルは人気が出始めていますが、子供用腕時計は正しい方向に進んでいるのでしょうか?

moto 360などのスター製品の発売や、リーダーのAppleがApple Watchを世間の注目...

ナツメとクコの実茶の効果

ナツメとクコの実茶の原料はナツメとクコの実です。どちらもそれぞれに多くの機能があり、一緒に摂取すると...

Uber は中国でどこまで進出できるのか?

中国市場における Uber の最終的な結果を正確に予測できる人は誰もいない。 Uber が中国でどれ...

減量のためのブルーベリージュース

減量は、今日最も人気のある話題の 1 つになっています。私たちは食べ過ぎて運動不足なので、脂肪が蓄積...

アンジェリカとツルニンジンを使った黒鶏スープの作り方

当帰は干し当帰とも呼ばれ、一般的な漢方薬です。薬効が非常に高いだけでなく、日常生活で当帰を多く食べる...

永遠の謎:ビデオメモリはどれくらいあれば十分でしょうか?

グラフィック カードに適したビデオ メモリの容量はどれくらいですか?ゲームをプレイするにはどれくらい...

冷蔵保存卵

冷蔵卵は、私たちが日常生活でセンチュリーエッグと呼んでいるものです。これは私の国の伝統的なおいしい食...

フルーツ大根サラダの作り方

大根は一般的な野菜です。大根を定期的に食べると、体の免疫力を高めるだけでなく、抗がんやがん予防にも良...

まもなく「打ち上げ」られるが、ユナイテッド・ローンチ・アライアンスに何が起こったのか?

最近、海外メディアの報道によると、アメリカの有名なロケット打ち上げ請負業者であるユナイテッド・ローン...

マイクロソフト、包括的なアップグレードのための新しいWindows 10プレビュー版をリリース

海外メディアVentureBeatによると、マイクロソフトは本日、Windows Insidersの...

香港オリーブ野菜

香港オリーブサラダは、現在非常に有名な香港風おかずで、完成品にして販売されることが一般的です。香港オ...

【中国軍事技術普及科学】SF映画に出てくる航空母艦は将来の戦場に登場するのか?

航空母艦は、多くのスーパーヒーロー映画やSF映画に何度も登場しています。非常に長いデッキ、驚くべき大...