人間の笑顔を事前に「コピー」できる！ AIが人間の社会世界に統合することは可能でしょうか?

ChatGPTなどの大規模言語モデル（LLM）の出現により、ロボットは人間と同様の言語表現能力を持つことができるようになりました。しかし、ロボットが人間と会話するとき、その表情は依然として不自然で、恐怖に満ちているように見えます。

これは間違いなく、人間と機械のコミュニケーション意欲を妨げ、両者間のコミュニケーションを非常に困難にするでしょう。

したがって、人間と機械が共存する将来の時代においては、多様な表情を作ることができるだけでなく、それらの表情をいつ使うべきかを知ることができるロボットを設計することが重要になります。

現在、コロンビア大学の研究チームとその協力者は、シリコンで覆われ、人間の表情を予測し、それを同期して実行できるEmoと呼ばれるロボットを開発し、重要な一歩を踏み出しました。人間が笑う約 840 ミリ秒 (約 0.9 秒) 前に、笑いが起こることを予測することもできます。

人間とアイコンタクトをとることができ、2つの人工知能（AI）モデルを使用して、人間が笑う前にその笑顔を予測して「コピー」できると報告されている。研究チームは、これはロボットが人間の表情を正確に予測し、やりとりを改善し、人間とロボットの間の信頼関係を構築する能力において大きな前進であると述べた。

「人間とロボットの顔の共表現」と題された関連研究論文が、科学誌「サイエンス・ロボティクス」に本日掲載された。博士号を持つ胡玉航氏コロンビア大学機械工学科の博士課程の教授である同氏は、本論文の第一著者および共同責任著者であり、同氏の指導教官であるコロンビア大学教授のホッド・リプソン氏も本論文の共同責任著者である。

写真｜胡宇航とエモが対面。 (出典: Creative Machines Lab)

同時に Science Robotics に掲載された FOCUS の記事で、グラスゴー大学の計算社会認知学教授であるレイチェル・ジャック氏は次のようにコメントしています。

「人間の社会的相互作用は本質的にマルチモーダルであり、視覚信号と聴覚信号の複雑な組み合わせを伴います。Hu氏とその同僚による研究は、単一のモダリティ、つまり顔の表情に焦点を当てていましたが、彼らの研究は、マルチモーダル信号にわたるより複雑な社会的同期スキルの開発に大きく貢献しています。」

彼女の見解では、これは複雑で学際的な課題ではあるが、「ソーシャルロボットを人間の社会世界に真に統合することは可能」である。

エモは微笑んだが、それは単なる微笑み以上のものだった

人間の頭を持つロボットに近づいて、ロボットがあなたに微笑みかけたら、あなたはどうしますか?あなたもきっと笑顔で応え、二人が心からコミュニケーションを取っているように感じるでしょう。

しかし、ロボットはどうやってこれを実行するのか知るのでしょうか?あるいは、もっと良い質問は、どうやってあなたに笑顔を返させるかを知るのか、ということです。

これを実現するために、Yuhang Hu 氏と彼の同僚は2 つの大きな課題を解決する必要がありました。1 つは、複雑なハードウェアと実行メカニズムを必要とする、表情豊かなロボットの顔を機械的に設計する方法です。もう 1 つは、自然で、タイムリーで、リアルに見える表現を生成する方法を知ることです。

論文によれば、Emoには26個のアクチュエーターが搭載されており、頭部は柔らかいシリコン製の皮膚で覆われており、カスタマイズが容易でメンテナンスが簡単な磁気接続システムを備えているという。よりリアルなやりとりを可能にするために、研究チームはエモの両目の瞳孔に高解像度カメラを組み込み、非言語コミュニケーションに不可欠なアイコンタクトを可能にした。

フィギュア｜ロボットフェイスプラットフォーム

さらに、研究者らは、対象の顔の微妙な変化を分析して人間の表情を予測するAIモデルと、対応する表情を用いて運動指令を生成するAIモデルの2つを開発した。最初のモデルはオンラインビデオを視聴することでトレーニングされ、2 番目のモデルはライブカメラフィードでロボット自身の表情を視聴することでトレーニングされました。彼らは、他のベースラインに対する定量的な評価を通じて、両方のモデルの有効性を実証しました。

図｜モデル建築。逆モデル（A）と予測モデル（B）

エモに表情を作らせる訓練をするために、研究チームはエモをカメラの前に置き、ランダムな動きをさせました。数時間後、エモは顔の表情と運動命令の関係を学習しました。ちょうど人間が鏡を見て顔の表情を練習するのと同じです。彼らはこれを「自己モデリング」と呼んでいます。これは、人間が自分自身が特定の表情をしているところを想像するのと似ています。

研究チームはその後、人間の表情のビデオを再生し、エモにそれをフレームごとに観察させた。数時間の訓練を経て、エモは人の顔の小さな変化を観察して表情を予測できるようになりました。

ユーハン・フー氏の見解では、人間の表情を正確に予測することは、人間とコンピュータのインタラクション技術における重要な進歩です。「ロボットがリアルタイムで人とやりとりすると、やりとりの質が向上するだけでなく、人とロボットの信頼関係の構築にも役立ちます。将来的には、ロボットとやりとりする際に、ロボットは実際の人と同じようにあなたの表情を観察し、解釈するようになるだろう。」

この研究の潜在的な影響はロボット工学を超えて、神経科学や実験心理学などの分野にまで及ぶ可能性があることは言及する価値がある。

たとえば、顔の表情を予測して同期させることができるロボットシステムは、ミラーニューロンシステムを研究するためのツールとして役立つ可能性があります。研究者は、参加者と交流しながら脳の活動を測定することで、社会的交流とコミュニケーションの神経的相関についての洞察を得ることができます。

心理学の分野では、顔の表情を予測し同期させる能力を持つロボットは、自閉症の人々がより良い社会的コミュニケーションスキルを身に付けるのを助ける教育ツールとして使用できる可能性があります。研究によると、ロボットは自閉症スペクトラム障害（ASD）の子供たちの社会的交流を効果的に促進できることがわかっています。

欠点と展望

Emo はすでに人間の表情を予測し、素早く同期して反応することができますが、人間の顔のコミュニケーションを完全に捉えるには程遠く、大人のようなロボットが真似をすると不快に感じられるかもしれません。

しかし、研究チームは、乳児が独立した表情を作る前に親の真似をすることを学ぶのと同じように、ロボットもより自発的で自発的な表現コミュニケーションに成長する前に、まず人間の表情を予測し真似することを学ばなければならないと考えています。

今後の研究では、エモの表現の幅を広げ、人間の言葉に基づいた表現をエモに訓練したいと考えている。彼らは、言語コミュニケーションを Emo に統合し、ChatGPT のような大規模な言語モデルに接続することに取り組んでいます。

しかし、ロボットが模倣する表情は慎重に選択する必要があるとも述べています。たとえば、微笑む、うなずく、アイコンタクトを維持するなどの特定の顔のジェスチャーは、人間のコミュニケーションにおいて自然に反応され、好意的に受け止められることが多いです。逆に、ふくれっ面やしかめっ面などの表情を真似することは、皮肉と誤解されたり、意図しない感情を伝えたりする可能性があるため、注意して行う必要があります。

さらに、人間のユーザーがこれらの表現をどのように認識するかが、最終的な成功の尺度となります。今後の重要なステップは、さまざまな状況での現実世界の人間とロボットの相互作用においてこれらの表現の感情的な影響を検証し、その心理的妥当性を判断することです。

さらに、この研究には一定の限界もあり、その一つは「モデルの予測と表情の模倣には文化的感受性が欠けている可能性がある」ということだ。

異なる文化では、特定の表情に対する規範や意味が異なる場合があることはよく知られています。たとえば、多くの文化では笑顔は幸福や友好の表れとみなされることが多いですが、恥ずかしさや不安の表れである場合もあります。同様に、直接のアイコンタクトは、一部の文化では自信と誠実さの表れとみなされるかもしれませんが、他の文化では失礼または対立的とみなされる可能性があります。

今後の研究では、文化的背景をモデルに組み込むことが検討される可能性があります。考えられるアプローチの 1 つは、さまざまな文化的背景からのデータセットを含め、文化的規範の理解をアルゴリズムに組み込むことです。

写真: ホド・リプソンの研究室で働くユーハン・フー氏。 (クレジット: ジョン・アボット/コロンビア・エンジニアリング)

最後に、避けることのできない話題の 1 つは、ロボットの能力がますます人間に近づくにつれて、研究チームはこのテクノロジーに関連する倫理的問題を考慮しなければならないということです。テクノロジーの潜在的な悪用（欺瞞や操作など）を排除するには、強力な倫理的枠組みとガバナンスが必要です。

それにもかかわらず、この研究は非常に興味深いものです。研究チームは次のように述べています。

「ロボットが私たちの日常生活にシームレスに溶け込み、仲間意識や支援、さらには共感さえも提供してくれる未来が近づいています。ロボットとのやりとりが友人と話すのと同じくらい自然で快適な世界を想像してみてください。」

参考リンク:

https://www.science.org/doi/10.1126/scirobotics.adi4724

https://www.science.org/doi/10.1126/scirobotics.ado5755

https://www.engineering.columbia.edu/news/robot-can-you-say-cheese

https://www.creativemachineslab.com/

<<: 本当にすごい！繁殖期には鳥のくちばしの色が変わります。

>>: この食品は料理に欠かせないだけでなく、珍しい病気の治療にも使えます！