脳卒中により18年間言葉を話せなかった彼女は、AIと脳コンピューターインターフェースの助けを借りて「思考で話す」ことができるようになった。

話すことは対人コミュニケーションの最も基本的な能力であり手段ですが、世の中には「自分を表現できない」人がたくさんいます。

失語症のうち、最も一般的な原因は脳卒中によるものです。彼らの声は聞かれず、彼らの要求は聞き入れられず、彼らは社会的に孤立し、彼らの沈黙は耳をつんざくほどだ。

脳卒中により話す能力を失った人は皆、完全に自然にコミュニケーションする能力を取り戻すことを切望しています。麻痺は世界中で治癒できませんが、AIの力を借りることで、話す能力を失った麻痺患者が声を取り戻し、豊かな表情と動きでリアルタイムに人とコミュニケーションをとることができるようになりました。

著者 |タワー

編集者 |サンヤン

この記事はHyperAI WeChatパブリックプラットフォームで最初に公開されました〜

ツヴァイクはかつてこう言いました。「人生における最大の幸運とは、人生の半ば、若く元気なときに自分の使命を発見することだ。 」

では、人間にとって最大の不幸とは何でしょうか?

私の考えでは、人生最大の不幸は、人生の絶頂期に突然話す能力も動く能力も失ってしまうことです。一夜にして、夢、キャリア、そして願望がすべて泡となり、人生がひっくり返ってしまうのです。

アンは残念な例です。

30歳、脳卒中による失語症

2005年のある日、これまでずっと健康だったアンに突然、めまい、ろれつが回らない、四肢麻痺、筋力低下などの症状が出た。彼女は脳幹梗塞（一般的に「脳卒中」と呼ばれるもの）と診断され、左椎骨動脈解離と脳底動脈閉塞を伴っていました。

この予期せぬ脳卒中により、アンは「閉じ込め症候群」と呼ばれる副作用を患いました。この病気の人は、すべての感覚と意識は保たれているものの、体の筋肉をまったく動かすことができません。患者は自力で動くことも話すこともできず、呼吸さえできない人もいます。

「閉じ込められた」という言葉が文字通り表すように、一般の人々を何千もの山河を越えさせる肉体は、患者の魂を封じ込める檻となっている。

当時、アンはまだ30歳で、結婚して2年2か月、娘は生後13か月で、カナダの高校で数学の教師をしていました。「一夜にしてすべてが奪われました。 」アンは後に、機器の助けを借りて、ゆっくりとコンピューターにこれらの言葉を入力しました。

研究に参加したアン

何年も理学療法を受けた後、アンは呼吸をしたり、頭を少し動かしたり、目を瞬きしたり、いくつかの言葉を話したりできるようになりましたが、それだけでした。

通常の生活では、平均的な人は 1 分間に160 ～ 200語の速度で話すことを知っておく必要があります。アリゾナ大学心理学部の 2007 年の調査によると、男性は 1 日平均15,669語を話し、女性は 1 日平均16,215語を話します (1 語は平均して 1.5 ～ 2 文字の漢字に相当します)。

言語が対人コミュニケーションの主な手段である世界では、表現力が限られているために、アンのニーズがどれほど無視されてきたかは想像に難くありません。失語症によって失われるのは生活の質だけではなく、人格やアイデンティティーもです。そして、世界中でアンと同じ状況にある麻痺や失語症の人は何人いるでしょうか?

18年間麻痺していた彼が再び話せるようになった

完全に自然なコミュニケーション能力を回復することは、麻痺により発話能力を失ったすべての人にとって最大の願いです。今日の高度に発達した技術の世界では、テクノロジーの力を利用して患者との対人コミュニケーション能力を回復する方法はあるのでしょうか?

持っている！

最近、カリフォルニア大学サンフランシスコ校とカリフォルニア大学バークレー校の研究チームがAIを使って新しい脳コンピューター技術を開発した。この技術により、18年間失語症に苦しんでいたアンさんは再び「話す」ことができ、デジタルアバターに基づいて生き生きとした表情を生成し、患者が通常の社会的交流と同等の速度と質で他の人とリアルタイムでコミュニケーションをとることができるようになった。

アンはデジタルアバターを使って人々と会話する

脳信号から音声と表情が合成されるのは人類史上初です！

カリフォルニア大学チームによるこれまでの研究では、麻痺した人の脳活動から言語を解読することは可能であるが、テキスト出力の形式に限られ、速度と語彙も限られていることが示されていた。

今回、彼らはさらに一歩進んで、より高速なテキスト通信を大量の語彙で可能にすると同時に、発話と発話に関連する顔の動きを復元することを目標としました。

研究チームは機械学習と脳コンピューターインターフェース技術に基づいて以下の成果を達成し、2023年8月23日にNature誌に発表しました。

►テキストについては、被験者の脳信号は 1 分あたり 78 語の速度でテキストにデコードされ、平均単語誤り率は 25% でした。これは、被験者が現在使用している通信デバイス (1 分あたり 14 語) の 4 倍以上の速度です。

►音声音声の場合、脳信号はすぐに合成され、対象者の負傷前の声と一致する理解可能でパーソナライズされた音になります。

►顔のデジタルアバターには、音声および非音声コミュニケーションジェスチャ用の仮想顔モーションコントロールが実装されています。

論文リンク:

https://www.nature.com/articles/s41586-023-06443-4

この画期的な奇跡がどのようにして達成されたのか、興味があるのではないでしょうか?次に、この論文を詳しく分析し、研究者がどのようにしてウイルスを復活させたかを見てみましょう。

1. 基礎となるロジック: 脳信号 → 発話 + 表情

人間の脳は末梢神経と筋肉組織を通じて情報を出力し、言語能力は大脳皮質の「言語中枢」によって制御されています。

脳卒中患者が失語症を患う理由は、血液循環が阻害され、酸素と重要な栄養素の不足により脳の言語領域が損傷し、1つまたは複数の言語コミュニケーションメカニズムが正常に機能できなくなり、言語機能障害を引き起こすためです。

これを受けて、カリフォルニア大学サンフランシスコ校とバークレー校の研究チームは、大規模で高密度の皮質脳波（ECoG）を使用して、感覚皮質（SMC）全体に分布する声道によって表されるテキストと視聴覚の音声出力を解読する「マルチモーダル音声神経補綴装置」を設計しました。つまり、脳の信号を発生源で捉え、技術的な手段によってそれを対応するテキスト、音声、さらには顔の表情に「翻訳」するのです。

声道麻痺患者におけるマルチモーダル音声デコード

2. プロセスと実装：脳コンピュータインターフェース+AIアルゴリズム

一つ目は物理的な手段です。

研究者らは、高密度 EEG アレイと経皮ベースコネクタを、アンの脳の左半球の頭頂面の硬膜を通して埋め込み、発話の生成と発話の知覚に関連する領域をカバーしました。

このアレイは、アンの舌、顎、喉、顔の筋肉に向けた脳信号を傍受する 253 個の円盤型電極で構成されています。ケーブルがアンの頭に取り付けられたポートに差し込まれ、電極がコンピューターのセットに接続されます。

電極アレイは被験者の大脳皮質表面の言語制御領域に埋め込まれました。

2つ目はアルゴリズムの構築です。

アンの脳に特有の音声特徴を特定するために、研究チームは数週間かけて彼女と協力し、ディープラーニングモデルのトレーニングと評価を行いました。

研究者たちは、nltk Twitter コーパスとコーネル映画コーパスに基づいて 1,024 個の一般的な文章のセットを作成し、アンに自然な話し方で黙って話すように指示しました。彼女は、1,024語の会話語彙の中からさまざまなフレーズを黙って何度も繰り返し唱え、コンピューターが音に関連する脳活動のパターンを認識するまで続けました。

このモデルは AI に単語全体を認識させるようにトレーニングするのではなく、 「音素」から単語をデコードするシステムを作成する点に注目すべきです。たとえば、「Hello」には、「HH」、「AH」、「L」、「OW」の 4 つの音素が含まれます。

このアプローチに基づくと、コンピューターは英語の単語を解読するために 39 個の音素を学習するだけでよく、精度が向上するだけでなく、速度も 3 倍になります。

注: 音素は言語の最小の音声単位で、調音場所、発音方法、声帯の振動など、音声の発音特性を記述できます。たとえば、an の音素は /ə/ と /n/ で構成されています。

この音素解読のプロセスは、赤ちゃんが話すことを学ぶプロセスに似ています。発達言語学の分野で一般的に受け入れられている見解によれば、新生児は世界中の言語の 800 の音素を区別できるそうです。未就学児は単語や文章の書き方や意味を理解していないかもしれませんが、音素を知覚し、区別し、模倣することで徐々に発音を学び、言語を理解することができます。

最後に、音声と表情の合成があります。

基礎が築かれた今、次のステップは、音声と顔の表情を明確にすることであり、研究者たちは音声合成とデジタルアバターを通じてこれを解決しようとしている。

発話については、研究者らは、脳卒中を起こす前のアンさんの声の録音を使用して、デジタルアバターの音声ができるだけ彼女に似ているように合成音声アルゴリズムを開発した。

顔の面では、アンのデジタルアバターは、スピーチグラフィックスが開発したソフトウェアを使用して作成され、画面上に女性の顔のアニメーションとして表示されます。

研究者らは、機械学習のプロセスをカスタマイズし、アンが話そうとしたときにソフトウェアが彼女の脳からの信号と連携し、顎を開閉し、唇を突き出したり縮めたり、舌を上下に動かし、喜びや悲しみ、驚きを伝える顔の動きや身振りをするようにした。

アンはアルゴリズムのトレーニングについて研究者と共同研究している

今後の展望

「私たちの目標は、他者と会話する最も自然な方法である、完全で具体化されたコミュニケーション形態を回復することです」と、UCSFの脳神経外科部長であるエドワード・チャン医学博士は述べています。「音声音声とライブアバターを組み合わせる目的は、単なる言語にとどまらない、人間のコミュニケーションのあらゆる範囲を実現することです。」

研究チームの次のステップは、脳コンピューターインターフェースの物理的な接続をなくしたワイヤレスバージョンを作成し、麻痺した人々がこの技術を使用して個人の携帯電話やコンピューターを自由に制御できるようにすることです。これは、彼らの自立と社会的交流に大きな影響を与えるでしょう。

携帯電話の音声アシスタント、電子顔スキャン決済、工場のロボットアーム、生産ラインの仕分けロボットに至るまで、 AIは人間の手足や感覚を拡張し、私たちの生産と生活のあらゆる側面に徐々に浸透しています。

研究者は、麻痺や失語症を患う特別なグループの人々に焦点を当て、AIの力を使って彼らの自然なコミュニケーション能力の回復を支援しています。これにより、患者とその家族や友人とのコミュニケーションが促進され、対人交流を取り戻す機会が拡大し、最終的には患者の生活の質が向上することが期待されています。

私たちはこの成果に興奮しており、AI が人類にどのような利益をもたらすかについてのさらなる朗報を聞くことを楽しみにしています。

参考リンク:

[1] https://www.sciencedaily.com/releases/2023/08/230823122530.htm

[2] http://mrw.so/6nWwSB

この記事はHyperAI WeChatパブリックプラットフォームで最初に公開されました〜

<<: 中国で最も美しい自動運転高速道路、G219の魅力とは？

>>: 世界サイクリングデー丨小さな車輪のバランスの秘密：自転車をスムーズに走らせるために必要なのは、力とあなただけです