わずか15秒の音声で、AIは失語症の人が「声を取り戻す」のを手助けできるのか?

わずか15秒の音声で、AIは失語症の人が「声を取り戻す」のを手助けできるのか?

OpenAIは公式ウェブサイトでAI音声合成の進捗状況の一部を公開し、「Voice Engine」と呼ばれるモデルの小規模プレビューからの初期的な知見と結果を発表した。

報道によると、このモデルはテキスト入力と15秒間の音声サンプル1つを使用して、元の話者に非常によく似た自然な音声を生成するとのこと。驚くべきことに、わずか 15 秒のサンプルを持つ小さなモデルで、感情に訴えるリアルなサウンドを生成できました。

OpenAIは2022年末に早くもVoice Engineを開発し、それを使用してテキスト読み上げAPIのプリセット音声やChatGPTの音声と読み上げをサポートしました。

本日、OpenAI は実際のケースを通じて、Voice Engine の初期のアプリケーションをいくつか共有しました。

たとえば、音声エンジンは、血管性脳腫瘍のために流暢に話す能力を失った若い患者の声を回復させるために使用されました。

さらに、音声エンジンは、読み上げ補助、コンテンツの翻訳、話すことができない人へのサポートなどにも使用できます。

ギャラリー内の画像は著作権で保護されています。転載して使用すると著作権侵害の恐れがあります。

1) 自然な響きと感情的な音声を通じて、読書が苦手な人や子供たちに読書支援を提供する

これらの音声は、プリセットされた音声ではなく、より幅広い範囲の話者を表します。教育テクノロジー企業である Age of Learning は、Voice Engine を使用して、事前にプログラムされたナレーション コンテンツを生成しています。また、Voice Engine と GPT-4 を使用して、生徒と交流するためのリアルタイムのパーソナライズされた応答を作成しました。

2) 動画やポッドキャストなどのコンテンツを翻訳する

Voice Engine を使用すると、クリエイターや企業は音声でスムーズにコミュニケーションし、世界中のより多くの人々にリーチできるようになります。 OpenAI によれば、HeyGen はこの分野を早期に導入した企業の 1 つです。 HeyGen は、ビデオ翻訳に Voice Engine を使用し、話者の音声を複数の言語に翻訳して世界中の視聴者に届ける AI ビジュアル ストーリーテリング プラットフォームです。翻訳に使用する場合、Voice Engine は元の話者のネイティブアクセントを保持します。たとえば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語のアクセントの音声が生成されます。

3) 言語障害を持つ人々への支援を提供する

Voice Engine は、言語に影響を及ぼす病気を持つ人々への治療アプリケーションや、学習ニーズを持つ人々への教育強化などを提供できます。 Livox は、補助的代替コミュニケーション (AAC) デバイスをサポートし、障害を持つ人々がコミュニケーションできるようにする AI 搭載の代替コミュニケーション アプリです。 Voice Engine は、非言語の人々のために、複数の言語でユニークでロボット的でない音声を提供します。ユーザーは、自分に最も適した音声を選択でき、多言語ユーザーの場合は、各言語で一貫した音声を使用できます。さらに、Voice Engine は、遠隔地における基本的なサービス提供を改善することで、世界中のコミュニティにサービスを提供します。たとえば、ディマギは、地域の保健従事者が授乳中の母親へのカウンセリングなどの基本的なサービスを提供するためのツールを開発しています。これらの労働者のスキル向上を支援するために、Dimagi は Voice Engine と GPT-4 を使用して、スワヒリ語であろうとより非公式な言語であろうと、各労働者の主要言語でインタラクティブなフィードバックを提供します。

OpenAIは、合成音声が悪用される可能性があるため、より広範なリリースには慎重かつ情報に基づいたアプローチを取り、現時点では技術をプレビューすることはあっても広くリリースしないことを選択したと述べた。

これらのパートナーとの契約条件では、元の発言者からの明示的かつ十分な情報に基づく同意が必要とされており、開発者が個々のユーザー向けに独自の音声を作成することは許可されていません。これらのパートナーは、視聴者が聞いている音声が AI によって生成されたものであることも明確に開示する必要があります。

さらに、OpenAI は、Voice Engine によって生成されたオーディオの出所を追跡するための透かし入れや、その使用状況を積極的に監視するなど、さまざまなセキュリティ対策を実施しています。

OpenAIは、将来的に視聴覚コンテンツの出所を追跡する技術の開発と導入を加速することを奨励し、人々が対話しているのが実際の人間なのか人工知能なのかを常に明確にし、人工知能による欺瞞的なコンテンツの可能性を含め、人工知能技術の能力と限界を一般の人々が理解できるようにしたいと述べた。

参考文献:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

<<:  夏までに10ポンド痩せたいなら、今からこんな食生活を始めましょう!

>>:  抹茶とはいったい何でしょうか?宋代の皇帝は自ら「商品を宣伝」することさえできたのです!

推薦する

豆乳の作り方

豆乳は私たちにとって一般的な飲み物であり、また私の国では強い国民性を持つ伝統的な飲み物でもあります。...

煮ザリガニの作り方

油で煮込んだザリガニは、ほとんどの人にとって家庭料理なので、作り方を知っている人は多いでしょう。ザリ...

生姜の漬物の作り方

漬け生姜は四川料理でよく知られている漬物です。漬け生姜の色はやや黄色がかっており、味は新鮮で香りがよ...

胃を滋養し、脾臓を強めるお粥とは?

胃を滋養し、脾臓を強くするお粥は、私たちの生活の中で一般的な食べ物であるべきです。人間の胃は比較的弱...

柔らかい豆腐の作り方

柔らかい豆腐という名前を聞けば、豆腐の味がわかります。柔らかい豆腐を南豆腐と呼ぶのが一般的です。南豆...

授乳をやめるには何を食べたらいいか?

母乳育児中の母親の中には、母乳が枯れやすい食べ物を食べると母乳の出が悪くなる人もいます。その理由がわ...

インターネットテレビ会社の苦難は始まったばかりだ

ここ数年、低価格の仕掛けだけに頼ってオフラインの販売業者を誘致し、商品を購入させようとしたが、経営や...

揚げヨーグルトのレシピ

ヨーグルトは牛乳の一種です。ヨーグルトと牛乳の違いは、牛乳は集めた生乳を煮て作る乳製品であるのに対し...

夜にカンタロープを食べると太りますか?

減量の目標を達成するために、多くの女性がさまざまな方法を試したと思いますが、本当に健康的で効果的な減...

慢性的なストレスは気づかないうちに脳に影響を及ぼしている可能性がある

リヴァイアサンプレス:実際、急性ストレスと比較して、慢性ストレスの最も恐ろしい点は、慢性ストレスがほ...

チベットフォックス:私は本当に四角いです!わざとやったんだよ

困惑し、世間知らずな四角い顔をしたチベットキツネは、動物界ではインターネットの有名人となり、誰もが携...

澄ましフナのスープ煮の作り方

多くの人がフナを食べるのが好きです。フナは私たちの体の健康を非常によく保証し、特にフナスープは人体の...

火の周りでお茶を沸かしていたら、誰かが感染した

寒くなると「火を囲んでお茶を淹れる」すぐに再び人気が出た私は耐えられると思った冬の雰囲気たっぷりしか...

食事のヒント: 乾燥した秋に食べる果物を調理する

秋は気候が乾燥しているので、水分補給のために果物を多く食べる人が増えます。いくつかの果物は調理すると...