現代の生活は、大部分が騒々しいです。周囲の騒音が気になる場合は、ノイズキャンセリングヘッドホンを着用して周囲の騒音を遮断することもできます。 しかし、現在のノイズキャンセリングヘッドホンは、実際に聞きたい音も含めて、すべての音を無差別にフィルタリングしてしまうという問題があります。 Appleの第2世代AirPods Proは、例えば装着者が話していることを感知して自動的に音量を調節できるが、誰の話をいつ聞くかについてはほとんど制御できない。 現在、新たな人工知能(AI)技術により、伝統に革命を起こすヘッドフォンが誕生するかもしれない。一目見るだけで、世界中がそのヘッドフォンの音で満たされるだろう。 ワシントン大学の研究チームが人工知能ヘッドフォンシステム「Target Speech Hearing (TSH)」を開発しました。装着者は、対象のスピーカーを 3 ~ 5 秒間見つめるだけで、スピーカーを「ロック」し、周囲の他のすべての音を排除して、「ロック」したスピーカーの音声だけを聞くことができます。 TSH システムは、装着者が騒がしい場所で動き回っていてスピーカーに向いていない場合でも機能します。 「私たちは現在、AI を単に質問に答えるウェブベースのチャットボットとしてしか考えていない」と、論文の責任著者でワシントン大学ポール・G・アレン・コンピューターサイエンス&エンジニアリング学部の教授であるシャムナス・ゴラコタ氏は述べた。 「しかし、このプロジェクトでは、装着者の好みに応じて聴覚を変化させることができるAIを開発しました。」 研究チームによると、TSHシステムは1人の声だけを聞くことができるだけでなく、1人の声だけを除去することもできるという。これは、ある人の妨害的な発言をフィルタリングしながら、他の人の発言は聞き取れるようにしたい場合など、特定の状況で役立ちます。 研究チームは以前、人間とコンピュータの相互作用の分野で最も重要な国際会議であるACM CHI Conference on Human Factors in Computing Systemsでこの研究結果を発表していた。 この概念実証デバイスのコードは現在、他の人が使用できるように公開されているが、まだ商品化されておらず、人気ブランドのノイズキャンセリングヘッドフォンに組み込むための協議が行われている。 今後の研究では、TSH システムをイヤホンや補聴器にまで拡張したいと考えています。 「ロック」されたときの音 論文によれば、TSH システムを使用する場合、装着者は対象のスピーカーに頭を向け、ボタンをタップするだけで「ロック」が完了する。 この研究は、チームがこれまでに行ってきた意味聴覚に関する研究に基づいている。意味聴覚では、ユーザーが聞きたい特定のカテゴリーの音(鳥の鳴き声や話し声など)を選択し、環境内の他の音を打ち消すことができる。 「ロックされた」スピーカーの音波は、ヘッドセットの両側にあるマイクに同時に届きます。ヘッドセットは組み込みコンピュータに信号を送信し、そこで機械学習ソフトウェアが「ロックされた」話者の音声パターンの学習を開始します。 TSH システムはこれらの音をキャプチャし、ヘッドフォンを装着して動き回っているときでも、継続的に再生します。 「ターゲット」の人物が話し続けると、その人物の声に注意を払うシステム能力が向上し、システムにさらに多くのトレーニング データが提供されます。 研究者らは21人の被験者を対象にこのシステムをテストし、被験者は平均して「ロックされた」音の明瞭度を、フィルタリングされていない音声のほぼ2倍と評価した。 欠点と展望 しかし、この研究にもいくつかの限界があります。 たとえば、現在の TSH システムでは、一度に 1 人の話者しか「ロックオン」できず、話者と同じ方向に他の大きな声が存在しない場合にのみ、対象の話者にロックオンできます。 研究チームは今後の研究で、TSH システムを拡張して、複数のターゲット話者を同時に「ロック」できるようにしたいと考えています。彼らは2つの方法を提案しました。 1) スピーカーごとに個別のネットワーク インスタンスを実行します。このアプローチの問題点は、各スピーカーに独立した処理フローが必要なため、より多くのコンピューティング リソースが必要になることです。 2) 複数の話者を同時に処理できるネットワークをトレーニングします。これには、話者ごとに個別のインスタンスを実行する必要がなく、すべての話者の音声を 1 回のパスで分離する「集約型マルチ話者埋め込み」形式が使用され、複数の話者をより効率的に処理できるようになります。 さらに、人間の声の特徴は、加齢、健康状態、感情の変化などの要因によって変化する可能性があり、その結果、TSH システムが声の微妙な違いを認識できなくなり、対象の話し手を「ロックオン」できなくなる可能性があります。 研究チームによると、装着者は両耳ヒアラブルデバイスを使用して、対象話者を抽出する前に対象音声の登録サンプルをキャプチャできるため、この要素は短期的にはそれほど変化しない可能性があるという。 同時に、対象話者と妨害話者との類似性が高くなるほど、妨害話者を完全に排除することが難しくなります。システムの堅牢性を高めるために、1 つの「ロック」レコードだけでなく、異なる時点での複数の「ロック」レコードを使用できます。 なお、研究チームはトレーニングに合成データを使用し、現実世界には見られない話者や屋内・屋外の環境への一般化やモビリティのサポートはできたものの、実際の応用においては、異なる環境や話者に対するモデルの一般化能力をさらに検証し、改善する必要があるかもしれない。 最後に、彼らはターゲットスピーカーをより効果的に「ロックイン」するためのいくつかの方法も模索しました。たとえば、ターゲット スピーカーの移動がサポートされるため、同じ方向に別の強力な干渉スピーカーが出現する可能性が低くなります。静止したシーンでも、ネットワークは、装着者が見ている方向に最も近い、または最も大きな声を出す話者にのみ焦点を合わせるようにトレーニングされます。 参考リンク: https://dl.acm.org/doi/10.1145/3613904.3642057 https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/ |
<<: 全国ヘアケアデー丨白髪を1本抜くと、また10本生えてくる?抜くべきか抜かないべきか?
>>: 世界カワウソの日 |カワウソはどんな悪意を持っているのでしょうか?
このような状況は、どの家族グループでも起きているわけではありません。年長者はインターネットで読んだ健...
誰もが甘酸っぱい料理を食べたことがあると思います。甘酸っぱい料理の特徴は、甘さと酸っぱさです。甘酸っ...
ごま油で目玉焼きを作るのは家庭料理だと思っているなら、それは間違いです。ごま油で目玉焼きを作るのは食...
自動車の電動化の流れは止められないようだ。しかし、一方では、純粋な電気自動車を購入することを選択する...
最近、青海省西寧市の中学校の生徒2人が髄膜炎で相次いで死亡したというニュースがネットユーザーの注目を...
この料理が何であるかは多くの人が知っていると思いますが、黄泥煮鶏は泥焼き鶏としても知られ、中華料理の...
誰もがロディオラ・ロゼアについて聞いたことがあるでしょう。その効能や価値について聞いたことがあるかも...
忙しい現代人はほとんどの場合外食をするので、残り物は避けられません。多くの人が次のような疑問を抱いて...
マンゴスチンは熱帯の果物です。マンゴスチンの栽培は簡単ではありません。花を咲かせて実をつけるまで、こ...
人類による火の最も古い使用は、180万年前にまで遡ります。元凶人から北京原人まで、考古学者たちは当時...
20 世紀の物理学の発展は数学的ツールの応用による恩恵を受けましたが、数学は独自の進歩を遂げてきま...
名前の通り、レモン水はレモンから作られた水です。レモン水は美味しいだけでなく、健康にも優れた効果があ...
人生で最も安価な健康食品はナツメかもしれません。安価ですが、健康に優れた効果があります。ナツメの効果...
最近、2018年のフォーチュン中国500社リストが正式に発表されました。リストには自動車業界の自動車...
投資分野では、評価額が10億ドルを超えるスタートアップ企業は一般に「ユニコーン」と呼ばれています。こ...