AIは偽の人間の声で無敵なのか?

AIは偽の人間の声で無敵なのか?

2014年のある朝、ヴァル・キルマーは目を覚ますと周囲が血に覆われていることに気づいた。彼の体の唯一の異常は喉で、そこにしこりができ、飲み込むのが困難でした。

彼はすぐに喉頭がんと診断され、血を吐くようになった。治療のために気管切開手術を受けなければならなかった。この手術により喉に穴が開き、食事のためにチューブを挿入する必要が出てきます。それ以来、「呼吸するか、食べるか?」 2つの選択肢の中から選ぶ問題になりました。

『トップガン』におけるヴァル・キルマーとトム・クルーズのライバル関係 |出典: ルーパー

1995年版バットマンを演じたハリウッド俳優にとって、さらに深刻な結果は声を失ったことだった。今では、彼が話そうとすると、「キーキー音とうなり声」の中間のような音しか出ません。

昨年、キルマーさんは人工知能企業ソナンティック社と協力し、「話す能力」を取り戻すことを決意した。限られた録音で、研究チームは病気になる前のキルマーの声に非常によく似た声のクローンを作ることに成功し、将来的には彼に代わって話すことができるようになる。

人間の声をAIで合成する技術はすでにかなり成熟しています。 Resemble AI や Descript など、無料でテストできる主流のプラットフォームの中には、自分の声を複製するのに 25 文または 10 分間の録音のみが必要なものもあります。もちろん、トレーニング セットが長ければ長いほど、モデルは自分に似たものになります。最低限必要な要件は何ですか? 3.7秒で十分です。

キルマーのような患者を助けることに加え、音声クローンには、亡くなった親族や有名人など、老人を「蘇らせる」というもう一つの大きな用途がある。つい最近、音声合成会社 Play.ht が、スティーブ・ジョブズと有名なポッドキャスト司会者のジョー・ローガンとの会話を特集したポッドキャスト エピソードをリリースしました。テキストと音声はすべて AI によって合成されました。

「偽物」はポッドキャストで会話したり笑ったりしますが、本物は最初から最後まで参加する必要はありません。これは侵害に該当しますか?特に亡くなった人たちの声の所有権は誰にあるのでしょうか?誰でも使えますか?

さらに難しい質問は、本物と偽物をどうやって見分けるかということです。

良い技術なのに詐欺に使われるんですか?

人間の声と AI の違いが確実にわかるとは言わないでください。

2019年3月、英国のエネルギー会社の従業員が上司から電話を受け、1時間以内にハンガリーのサプライヤーに22万ユーロを送金するよう求められた。電話の向こうの「上司」はわずかにドイツ訛りがあ​​り、声は普段の上司とまったく同じだった。彼は何の疑いもなくすぐにそれを実行した。送金後、資金はすぐにメキシコに送金され、回収は困難でした。 2020年、香港の銀行支店長がクローン音声に騙され、詐欺師に3,500万ドルの送金を承認した。

これはますます一般的になりつつあります。 VMware が今年実施した調査によると、調査対象となった企業の 3 分の 2 が、過去 1 年間に受けた詐欺攻撃には音声またはビデオの偽造要素が含まれていたと回答しています。

アクセンチュア・セキュリティのマネージング・ディレクター、リサ・オコナー氏は、電話で聞き慣れた声を聞くと、ほとんどの人は「その声に実際に対処するための筋肉の記憶をまだ構築していない」と語る。

生理学的に言えば、人間の脳は偽の声に直面すると鈍くなります。

2019年にカリフォルニア大学リバーサイド校が行った研究では、本物のレンブラントの絵画と贋作のレンブラントの絵画を見た人の脳スキャンに明らかな違いが見つかった。しかし、モーガン・フリーマン、ロボットのフリーマン、そして物まねタレントが話すのを聞いたときには、同じことは当てはまりませんでした。

「この結果は、人間は本質的に本物の音と非本物の音を区別できない可能性があることを示唆している。」

実際の音声と合成音声を聞いた場合、人間の脳の活動に大きな違いはありません |出典:紙面イラスト

AIは偽の人間の声で無敵なのか?

科学者たちはこれに対処しようとしています。

最近の研究で、フロリダ大学の研究者らは、この機械に発声器官がないという欠陥を発見した。つまり、人間の話し方の限界は、各人の発声器官の構造によるものですが、AIにはそのような「限界」はありません。

何十年もの間、科学者たちは先史時代の生き物の鳴き声を再現しようと試みてきました。マンモス、恐竜…彼らの咆哮や叫び声はどんな音でしょうか?骨の形は多くの手がかりを与えてくれます。例えば、パラサウロロフスの場合、頭蓋骨に長い空洞があり、科学者はそれを使って共鳴周波数を推定しました。

同じことが人間の発声にも当てはまり、声道、声帯、舌、唇のさまざまな構造を連携させて空気を圧縮し、音を出したり変えたりします。研究者たちは音響および流体力学モデルを使用して、どの構造が音を生み出すのかを解明することができた。

通常は、凹凸のある不規則な経路のように見えます。

口の開き具合によって発する音が決まります |出典: 論文のスクリーンショット

しかし、同じモデルに機械で生成された音を入力すると、奇妙なことが起こりました。

赤い円はマシンの「音声チャンネル構造」を示しています |出典: 論文のスクリーンショット

ロボットの声は細くて長いストローのように声道から押し出されており、これは人体の通常の構造とはまったく異なります。このような側面の解剖図を見るだけで、その音が人間によって発せられたものか機械によって発せられたものかがほぼすぐに分かります。この方法を使用して、4,966 個の音声セグメントを 99.9% の精度でテストしました。

これがすぐに基本的な構成になるかもしれないと想像してください。電話に出ると同時に追加のプラグインが起動し、相手側の音声が実際の人間の声か機械合成された音声かを判断して警告を発します。

すでに多くの人がこれに取り組んでいます。 2019年、Googleはクローン音声や偽音声に対抗するため、偽音声検出の研究を促進する合成音声データベースをリリースしました。これには、Google のディープラーニング モデルによって「話された」何千ものフレーズが含まれており、68 種類の異なる音声を使用してさまざまなアクセントをカバーしています。これにより、外部の世界でも音声認証ソリューションの開発が促進されることが期待されます。

科学者のツールがなければ、私たちは自分たちだけで何をするのでしょうか?

いくつかヒントはありますが、ほとんどは直感に基づいています。

音声認証サービス企業である Pindrop は合成音声の開発を行っており、その過程で機械にいくつかの欠陥があることも発見しました。

ソフトウェアがノイズと区別するのが難しいため、f、s、v、z などの摩擦音の処理は得意ではありません。

音を引き延ばすと、アルゴリズムが録音内の背景ノイズから単語の終わりを区別することが難しくなり、文の区切りの問題が発生する可能性があります。

非常に「クリーン」で、まるでプロの機材を使ってスタジオで録音されたかのようで、品質は一貫しています。

Pindrop は、こうした欠陥を隠すために、わざと騒々しい環境音を挿入して相手の判断を妨害する、非常に「賢い」犯罪者も発見しました。いつもバックグラウンドで雄鶏の鳴き声を流す「チキンマン」と呼ばれる詐欺師や、同情を誘うために赤ん坊の泣き声を使う女性もいた。

したがって、反対側から継続的に奇妙な音が聞こえる場合は注意してください。

高額取引を伴う会話については、ディープフェイク検出会社ディープトレースのディレクター、ヘンリー・アジェド氏が実用的な提案をしている。会話を進めるためにコードを使用するか、通話の冒頭で秘密の質問をしたり答えたりすることを検討するという。

現在の AI の学習速度を考えると、こうした不器用な欠陥はすぐに一つずつ破られるだろうと私は信じています。かつての研究論文では、人のまばたきの不規則性を利用して、動画がディープフェイクであるかどうかを判断できることがわかっています。しかし、わずか数か月後、開発者はバグを修正しました。

しかし、少なくとも今のところ、人間は微妙な手がかりを通じて相手が自分と同じ種ではないと判断することができます。例えば、ローガンとジョブズの会話では、流暢なセリフの中に「ヘヘ、ヘヘ」という奇妙な笑い声が常に散りばめられており、非常に唐突で、口調が歪んでいる。

これは Resemble を彷彿とさせます。Resemble では、音声生成後に段落に一時停止や「怒り」や「喜び」などの感情を追加するオプションが提供されます。フィードバックから判断すると、モデルはまだ感情をうまく処理できないようです。

しかしある日、私たちはすべてを疑うようになるでしょう。

数日前、同僚の Xiao Yang が営業電話を受けました。彼はスピーカーフォンをオンにして、相手がロボットであるかどうかについてオフィスの他の人たちと熱心に議論しました。

突然、電話の向こうから声が聞こえた。「申し訳ありません。私の話し方を誤解されました。」

「この人は実在の人物だと信じますか?」

彼はこう答えました。「えー、信じられない。これはきっと AI のトリックだ。」

参考文献

[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf

[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104

[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html

[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html

[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/
[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/

[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/

[8] https://Senseent.com/wp-content/uploads/Deepfakes-updated.pdf

[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained

著者: 翁 燕

編集者: 嘘つき虫

グオクル ( ID : Guokr42 )

転載が必要な場合は[email protected]までご連絡ください。

友達の輪に転送するのを歓迎します

出典Guokr

<<:  多くの人から嫌われている「ドクダミ」は実は天然の抗炎症薬?

>>:  4,870 種類、なぜペルーはこれほど多くのジャガイモを収穫するのでしょうか?

推薦する

碧螺春茶の効能と機能

実は、中国人はお茶を飲むのが好きで、お茶を飲む習慣は、特に高齢者にとって、健康管理において最も重要な...

チーズボールの作り方

経済のグローバル化が加速するにつれ、多くの外国の料理が中国に導入され、中国に定着し、同時に多くの人々...

踏みつけと呼ばれる痛みがあり、緊急時に危険を回避する方法を教えます

一部のアクティビティでは、短時間に多くの人が集まり、安全上の危険が生じます。なぜ群衆の暴走が起きたの...

知っていましたか?動物にも年輪がありますが、非常に深いところに隠れています。

木の年輪について聞いたことがあると思います。年輪とは、木の成長過程で形成される同心円状の構造で、それ...

Amapは「交通渋滞を救え」計画を立ち上げ、何百人もの専門家と協力して交通渋滞の解決策を研究している。

2018年7月26日、本日開催された2018年未来交通サミットにおいて、Amapはネットユーザーの...

マスタードの作り方

唐辛子は、好き嫌いがはっきり分かれる食べ物だと言えます。唐辛子は好きだけど、辛さが苦手という人もいま...

小豆とフナのスープの効能と作り方

小豆とフナのスープは、多くの人にとって馴染みのない料理であると同時に馴染みのある料理でもあります。馴...

ゆで卵の作り方

卵を茹でることは、多くの人が毎日行うことです。卵を茹でる方法は比較的簡単です。卵を茹でるとき、多くの...

360 が Coolpad マスターを導入: 彼はどの程度の役割を果たせるでしょうか?

Qihoo 360はCoolpadとの戦略的提携を結ぶために4億ドルを投資した。これは間違いなく今...

赤身肉と野菜のお粥の作り方

皆さんは赤身のお粥が好きですか。特に、様々な緑の野菜と一緒に調理した赤身のお粥は消化しやすく、子供も...

「車のキー」が最初に登場、Apple Carsも後を追う?

過去2日間、AppleのiOS 13ベータ版が主要メディアを席巻した。その理由は、iOS 13.4ベ...

鶏肉とレタスの調理方法

多くの人は、ローストチキンとレタスを食べるのが大好きです。この料理は簡単に作ることができ、このような...

肉巻きフロスロールの作り方

パンは多くの人に愛されています。パンを選ぶときは、パンについてよく理解する必要があります。そうすれば...

1メートルと1秒には、どれほどの深遠な科学的原理が含まれているのでしょうか?それはあなたの想像力を覆すかもしれない

私たちは三次元の世界に住んでいます。つまり、私たちが知っているすべてのものは、長さ、幅、高さという ...

換気をしているときにソラマメを食べても大丈夫ですか?

痛風は誰もが知っている病気であり、日常生活でよくある病気でもあります。痛風は主に人体の特定の部分に影...