実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります!正解率は93.7%と高い

今日、AI ビデオ生成ツールは、リアルなビデオ コンテンツを制作することで、デザイン、マーケティング、エンターテイメント、教育などの業界に変革をもたらしています。特に、Sora や Gen-3 などのビデオ モデルの場合、数行のプロンプト テキストを入力するだけで、リアルで連続した高品質のビデオ ブロックを生成できます。

この技術は世界中のクリエイターに無数の可能性をもたらした一方で、特に虚偽の情報、プロパガンダ、詐欺、フィッシングの拡散という点で、一般大衆に多くの危害とリスクをもたらしました
そのため、AI が生成した動画をいかに正確に識別するかが、誰もが気にしなければならない問題となっています。

最近、コロンビア大学のJunfeng Yang教授のチームは、DIVID(DIffusion-generated VIdeo Detector)と呼ばれるビデオ検出ツールを開発しました。 SORA、Gen-2、Pikaなどのモデルで生成された動画では、検出精度は93.7%に達しました

オープンソースコードとデータセットを含むこの研究論文は、先月シアトルで開催されたコンピュータービジョンおよびパターン認識に関する会議(CVPR)で発表されました。

DIVIDはどのようにして作られたのですか?

既存のディープフェイク検出器は、GAN によって生成されたサンプルを識別する際には優れたパフォーマンスを発揮しますが、拡散モデルによって生成されたビデオを検出するには十分な堅牢性がありません。

この研究で、研究チームはDIVIDと呼ばれる新しいツールを使用してAI生成ビデオを検出しました。報道によると、DIVIDは今年初めにチームが発表した研究成果であるRaidarに基づいており、大規模言語モデル(LLM)の内部操作にアクセスせずにテキスト自体を分析することでAIによって生成されたテキストを検出します。

Raidar は LLM を使用して特定のテキストを言い直したり修正したりし、システムがそのテキストに対して行った編集の数を測定します。編集が多いほど、テキストが人間によって書かれた可能性が高くなります。編集が少ないということは、テキストが機械で生成される可能性が高くなることを意味します。

彼らは同じコンセプトを使ってDIVIDを開発しました。 DIVID は、ビデオを再構築し、再構築された新しいビデオを元のビデオと比較することによって機能します。この方法は、拡散モデルによって生成された再構成画像は拡散プロセス分布からサンプリングされるため、互いに非常に類似しているはずであるという仮定に基づいているため、拡散生成ビデオを検出するために DIRE 値を使用します。大きな変化がある場合、元のビデオはおそらく人間が作成したものであり、そうでない場合は AI が作成したものであると考えられます。

図 | DIVID の検出プロセス。ステップ 1 では、一連のビデオ フレームが与えられた場合、研究チームはまず拡散モデルを使用して各フレームの再構成バージョンを生成します。次に、フレームとそれに対応する入力フレームを再構築することによって DIRE 値が計算されます。ステップ 2 では、DIRE 値シーケンスと元の RGB フレームに基づいて CNN + LSTM 検出器がトレーニングされます。

このフレームワークは、AI 生成ツールが大規模なデータセットの統計的分布に基づいてコンテンツを作成し、ビデオ フレーム内のピクセル強度分布、テクスチャ パターン、ノイズ特性などの「統計平均」コンテンツや、フレーム間で不自然に変化する小さな不一致、または拡散生成ビデオに現れる可能性が高い異常なパターンを生成するという考えに基づいています。

図 |ドメイン内テスト セットでの検出パフォーマンス。 DIVID は、精度 (Acc.) と平均精度 (AP) の点でベースライン アーキテクチャを上回ります。 RGB は元のビデオのピクセルフレーム値を表します。

対照的に、人間が作成したビデオには個性があり、統計的な基準からの逸脱が見られます。 DIVID は、ベンチマーク データセットで Stable Vision Diffusion、Sora、Pika、Gen-2 によって生成されたビデオに対して最大 93.7% の検出精度を達成します。

今後の展望

現在、DIVID はビデオを分析し、それが AI によって生成されたものか人間によって生成されたものかを出力するコマンドライン ツールであり、開発者のみが利用できます。研究者らは、この技術はディープフェイク通話をリアルタイムで検出するプラグインとしてZoomに統合できる可能性があると指摘している。チームは、DIVID を一般ユーザーが利用できるようにするための Web サイトまたはブラウザ プラグインの開発も検討しています。

研究者たちは現在、オープンソースのビデオ生成ツールからのさまざまな種類の合成ビデオを処理できるように DIVID のフレームワークを改善することに取り組んでいます。また、DIVID データセットを拡張するために、DIVID を使用してビデオを収集しています。

「私たちのフレームワークは、AI生成コンテンツの検出において大きな進歩を遂げています」と論文の著者の一人であるユンユン・ツァイ博士は述べています。 「AIを使って動画を制作する悪質な行為者が多すぎる。重要なのは彼らを阻止し、社会を守ることだ。」

参考リンク:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<:  雷雨、強風、雹が近づいていますので、これらの地域では注意してください →

>>:  なぜ夏になると憂鬱な気分になりやすいのでしょうか?季節性うつ病を克服するための4つのヒント

推薦する

なぜみんな携帯電話の「スマートボイス」を使うのを嫌がるのでしょうか?

ご存知のとおり、音声ナビゲーション、音声写真撮影、音声ダイヤル、音声ウェイクアップなどの機能が現在さ...

峨眉山、あなたの知らない向こう側

わが国の四大仏教山の一つである峨眉山は、普賢菩薩の修行の地として有名です。 1996年、峨眉山はその...

タンポポ茶の効能

茶文化は中国の伝統です。日常生活では多くの人がお茶を飲みます。しかし、緑茶や紅茶以外にも人々のニーズ...

ナガイモとオオイモ粥の栄養価

私たちは日常生活でヤムイモを頻繁に食べるべきです。ヤムイモは栄養価が高く、胃腸の運動をよくするので、...

黄河には正確な誕生日があります!地下水は黄河の「背景」を「教えてくれる」 →

黄和はついに正確な誕生日を迎えた。中国科学院地質地球物理研究所の研究員である龐忠和氏をはじめとする中...

「主題3」が話題となり、足首を捻挫した人が続出!この3つのタイプの人々に注意してください→

教科3というと、まず思い浮かぶのは運転免許の教科3の試験ですが、この「教科3」はあの「教科3」ではあ...

シソの茎の効能と機能

現代社会では、西洋薬の副作用は非常に深刻ですが、服用が非常に便利で、大都市の人々に愛されています。し...

ラオス醤油とは何ですか?

濃い醤油は醤油の一種です。現代社会では、あらゆるものに複数の種類があり、醤油も例外ではありません。醤...

寝る前のちょっとした行動が、実はアルツハイマー病を予防してくれるかも?

おそらく、都会に住んでいるあなたは、朝はいつも太陽の光で目覚めることを楽しんでいますが、夜は窓から差...

Apple ユーザーにより適した折りたたみ式スマートフォン、vivo X Fold 3 がなぜ新しい高品質生産性の代表となるのでしょうか?

スマートフォン市場の成長が鈍化する中、折りたたみ式スクリーンの携帯電話は、多様な使用シナリオにおける...

農業大国から農業強国へと変貌するためには、どのような困難を乗り越えなければならないのでしょうか。

我が国は農業大国として、農業は国の基盤であるとともに、強い国となるための道でもあります。少し前に、「...

苦い野菜の種子の効能と機能

現代人は健康にますます関心を持つようになり、食材に対する要求も高まっています。多くの人は大魚や肉を食...

SONYは遅れているが、AIブラックテクノロジーは遅れていない。 LF-S80D スピーカーは、あなたの信仰を充電する時が来たことを伝えます。

最近、 AIの波に後押しされて、私たちの生活の中でますます多くの製品に「 AI 」ラベルが付けられ...

民間ロケットの打ち上げが相次いで成功し、中国の商業航空宇宙産業の将来は有望だ!

最近、中国共産党中央委員会と国務院は、民間企業が国家の主要な科学技術プロジェクトを積極的に遂行するこ...