実際のシーンか、それとも AI で生成されたシーンか? 「ヴィンセントビデオ」を識別する鋭い目がここにあります！正解率は93.7%と高い

今日、AI ビデオ生成ツールは、リアルなビデオコンテンツを制作することで、デザイン、マーケティング、エンターテイメント、教育などの業界に変革をもたらしています。特に、Sora や Gen-3 などのビデオモデルの場合、数行のプロンプトテキストを入力するだけで、リアルで連続した高品質のビデオブロックを生成できます。

この技術は世界中のクリエイターに無数の可能性をもたらした一方で、特に虚偽の情報、プロパガンダ、詐欺、フィッシングの拡散という点で、一般大衆に多くの危害とリスクをもたらしました。
そのため、AI が生成した動画をいかに正確に識別するかが、誰もが気にしなければならない問題となっています。

最近、コロンビア大学のJunfeng Yang教授のチームは、DIVID（DIffusion-generated VIdeo Detector）と呼ばれるビデオ検出ツールを開発しました。 SORA、Gen-2、Pikaなどのモデルで生成された動画では、検出精度は93.7%に達しました。

オープンソースコードとデータセットを含むこの研究論文は、先月シアトルで開催されたコンピュータービジョンおよびパターン認識に関する会議（CVPR）で発表されました。

DIVIDはどのようにして作られたのですか?

既存のディープフェイク検出器は、GAN によって生成されたサンプルを識別する際には優れたパフォーマンスを発揮しますが、拡散モデルによって生成されたビデオを検出するには十分な堅牢性がありません。

この研究で、研究チームはDIVIDと呼ばれる新しいツールを使用してAI生成ビデオを検出しました。報道によると、DIVIDは今年初めにチームが発表した研究成果であるRaidarに基づいており、大規模言語モデル（LLM）の内部操作にアクセスせずにテキスト自体を分析することでAIによって生成されたテキストを検出します。

Raidar は LLM を使用して特定のテキストを言い直したり修正したりし、システムがそのテキストに対して行った編集の数を測定します。編集が多いほど、テキストが人間によって書かれた可能性が高くなります。編集が少ないということは、テキストが機械で生成される可能性が高くなることを意味します。

彼らは同じコンセプトを使ってDIVIDを開発しました。 DIVID は、ビデオを再構築し、再構築された新しいビデオを元のビデオと比較することによって機能します。この方法は、拡散モデルによって生成された再構成画像は拡散プロセス分布からサンプリングされるため、互いに非常に類似しているはずであるという仮定に基づいているため、拡散生成ビデオを検出するために DIRE 値を使用します。大きな変化がある場合、元のビデオはおそらく人間が作成したものであり、そうでない場合は AI が作成したものであると考えられます。

図 | DIVID の検出プロセス。ステップ 1 では、一連のビデオフレームが与えられた場合、研究チームはまず拡散モデルを使用して各フレームの再構成バージョンを生成します。次に、フレームとそれに対応する入力フレームを再構築することによって DIRE 値が計算されます。ステップ 2 では、DIRE 値シーケンスと元の RGB フレームに基づいて CNN + LSTM 検出器がトレーニングされます。

このフレームワークは、AI 生成ツールが大規模なデータセットの統計的分布に基づいてコンテンツを作成し、ビデオフレーム内のピクセル強度分布、テクスチャパターン、ノイズ特性などの「統計平均」コンテンツや、フレーム間で不自然に変化する小さな不一致、または拡散生成ビデオに現れる可能性が高い異常なパターンを生成するという考えに基づいています。

図 |ドメイン内テストセットでの検出パフォーマンス。 DIVID は、精度 (Acc.) と平均精度 (AP) の点でベースラインアーキテクチャを上回ります。 RGB は元のビデオのピクセルフレーム値を表します。

対照的に、人間が作成したビデオには個性があり、統計的な基準からの逸脱が見られます。 DIVID は、ベンチマークデータセットで Stable Vision Diffusion、Sora、Pika、Gen-2 によって生成されたビデオに対して最大 93.7% の検出精度を達成します。

今後の展望

現在、DIVID はビデオを分析し、それが AI によって生成されたものか人間によって生成されたものかを出力するコマンドラインツールであり、開発者のみが利用できます。研究者らは、この技術はディープフェイク通話をリアルタイムで検出するプラグインとしてZoomに統合できる可能性があると指摘している。チームは、DIVID を一般ユーザーが利用できるようにするための Web サイトまたはブラウザプラグインの開発も検討しています。

研究者たちは現在、オープンソースのビデオ生成ツールからのさまざまな種類の合成ビデオを処理できるように DIVID のフレームワークを改善することに取り組んでいます。また、DIVID データセットを拡張するために、DIVID を使用してビデオを収集しています。

「私たちのフレームワークは、AI生成コンテンツの検出において大きな進歩を遂げています」と論文の著者の一人であるユンユン・ツァイ博士は述べています。「AIを使って動画を制作する悪質な行為者が多すぎる。重要なのは彼らを阻止し、社会を守ることだ。」

参考リンク:

https://arxiv.org/abs/2406.09601

https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html

<<: 雷雨、強風、雹が近づいていますので、これらの地域では注意してください →

>>: なぜ夏になると憂鬱な気分になりやすいのでしょうか?季節性うつ病を克服するための4つのヒント