AI画像で遊ぶ新しい方法!清華大学チームが「高解像度」画像生成法を提案

AI画像で遊ぶ新しい方法!清華大学チームが「高解像度」画像生成法を提案

「AI画像生成」というホットな分野で、任意の解像度のシームレスな拡散モデルが登場しました

最近、清華大学とZhipu AIの研究チームが共同で、新しいカスケードモデルであるリレー拡散(RDM)を提案しました。このモデルを使用すると、純粋なノイズから再生成することなく、任意の新しい解像度またはモデルで拡散プロセスをシームレスに実行できることが報告されています。

関連研究論文「リレー拡散:画像合成のための解像度を超えた拡散プロセスの統合」がプレプリントサイトarXivで公開され、関連コードがGitHubで公開されています。

近年、拡散モデルは画像合成において大きな成功を収め、画像合成の品質を大幅に向上させました。しかし、拡散モデルは、高解像度の画像を合成する際に依然として大きな課題に直面しています。まず、低解像度のノイズスケジューリングを高解像度に直接使用することは困難です。研究者は高解像度のシーンのノイズスケジューリングテーブルを慎重に調整する必要があり、良好な結果を得るのは依然として困難です。第二に、高解像度のトレーニング プロセスには多くのリソースが必要であり、計算コストが高くなります。

現在、一般的に使用されているソリューションは、潜在的(安定)拡散によって提案されているように、潜在空間でトレーニングしてからピクセル空間にマッピングし直すことです。ただし、この方法は必然的に低レベルのアーティファクトの影響を受けます。もう 1 つの解決策は、さまざまな解像度の一連の超解像度拡散モデルをトレーニングしてカスケードを形成することです。既存のカスケード法は効果的ですが、各段階でノイズからの完全なサンプリングが必要であり、非効率的であり、効果は条件付き強化などのトレーニング手法に大きく依存します。

上記の問題をより適切に解決するために、研究チームはカスケードモデル「リレー拡散」を提案しました。オリジナルのカスケード方式の利点を持ちながら、ぼかし拡散とブロックノイズの助けを借りて、まるで「リレー競争」のように、あらゆる異なる解像度間をシームレスに接続できるため、トレーニングとサンプリングのコストが大幅に削減されます

論文によると、離散コサイン変換スペクトル解析により、周波数空間におけるより高い解像度での同じノイズ強度に対応する信号対雑音比(SNR)は低周波部分の方が高いことがわかり、これは自然画像の低周波情報が十分に破壊されていないことを意味するという。

この目的のために、この研究では、ピクセル間の相関関係を持つブロックノイズを提案しました。このブロックノイズの高解像度での対応するSNRは、低周波部分における低解像度のガウスノイズのSNRと同等です

64×64 と 256×256 を例にとると、リレー拡散の全体的なプロセスは、まず標準拡散プロセスによって低解像度の画像を生成し、次にそれを各 4×4 グリッドで同じピクセル値を持つぼやけた高解像度の画像にアップサンプリングし、最後に各 4×4 グリッドで個別にぼかし拡散プロセス (ぼかし拡散) を実行します。

これにより、フォワード プロセスの最終状態がアップサンプリングされたぼやけた画像と揃うため、リレー拡散の第 2 段階は、既存のカスケード方式の純粋なガウス ノイズではなく、ぼやけた画像から直接開始できます

実験結果によると、従来のカスケード拡散モデルと比較して、リレー拡散は高解像度画像を生成する際に低周波情報を生成する部分を省略し、計算コストを大幅に節約します。また、よりシンプルで、条件として低解像度の画像やさまざまな条件付き強調技術を必要とせず、ノイズスケジュールの再設計や調整も必要ありません。

さらに、コストを節約しながら、リレー拡散により、より速く優れた発電性能を実現できます。無条件データセット CelebA-HQ-256 で SoTA の FID を達成し、条件付きデータセット ImageNet-256 で SoTA の sFID と競合 FID を達成し、ADM、LDM、DiT などのモデルを大幅に上回りました。リレー拡散は、分類ガイダンス (CFG) を使用しない場合にも、大きなパフォーマンス上の利点を示します。

研究チームは、今回の研究で提案されたカスケードモデルは、より高度なテキストから画像へのモデルの作成に役立つだろうと述べた。

今後は、リレー拡散の関連技術を文学グラフモデル全般に応用し、この分野の研究をさらに推進していく予定です。

論文リンク:

https://arxiv.org/abs/2309.03350

GitHub アドレス:

https://github.com/THUDM/RelayDiffusion

<<:  地球は丸いと言いますが、その証拠はどこにあるのですか?

>>:  錬金術を再発明!微生物に頼るだけでお金持ちになれる?

推薦する

ナニガンズ:ほぼすべての小売マーケティング幹部は、すべての部門からのサポートを必要としています

Nanigans の調査によると、年間の電子商取引売上高が少なくとも 1 億ドルの企業のマーケティン...

土は腐敗物質でできているのですか?いいえ

地球上では毎日人が生まれ、毎日人が死んでいきます。死者は土に変わって地球に溶け込むので、土は実際には...

ホースラディッシュの作り方

ワサビは一般的な食品であり、生活の中でよく使われる食品です。多くの人がワサビを食べるのが好きなのは、...

バレンタインデーにチョコレートを贈る理由 チョコレートの7つの魔法の効果

英語の辞書によると、2月14日のバレンタインデーは古代ローマのルペルカリア祭に由来するそうです。この...

かぼちゃ餅

健康維持の話題が広まっている時代において、健康的な食生活は人々にとって最も関心の高い問題となっていま...

電気自動車の推進は一般的な傾向であり、燃料自動車産業は最終的に廃止されるだろう

7月2日のニュース、技術革新が現状を覆す恐れがあるたびに、常に現状からの抵抗に遭遇します。現在、石油...

Bluetooth 5.0 と Wi-Fi、モノのインターネットにはどちらが適しているのでしょうか?

Bluetooth SIG による Bluetooth 5 の発表は、2016 年の IoT にお...

「加齢臭」は存在するのか?高齢者には特別な匂いがあるのでしょうか?

リヴァイアサンプレス:高齢者が住む場所では、換気されていない空気に油やカビ臭が混じった一種の「加齢臭...

朝、空腹時にリンゴを食べるのは良いことでしょうか?

私たちは毎日朝食なしでは生きていけませんが、仕事や環境の要因により、朝食を食べなかったり、朝食に果物...

鶏胸肉のレシピ

体重を減らしたいとき、ダイエットを選択する人は多いです。この方法は短期的には効果がありますが、体に大...

食後に果物を食べるのはなぜ好ましくないのでしょうか?

私たちの日常の食事の主な成分は脂肪、糖、タンパク質ですが、これらの食品が胃の中で滞留する時間は、おお...

キウイジュースの作り方

キウイは栄養価が非常に高い果物です。ほんのりとした酸味とほのかな甘みが味わえます。噛むととても柔らか...

自動車各社が「バッテリー装備競争」開始、CATLの長寿命バッテリーが「売れっ子」に

新エネルギー車界では、「航続距離不安」や「エネルギー補給不安」が常に最もホットな話題となっているが、...

フライドポテトの揚げ方

フライドポテトは多くの子供たちのお気に入りの食べ物です。この種の食べ物は食べても人間の健康に害はあり...

鴨砂肝の調理方法

私たちは鴨肉をよく食べますが、鴨砂肝についてはあまり知らないかもしれません。実は、作り方や調理法をマ...