最も強力な文勝図モデル! Stable Diffusion 3 のビジュアルの美しさはどれほど素晴らしいのでしょうか?

最も強力な文勝図モデル! Stable Diffusion 3 のビジュアルの美しさはどれほど素晴らしいのでしょうか?

先月、Stability AIはWenshengtuメガモデルの第3世代となるStable Diffusion 3をリリースしました。このモデルは、既存のテキストから画像への生成システムを上回る強力なパフォーマンスを示し、テキストから画像への生成技術に大きな進歩をもたらします。

最近、Stability AI はついに Stable Diffusion 3 の技術レポートをリリースし、Stable Diffusion 3 の背後にある技術的な詳細を垣間見ることができました。レポートの主なポイントは次のとおりです。

Stable Diffusion 3 は、タイポグラフィやキュー追従などの面で優れており、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のテキストから画像への生成システムを上回っていることが知られています。で:

他のオープン モデルやクローズド ソース システムと比較すると、Stable Diffusion 3 は、視覚的な美しさ、キューの追従、タイポグラフィなどの分野で優れています。

Stable Diffusion 3 は、再重み付けされた長方形フロー形式を使用してモデルのパフォーマンスを向上させます。他の長方形フローフォームと比較して、より安定したパフォーマンスを発揮します。

新しいマルチモーダル拡散トランスフォーマー (MMDiT) アーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理し、以前のバージョンと比較してテキストの理解とスペル機能が向上しています。

MMDiT アーキテクチャは、DiT と矩形フロー (RF) 形式を組み合わせたものです。 2 つの独立したトランスフォーマーを使用してテキストと画像の埋め込みを処理し、2 つのモダリティのシーケンスをアテンション操作で組み合わせます。

MMDiT アーキテクチャは、テキストから画像への生成に適しているだけでなく、ビデオなどのマルチモーダル データにも拡張できます。

メモリを大量に消費する T5 テキスト エンコーダーを削除すると、パフォーマンスの低下はわずかですが、SD3 のメモリ要件が大幅に削減されます。

図 | 8B 修正モデルの高解像度サンプル。タイポグラフィ、正確なキューの追跡と空間推論、細部への配慮、さまざまなスタイルでの高画質などの機能を示します。

完全な技術レポートのリンク:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

次に、レポートに基づいて、Stable Diffusion 3 の技術的な詳細を見てみましょう。

MMDiTアーキテクチャ: Stable Diffusion 3を支える主要技術

MMDiT アーキテクチャは、Stable Diffusion 3 を支える重要な技術の 1 つです。従来の単一モダリティ処理方法と比較して、MMDiT アーキテクチャはテキストと画像の関係をより適切に処理できるため、より正確で高品質な画像生成を実現します。

図|モデル建築。

このアーキテクチャは、独立した重みセットを使用して画像と言語の表現を処理します。つまり、テキストと画像という 2 つの異なる入力モダリティに対して、MMDiT はエンコードと処理に異なる重みパラメータを使用して、各モダリティの特性と情報をより適切にキャプチャします。

MMDiT アーキテクチャでは、テキストと画像の表現は、事前トレーニング済みのモデルを通じて個別にエンコードされます。具体的には、MMDiT は 3 つの異なるテキスト エンベッダー (2 つの CLIP モデルと 1 つの T5 モデル) と、改良されたオートエンコーダー モデルを使用して画像トークンをエンコードします。これらのエンコーダーは、テキストと画像の入力をモデルが理解して処理できる形式に変換し、後続の画像生成プロセスの基礎を提供します。

図 | T5 は、高度な詳細や長い綴りのテキスト (行 2 と 3) など、複雑な手がかりにとって重要です。ただし、ほとんどのヒントでは、推論時に T5 を削除しても競争力のあるパフォーマンスが達成されます。

モデル構造の点では、MMDiT アーキテクチャは Diffusion Transformer (DiT) に基づいています。テキストと画像の表現は概念的に異なるため、MMDiT はこれら 2 つのモダリティを処理するために 2 つの独立した重みパラメータ セットを使用します。このようにして、モデルはテキストと画像の相関関係を考慮しながら、テキストと画像の表現空間で個別に動作できるため、より優れた情報伝達と統合が実現します。

パフォーマンスは他のWenshengグラフモデルを圧倒する

他のテキストから画像への生成モデルとパフォーマンスを比較すると、Stable Diffusion 3 が明らかに優れていることがわかります。視覚的な美しさ、テキストの準拠性、タイポグラフィの点では、Stable Diffusion 3 は、DALL·E 3、Midjourney v6、Ideogram v1 などの最先端のシステムを上回っています。

この利点は主に、MMDiT アーキテクチャによる画像とテキスト表現の独立した処理によるもので、これによりモデルはテキストの手がかりをより適切に理解して表現し、それに一致する高品質の画像を生成できるようになります。人間の評価者によって提供されたサンプル出力と比較すると、Stable Diffusion 3 は視覚的な美しさの点で他のモデルよりも優れたパフォーマンスを発揮します。評価者は、画像の美しさに基づいて最良の結果を選択するように求められました。結果は、生成された画像の美しさの点で、Stable Diffusion 3 が他のモデルよりも優れていることを示しています。

画像: この気まぐれで創造的な画像は、ワッフルとカバが混ざった生き物を描いています。この想像力豊かな生き物は、カバの特徴的なずんぐりとした体を持っていますが、その外見はサクサクした黄金色のワッフルに似ています。その生き物の皮膚はワッフル状で、シロップのような光沢がありました。これは、カバの自然な水生生息地と、特大のカトラリーや皿を背景にした朝食テーブルを興味深く組み合わせた、シュールな環境を舞台にしています。これらの画像は、遊び心のある不条理感と料理のファンタジーを呼び起こします。

評価者は、モデル出力と与えられたプロンプトの一貫性に基づいて、モデルのテキスト追跡能力を評価しました。テスト結果から判断すると、Stable Diffusion 3 はテキスト準拠のパフォーマンスが優れており、プロンプトに基づいて対応する画像コンテンツをより正確に生成できます。

タイポグラフィとは、モデルによって生成された画像内のテキストのレイアウト、書式設定、外観を指します。評価者の選択によると、Stable Diffusion 3 はタイポグラフィでも優れたパフォーマンスを発揮し、与えられたプロンプト内のテキスト情報をより適切に提示し、生成された画像をより読みやすく魅力的なものにしています。

さらに、 Stable Diffusion 3 は、さまざまなハードウェア デバイスでのパフォーマンスに関しても優れた柔軟性を発揮します

たとえば、RTX 4090 などのデバイスでは、最大モデル (8B パラメータ) で画像生成中に 34 秒以内に 1024 x 1024 解像度の画像を生成できるほか、初期プレビュー段階で 800m から 8B パラメータ モデル スケールまでさまざまなパラメータ モデル オプションを提供して、ハードウェアの制限をさらに排除することもできます。

コンシューマーレベルのハードウェアでは、Stable Diffusion 3 は依然として推論速度が速く、リソース使用率も高いです。

さらに、このテクノロジーは、さまざまなユーザーやアプリケーション シナリオのニーズを満たすためにさまざまなモデル スケール オプションを提供し、スケーラビリティと適用性を高めます

Stable Diffusion 3 は、画像生成の品質だけでなく、テキストとの配置と一貫性にも重点を置いています。改良されたプロンプトフォロー機能により、モデルは単に画像を生成するのではなく、入力テキストをよりよく理解し、それに基づいて画像を作成できるようになりました。この柔軟性により、Stable Diffusion 3 はさまざまなテーマやニーズに合わせて、さまざまな入力テキストに基づいて多様な画像を生成できます。

Stable Diffusion 3 は、データとノイズを線形軌道で接続する改良された Rectified Flow (RF) 方式を使用して、推論パスをより直線的にし、少ないステップでサンプリングできるようにします。同時に、Stable Diffusion 3 では、軌道の中央部分にさらに重みを割り当てる新しい軌道サンプリング スケジュールも導入され、予測タスクの難易度が向上します。この革新的なアプローチにより、モデルのパフォーマンスが向上し、テキストから画像への生成タスクでより良い結果が得られます。

テキストから画像への生成の分野において、Stable Diffusion 3 の登場は技術の大きな進歩を意味します。 MMDiT アーキテクチャの革新、Rectified Flow の最適化、ハードウェア デバイスとモデル スケールの柔軟な調整により、Stable Diffusion 3 は視覚的な美しさ、テキストのコンプライアンス、タイポグラフィに優れ、現在のテキストから画像への生成システムを上回っています。

Stable Diffusion 3 の誕生により、生成される画像の品質と精度が向上するだけでなく、将来のクリエイティブ産業、パーソナライズされたコンテンツの生成、補助的な作成ツール、拡張現実や仮想現実のアプリケーションに新たな可能性がもたらされます。

将来、この技術がさらに発展し、普及するにつれて、より革新的なアプリケーション シナリオとソリューションが登場することが期待できます。

参考リンク:

https://stability.ai/news/stable-diffusion-3-research-paper

<<:  運動を続ければ、70歳になっても髪の毛は太く黒く保たれるでしょうか?

>>:  外出時に車酔いしやすい人がいるのはなぜでしょうか?

推薦する

豚足の効能

豚足は多くの人に好まれています。豚足にはタンパク質が多く含まれており、よく食べても体に害はありません...

栄養豊富な八宝粥:その薬効と調理法

八宝粥は、私たちの日常生活でよく目にする栄養豊富な主食です。朝食、おやつ、夜食としてよく食べられます...

ラナオイルの食べ方

雪蛙油、雪蛙ペーストとも呼ばれるラナの木油は、卵を運ぶ成熟期の雌のカエルの卵管から抽出した油で、「腎...

自家製アイスキャンディーの作り方

夏が来ると、人々は暑さを避け、暑さを和らげるためにさまざまな方法を考え始めます。夏には、家に冷蔵庫が...

皮膚アレルギーがある場合、黒キノコを食べることはできますか?

菌類は私たちの日常生活では馴染みのないものではありません。実際、私たちの故郷ではよく見かけます。私た...

鍋焼き豆腐箱

山東省には有名なおやつがあります。それは鍋崩し豆腐箱です。山東省の民間料理で、茶色くて柔らかい味で、...

ザワークラウトと煮込んだ豚すね肉

骨は豚の子牛の骨です。骨には骨髄が含まれているため、より栄養価が高く、骨は多くの料理に使用できます。...

秋の病気を予防する食事療法

秋は乾燥しており、暑さや寒さが交互に訪れるため、さまざまな秋病が発生しやすくなります。この忙しい秋に...

オイスターマッシュルームの作り方

ヒラタケは、私たちが生活の中でよく食べるキノコの一種です。似たものにシイタケ、マッシュルーム、エノキ...

MIUIは2本の足で「出て行く」

7月5日、小米MIUIの責任者である洪鋒氏は、小米App Storeの累計配信量が設立後2年間で5...

酸っぱいタケノコの栄養価

酸っぱいタケノコは南雄の特別な調味料です。酸っぱいタケノコを料理に加えると、料理の味が濃厚になり、長...

ネギの種子の役割

チャイブは私たちにとって馴染み深いものですが、ネギの種はあまり馴染みがないかもしれません。ネギ種子は...

サンマの調理方法

折りたたみ魚は、多くの人が馴染みのない種類の魚です。この種の魚には、他の魚と同様にタンパク質やアミノ...

料理をするときには薄口醤油と濃口醤油のどちらを使ったらよいでしょうか?

家事が得意な友人であれば、薄口醤油と濃口醤油の使い方はよくわかっているかもしれません。しかし、料理を...

風熱風邪の一般的な食事療法

風熱風邪は、伝統的な中国医学では風熱風邪と呼ばれています。風邪は風熱が原因で起こると考えられています...