ブラシからピクセルまで: AI ペイントの過去と現在の簡単な紹介

AI ペインティングについて知っておくべきこと。

先週、待望のMidjourney V5 AI Art Generatorが正式にリリースされ、AI主導のアート制作の世界に再び変化をもたらしました。大幅に強化された画質、より多様な出力、幅広いスタイル、シームレスなテクスチャのサポート、より広いアスペクト比、改善された画像ヒント、拡張されたダイナミックレンジなどを誇ります。

以下の画像は、「イーロン・マスクがテスラを紹介する、90 年代のコマーシャル」というプロンプトで Midjourney V4 と Midjourney V5 によって生成されたものです。

今回人々の期待に応えたのは、Midjourney V5がよりリアルな画像生成効果、より表現力豊かなアングルやシーン概要、そしてついに正しく描画される「手」をもたらしたことです。かつて AI ペイントコミュニティで広く流布していたジョークは、 「女性に年齢を尋ねたり、AI モデルがなぜ手を隠すのか尋ねたりしてはいけない」というものでした。

これは、AI アートジェネレーターが絵を描くのが下手だからです。視覚的なパターンは把握できるものの、その根底にある生物学的論理は把握できない。言い換えれば、AI アートジェネレーターは手に指があることは理解できますが、人の片手には通常 5 本の指しかないことや、それらの指の長さは決まっていて、指同士の関係も固定されていることを理解するのは難しいのです。

過去 1 年間、AI アートジェネレーターが手を正しくレンダリングできないという「欠陥」が文化的な比喩になりました。手の問題は、AI アートジェネレーターがトレーニングに使用した膨大な画像データセットから情報を推測する能力に一部関係しています。

Midjourney V5 がリアルな人間の手を非常にうまく生成できることは注目に値します。ほとんどの場合、手は正しく、片方の手の指は 7 本から 10 本ではなく 5 本です。

Midjourney V5 のリリースにより、世界中のユーザーの間で幅広い関心が高まりました。大量のトラフィックが流入したため、Midjourney サーバーが短時間クラッシュし、多くのユーザーがアクセスできなくなりました。さらに、OpenAIのDALL・E 2、Stability AIのStable Diffusionなどの「文化グラフ」モデルも業界で話題になっています。

人々がこれらの「テキスト画像」モデルにテキストを入力すると、説明に一致する比較的正確な画像を生成することができます。生成された画像は、油絵、CGI レンダリング、写真など、任意のスタイルに設定できます。多くの場合、唯一の制限は人間の想像力から生じます。

前世：DeepDreamから始まった夢

2018年、AIが生成した初の肖像画「エドモンド・ド・ベラミー」が、オブビアス・アートの「ラ・ファミーユ・ド・ベラミー」シリーズの一部として敵対的生成ネットワーク（GAN）によって作成され、最終的にクリスティーズの美術オークションで43万2500ドルで落札されました。

2022年、ジェイソン・アレンのAI生成作品「Théâtre D'opéra Spatial」がコロラド州フェアの毎年恒例のアートコンテストで1位を獲得しました。

近年、人々の期待の中で、さまざまな「文勝図」モデルが次々と登場しています。ニューラルネットワークが画像処理で一定の成果を達成すると、研究者はニューラルネットワークが世界をどのように見て分類するかをより深く理解するための視覚化技術の開発を開始し、次々と「ヴェネツィアグラフ」モデルを作成しました。

DeepDream は、ニューラルネットワークによって学習された表現に基づいて画像を生成します。入力画像を取得した後、トレーニング済みの畳み込みニューラルネットワーク (CNN) を逆順に実行し、勾配上昇法を適用してレイヤー全体のアクティブ化を最大化しようとします。下の図 (左) は、元の入力画像とその DeepDream 出力を示しています。

驚くべきことに、DeepDream は ImageNet データベース (さまざまな犬種や鳥の例を含む) を使用してトレーニングされたため、出力画像には多くの動物の顔と目が含まれています。一部の人々にとって、DeepDream によって生成された画像は夢のようなサイケデリックな体験に似ています。しかし、それでも、DeepDream は芸術的な画像を作成するツールとしての AI の使用を加速させました。

ニューラルスタイルトランスファーは、ある画像のコンテンツと別の画像のスタイルを組み合わせることができるディープラーニングベースの技術です。上図 (右) では、ゴッホの「星月夜」がターゲット画像に適用されています。 Neural Style Transfer は、CNN の損失関数を再定義してこれを実現します。つまり、CNN の高レベルのアクティベーションを通じてターゲットイメージを保持し、複数のアクティベーションレイヤーを通じて他のイメージのスタイルをキャプチャします。その結果、出力画像は入力画像のスタイルと内容を保持します。

2017年、Wei Ren Tanらは、「 ArtGAN 」というモデルを提案しました。このモデルの出力画像は画家の作品とは全く似ていませんが、それでも芸術作品の低レベルの特徴を捉えています。その結果、ArtGAN はより多くの研究者に、芸術的な画像を生成するために GAN を使用するよう促しました。

その後すぐに、Ahmed Elgammal らは、識別器によって芸術的であると判断されるが、既存の芸術的スタイルには従わない画像を生成するように GAN をトレーニングするための Creative Adversarial Neural Network ( CAN ) を提案しました。 CAN が制作した画像はほとんどが抽象絵画のように見え、独特の雰囲気を醸し出しています。

2017 年、Phillip Isola らは、入力画像を受け取り、変換されたバージョンを生成する条件付き GAN、pix2pixを作成しました。たとえば、現実世界で RGB 画像があるとすると、それを BW (白黒バイナリ画像) バージョンに簡単に変換できます。しかし、白黒画像をカラー画像に変換する場合、手動で色付けするのは非常に時間がかかります。 pix2pix はこのプロセスを自動化し、トレーニングプロセスや損失関数を調整する必要なく、任意の画像ペアのデータセットに適用できます。

pix2pix は生成 AI における大きな進歩ですが、トレーニングには対応する画像ペアが必要であり、すべてのアプリケーションで実行できるわけではありません。たとえば、モネが作成したすべての絵画に対応する写真がなければ、pix2pix は入力をモネの絵画に変換できません。

この目的のために、Jun-Yan Zhu、Taesung Parkらは、2つの条件付きGANとそれらの間の「サイクル」を組み合わせてpix2pixを拡張する「CycleGAN」を提案しました。このモデルは、トレーニングセット内のペア画像を参照せずに、画像を他のモダリティに変換できます。

この人生：トランスフォーマーとディフュージョンの戦い

2021年に大きな転機が訪れ、数々の「Venshengtu」モデルが登場した。 OpenAI は、ピクサーのアニメ映画「ウォーリー」とシュルレアリストの画家サルバドール・ダリにちなんで名付けられた DALL·E をリリースしました。 DALL·E は、画像を低次元トークンにマッピングすることを学習する離散変分オートエンコーダ (dVAE) と、テキストおよび画像トークンをモデル化する自己回帰トランスフォーマーモデルを組み合わせたものです。テキスト入力が与えられると、DALL·E は画像トークンを予測し、推論中にそれらを画像にデコードできます。

DALL·E は、個別に学習したが、生成された単一の画像では見たことのない概念を組み合わせることもできます。たとえば、トレーニングセットにはロボットやドラゴンのイラストがありますが、ドラゴンの形をしたロボットはありません。「ロボットドラゴン」と指示された場合、モデルは対応する画像を生成することができました。

しかし、DALL·E はコミックや芸術的なスタイルの画像をうまく生成できる一方で、リアルな写真を正確に生成することはできません。そのため、OpenAI は改良されたテキストグラフモデルであるDALL·E 2を作成するために多くのリソースを投入しました。

DALL·E 2 は、CLIP (Dataset of Image-Text Pairs) テキストエンコーダを使用します。 DALL·E 2 は、テキストの説明と画像の関係を利用して、テキスト入力を反映し、画像生成に適した Diffusion モデルの埋め込みを提供します。 DALL·E と比較して、 DALL·E 2では画像の品質が向上し、既存の画像やコンピューターで生成された画像の背景を拡張することもできます。たとえば、有名作品のキャラクターをカスタム背景に配置します。

その後すぐに、Google は Imagen と呼ばれるテキストベースのグラフモデルをリリースしました。このモデルは、NLP モデル T5-XXL の事前トレーニング済みエンコーダーを使用し、その埋め込みが Diffusion モデルに入力されます。その結果、モデルはテキストを含む画像をより正確に生成できるようになりました（OpenAI のモデルでは困難だった問題）。

しかし、「ヴィンテージグラフ」の分野における最大の革命は、Stability AI がリリースした完全にオープンソースの Stable Diffusionかもしれません。 Stable Diffusion の計算効率は、他の Wensheng グラフモデルよりもはるかに高くなります。以前の Wensheng グラフモデルでは、数百日間の GPU 計算が必要でしたが、Stable Diffusion では計算量が大幅に少なくなるため、リソースが限られている人にも受け入れられやすくなります。また、画像間の変換（スケッチをデジタルアートに変換するなど）やペイント（既存の画像から何かを削除または追加する）によって、既存の画像を変更することもできます。

ディープラーニングとその画像処理アプリケーションは、数年前とはまったく異なる段階にあります。前世紀の初めには、ディープニューラルネットワークが自然画像を分類できるというのは画期的なことでした。今日、これらの画期的なモデルは、Transformer を使用するか、または Diffusion モデルに基づいて、単純なテキストプロンプトに基づいて非常にリアルで複雑な画像を生成できるため、 「テキスト画像」の分野が輝き、アート界の新たなブラシとなっています。

「脅威」か「共生」か、人間画家はどこへ向かうのか？

AIアーティストは誕生以来、論争に悩まされてきました。著作権紛争、誤った情報の出力、アルゴリズムの偏りなどにより、「芸術的画像」アプリケーションは何度も論争の中心となってきました。たとえば、今年 1 月には、3 人のアーティストが、Stable Diffusion と Midjourney の作成者である Stability AI と Midjourney、および DreamUp のアーティストポートフォリオプラットフォームである DeviantArt に対して訴訟を起こしました。同団体は、ウェブから収集した50億枚の画像を使って「元のアーティストの同意なしに」AIモデルをトレーニングし、「何百万人ものアーティスト」の権利を侵害したと主張している。

アーティストの多くは、AIが自分たちの独特なスタイルを模倣することでロボットに取って代わられ、生計を失うのではないかと恐れています。昨年12月、何百人ものアーティストがインターネット最大のアートコミュニティの1つであるArtStationに画像をアップロードし、「 AI生成画像にノー」を訴えた。一方で、芸術家の中には「私たちは目の前で芸術の死が進行していくのを見ている」と悲観的に考える者もいる。トレーニングデータに使用される画像の著作権については、依然として論争が続いています。

もちろん、AIを積極的に取り入れ、反復的で退屈な作業を省くためにWenshengの画像モデルを絵画アシスタントとして使用しているアーティストもいます。同時に、一部のアーティストはAIを想像力の「エンジン」として使い、Midjourneyのようなソフトウェアやコミュニティでのユーザーとの交流の中で、お互いを引き裂き、新しく興味深い人間の美学を生み出し、それが現実世界に溢れ出しています。 Midjourney は次のように説明しています。「AI は現実世界の複製ではなく、人間の想像力の延長です。」

現在、規制当局は AI アーティストに追いつこうとしています。最近、米国著作権局は書簡の中で、AIシステム「Midjourney」を使用して作成されたグラフィックノベルの画像は著作権保護を受けるべきではないと述べた。この判決は、AIによって作成された作品の著作権保護の範囲に関して米国の裁判所または機関が下した最初の判決の一つとなる。さらに、一部の学者は、ヴィンセントグラフ DIffusion モデルによるスタイルの模倣からアーティストを保護するために、アーティストが慎重に計算された摂動をアートに適用できるようにする Glaze と呼ばれるシステムを提案しました。

一連の「ビンテージ」アプリケーションにより、プログラミングの知識のないアーティストや一般の人々が、これらの強力なモデルを使用して視覚的に素晴らしい画像を生成できるようになります。 「AIに創造力を与える」これらのツールは、絵画であろうと他の分野であろうと、アーティストが創造性を表現するのに役立ち、芸術の未来を形作る可能性があります。

芸術における AI の役割は、その使用方法と、それを使用する人々の目標と価値観によって異なりますが、これらのモデルの使用は倫理的かつ責任ある考慮に基づいて行われるべきであることを覚えておくことが重要です。

参考リンク:

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

<<: 最も美しい春はどこですか？ 12枚の地図が教えてくれます!

>>: 私の友人関係を壊滅させた砂嵐はどうなったのでしょうか?