前回は、GAN モデルとそれがどのようにリアルな画像を生成するかを紹介しました。しかし、GAN モデルにも深刻な問題があります。 GAN は、本質的に複雑な敵対的動作のため、トレーニングが困難です。学習中にモデルが停止したりクラッシュしたりして、パフォーマンスが元に戻ってしまうことがあります。さらに、GAN は汎用性が低いです。特定の種類の画像を生成したい場合、トレーニング データとして事前に大量の実際の類似画像を見つける必要があり、これもさまざまなシナリオでの GAN の大規模な適用を妨げます。 画像ソース: pixabay 1. 民間向けに事前トレーニングされた生成モデル 新しいモデルはこの問題を大幅に解決します。 2021年1月、アメリカの研究機関OPEN AIがDALL・Eをリリースし、その後OPEN AIは2022年4月にDALL・E 2を発表しました。GANと比較すると、DALL・Eは人間の言語を理解する能力も備えた事前トレーニング済みの大規模モデルであるため、ユーザーはテキストを1つ入力するだけで対応する画像を直接生成でき、毎回対応するデータセットに従って再トレーニングする必要はありません。 モデルのトレーニングに専門知識が不要となり、テキストを入力するだけで素晴らしい画像を生成できるため、DALL·E 2は海外のソーシャルネットワークで大きな話題を呼んでいます。人々はモデルにあらゆる種類の奇妙なテキストを入力し、生成された画像を公開し、それがインターネットミームになりました。 DALL·E 2 は、動物、植物、建物、人物など、さまざまなエンティティを正確に生成できるだけでなく、リアルな写真からデジタル アート、油絵からシンプルな描画、ゴッホからアンディ ホール、中国の伝統画から日本の浮世絵、毛織物から粘土スタイルまで、必要に応じて絵画スタイルを変更することもできます。入力テキストにスタイルを表す単語を 1 つまたは 2 つ追加するだけで、DALL·E 2 は、このスタイルに一致する画像を自動的に生成できます。 さらに驚くべきことは、DALL·E は言語の含意を非常に正確に理解していることが多いため、完全に架空のシーンに直面しても、複雑なロジックで素晴らしい画像を生成することもできるということです。例えば: 2. DALL·E 2はどのように訓練されましたか? まず、OPEN AIは数億枚の画像とそれに対応する画像キャプションを取得し、CLIPと呼ばれるモデルをトレーニングしました。 このモデルは、複雑な高次元空間にテキストと画像を同時に投影できます。画像とテキストの間に対応関係がある場合、空間内で 2 つを表す点は非常に近くなります。そうしないと、両者の間に大きな距離が生じてしまいます。直感的に言えば、このモデルは人間の言語と画像の意味を捉えることができ、また、与えられたテキストに基づいてテキストの意味に一致する画像を見つけることもできます。 CLIP モデルは、意味的に類似した画像とテキストを、高次元空間内の互いに近いポイントに一致させることができます。 結果として得られた画像表現は、GLIDE と呼ばれる拡散モデルに渡され、ランダム ノイズの追加と除去が行われます。プロセス全体にランダムな要素が追加されるため、入力テキストの文から複数の異なる画像が生成される可能性があり、各画像はテキストの意味に準拠します。 OpenAIに加えて、Googleもその後、独自のモデルDisco Diffusionを立ち上げました。技術的な原理的には DALLE と非常に似ていますが、アーティストは主題のテキストを入力するだけでなく、いくつかの画像パラメータを制御できます。 DALLE·2とDisco Diffusionのどちらが良いでしょうか?それぞれに長所と短所があり、現時点では誰が優れているかを判断するのは難しいようです。両者を比較した作品は、海外の技術・デザイン界で人気文化となっている。全体的に見ると、彼らのスタイルはかなり異なります。 DALLE によって生成される画像はより論理的で現実的です。写真スタイルの画像は、歪みによって不快感を与える可能性が低くなります。一方、ディスコ ディフュージョンの写真は、より想像力に富み、独自のスタイルを持ち、より「芸術的」です。 これらのモデルは強力ですが、中国語を理解できず、伝統的な中国絵画など、中国の特徴を持つ画像を生成するのは困難です。そのため、中国の多くの機関も創造力のあるモデルの育成に取り組んでいます。百度は2022年8月に「文心易歌」をリリースした。これは中国語の入力を受け付けるだけでなく、古代の詩の芸術的概念を取り入れた中国の絵画や写真を生成するものでもある。 百度の文靈一歌が「江南水郷」のイメージを生成 3. 生成された画像の欠点 もちろん、AIの作品を鑑賞する一方で、人工知能が絵を描く際に生じる問題を無視することはできません。一つ目は、仕事の質の問題です。 AI 作品はインパクトと視覚的な緊張に満ちていますが、他のほとんどすべてのディープラーニング モデルと同様に、知識、推論、論理を理解するには十分ではありません。たとえば、「世界最大の猫の絵を描いてください」や「犬は猫の左側に座っています」という質問では、論理的または常識的な絵は描けません。リアルな人間の画像を生成する場合、わずかな偏差により不気味の谷効果が発生し、人々に不快感を与えることがあります。 広く注目されているもう一つの問題は、AI が奇妙な形の手を生成することが多いことです。この現象は、手が人体の中で最も形状が豊かな構造の 1 つであるという事実によるものと考えられます。人間の手には 20 個以上の関節があります (顔には 1 個しかありません)。 さらに、トレーニングに使用される写真のほとんどでは、手は最も中心的な部分ではないことが多いため、角度、距離、ジェスチャーが異なり、影や他のオブジェクトによってブロックされることもあります。 キャプション: 手にはさまざまな姿勢がある 指の形や数が異なる、さらに奇妙な「手」もあります。これらの画像には「手」というラベルが付けられており、モデルは画像の形状、および形状の平均的な形が妥当である可能性が高いと考え、さまざまなごつごつした手が生成されました。 これらも「手」と呼べる 品質の問題に加えて、AI によって生成されたコンテンツはさまざまな倫理的問題を引き起こす可能性もあります。たとえば、言語モデルによく見られる偏見や固定観念は、画像生成にも反映されます。例えば、「大企業の CEO」というイメージを生成する場合、成熟した白人男性が登場する可能性が高くなります。 さらに大きな懸念は、テクノロジーによって偽のコンテンツが簡単に生成されるようになる可能性があることだ。一例として、チーム写真のほぼすべてを AI テクノロジーで生成した企業があります。注意深く見れば、まだいくつかの手がかりを見つけることができます。例えば、1列目の2番目に座っている人は片方のイヤリングしか着けておらず、2列目の左から2番目の人の耳の輪郭は正常ではありません。 この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。 著者: 関新宇 科学人気作家 査読者: Yu Yang、Tencent Xuanwu Lab 所長 |
<<: 色いいですね!魚の中に「カメレオン」は本当に存在するのでしょうか?
>>: 「ゼロカーボン農産物」:ディン! 「新しいグリーンメニュー」をご確認ください
ネギは私たちの生活の中でよく使われるスパイスであり、食べ物の風味を高めるのに非常に役立ちます。豆腐は...
制作:中国科学普及協会著者: 秦亜龍 (中国科学院植物研究所、江蘇省、南京中山植物園)プロデューサー...
企画・制作出典: Curious Doctor編集者:イヌオこの記事の表紙画像と画像は著作権ライブラ...
東菜は冬野菜のことではなく、漬物の一種です。中国全土で見られ、今では四川東菜もあります。冬野菜は栄養...
機能がますます高度化するにつれ、バッテリー寿命は主要なスマートフォンを悩ませてきた問題であり、iPh...
2016年1月21日から31日まで、米国ユタ州パークシティで新しいサンダンス映画祭が開催されました。...
忘れられない嗅覚体験宇宙はどんな匂いがするのでしょうか?これは非常に混乱を招く質問です。そして、宇宙...
ゴーストシュリンプやグラスシュリンプとしても知られるジャイアントタイガーシュリンプは、最大のエビです...
アジアの新興経済国の一つとして、インドネシアの電子商取引市場は急速に成長しています。同国の電子商取引...
牛乳は一般的な飲み物で、主に牛から搾り取られ、牛乳にはさまざまな等級があります。市場には多くの乳製品...
健康維持の重要性を知る人はますます増えています。人生には健康を維持する方法がたくさんありますが、食事...
豚の心臓は私たちにとってとても身近な存在です。日常生活では珍しいものではありません。もちろん、豚は一...
これはネイチャートランペットコラムの第68号です。過去半月の間に、私たちは次のような読む価値のある自...
牛乳は非常に一般的です。牛乳には多くの種類があり、自分の好みに基づいて牛乳を選択できます。純粋な牛乳...
「今日頭条は芝湖から300匹の大型Vを密猟した。これは芝湖の環境浄化に役立つだろう。」昨日、羅振宇...