Stable Diffusion img2imgを使って画像を生成するには?

img2imgとは何か

Stable Diffusionを使って画像を生成しようとしたとき、イメージ通りの画像が得られず苦労したことはありませんか? もし、最初にイメージの例を見せられたらどうでしょう?

そこで便利なのが “img2img “です!Img2imgを使えば、Stable Diffusionに “種 “となる写真を与えて、基本的なアイデアを理解させることができます。

その後、テキストを追加して、その写真をどのように変更すれば、あなたが本当にイメージしたものと一致するかを正確に伝えることができます。これによって、夢のようなイメージをより早く簡単に手に入れることができます!このガイドでは、Stable Diffusion img2imgがどのように機能するのか、そしてプロのように使うためのヒントやトリックをお教えします。

また、Stable Diffusionのカスタム画像を使用することで、ただテキストを入力するよりも、より多くのコントロールが可能になります。img2imgのマスターになって、クリエイティブな可能性を最大限に引き出しましょう!

Stable Diffusion img2imgとは何か?

従来のテキストから画像への生成は、ランダムなノイズからプロセスを開始し、あなたのテキスト記述のみからシーンを形成しようとします。

Img2imgは、実際の既存画像を「種」として提供することで、それとは異なる働きをします。これにより、Stable Diffusionは、全体的な構図、配色、照明、遠近法など、ソース画像にすでに定義されている重要な側面を保持することができます。

その後、Stable Diffusion img2imgは、指定されたテキストプロンプトに基づいて、提供されたシード画像を修正・強化します。そのため、気に入った部分はそのままに、ターゲットとなるテキスト指示を使って、最終的なビジョンに向けて変更を加えることができます。

つまり

  • より速い収束: img2imgは、毎回ゼロからシーン全体を再作成するのではなく、一定に保ちたい要素をロックするので、プロンプトを純粋に希望する変更の記述に集中させることができます。
  • より多くのコントロールと精度: 大まかな方向性を示す既存のベースがあれば、目標出力に向けてきめ細かな調整を行うのがずっと簡単になります。

Stable Diffusion img2imgとtext-to-imageの利点 – 簡単な比較

それでは、従来のテキスト画像生成とimg2imgの主な利点を比較してみましょう。サンプル画像をシードとして使用し、AI生成のガイドとすることで、いくつかの重要な分野で機能が強化されます:

反復作業をスピードアップ

text-to-imageでは、最終的なアウトプットを思い通りにするには、複数のパスにわたってプロンプトを微調整しながら何時間もかかることがあります。また、保存したいシーン要素をモデルがゼロから再構築するまで、毎回待たなければなりません。

Stable Diffusion Img2imgは、世代を越えてベース画像の側面を保持することで、これを驚異的に加速します。更新されたバリアントを提供したり、インペインティングによって微小な編集を加えたり、必要な変更だけに焦点を当てたテキストの微調整を加えたりすることができます。このように、作業の反復をより速く積み重ねることで、目標とするビジョンに飛躍的に早く磨きをかけることができます。

イメージの側面を保持

テキストから画像への変換を行う場合、相違点だけに焦点を当てると、前のラウンドで苦労して獲得した他の要素が失われてしまう危険性があります。例えば、やっと文字の位置が完璧になったのに、照明がずれてしまったような場合です。

img2imgでは、シーンの基礎となる重要なクオリティが、出発点としてソース画像に焼き付けられます。そのため、変更せずに維持したい基本を作り直すために、毎ラウンド手作業で車輪を作り直す時間を無駄にする必要はありません。

テキストプロンプトを分離

テキストから画像への変換では、全体的なコンセプトと細かいディテールを一発で説明する、言葉の多いプロンプトが必要です。そのため、すべてを正確にダイヤルすることが非常に難しくなる。

Img2imgのシード画像は、大まかなシーンを設定し、適用させたい特定の変更を呼び出すためだけにテキストプロンプトを捧げることができます。例えば、「髪を長くする、エメラルドのイヤリングを追加する、アンバーの照明にシフトする」などだ。

Stable Diffusion UIでStable Diffusion img2imgにアクセスする方法

Automatic1111 Web UI のようなほとんどの Stable Diffusion UI は、img2img への合理的なアクセスを提供します。ここでは、Automatic1111を使用して、基本的な概要を説明します:

ステップ1: UIを起動し、img2imgモードに移動する。

左サイドバーの “Stable Diffusion “の下にあるトグルボタンをクリックして、img2imgモードに切り替えます。それ以外のインターフェイスは変わりません。

ステップ2:ソース画像をアップロードする

テキストプロンプトフィールドの代わりに、ベースとなる “種 “画像を提供するためのアップロードボックスが表示されます。スターター画像をドラッグ&ドロップします。

ステップ3:プロンプトの追加

プロンプトフィールドとネガティブプロンプトフィールドは、テキストから画像への生成と同じように機能します。シードに適用したい微調整や変更を記述するだけです。

これが基本です!では、Stable Diffusion img2imgの効果的な使い方を、以下でさらに探ってみましょう。

より良いStable Diffusion img2imgのための専門的テクニック

img2imgを最大限に活用するには、専門的な指導が必要です。ここでは、達人から抜粋したヒントをご紹介します:

サンプリング設定を使う

サンプリングステップとサンプリング方法の値は、モデルが最適な結果をどれだけ徹底的に探索するかを決定し、最終的な品質に大きく影響します。

低すぎると、アーティファクトなしで適切に機能強化を適用するための十分な「考える時間」がなくなります。高すぎると、あまり追加的な利点がないまま、世代が這い回ることになります。

img2imgの経験則として:

  • サンプリング・ステップ: プレビューを速くするには25-35、最終品質を出力するには50以上。
  • サンプリング方法 DPM++ SdeまたはDPM++ 2M Karrasは、スピードとクオリティの素晴らしいブレンドを提供します。

システムリソースを節約するために必要な精細さを与える、実行可能な最低設定を使用してください。その後、最終レンダリングのために設定を上げてください。

画像の寸法を合わせる

デフォルトでは、SDはimg2img出力を512×512でレンダリングしようとします。ただし、ネイティブサイズ以外のサイズを強制すると、ソースが歪んだり劣化したりするリスクがあります。

Resize dimensionsフィールドを使用すると、代わりに入力シード画像のネイティブピクセルの幅と高さを一致させて、問題を回避できます。

ノイズ除去強度によるバリエーションの微調整

このパラメータは、AIがどの程度ソース画像に忠実か、またはテキストプロンプトからよりランダムなバリエーションを適用するかを決定します。

値が低いほど、元のアスペクトを維持するためにより忠実になり、値が高いほど、より大きな乖離や追加が可能になります。0.75は良い出発点です。

求める変化に応じて、小刻みに調整し、適切なバランスを取ってください。

シーン全体ではなく、変更を記述する

種となる画像には、照明、オブジェクト、ムードなどがすでに定義されているので、希望する変更を呼び出すためだけに、プロンプトスペースを割くことができます。AIは、ゼロから作り直すのではなく、リクエストされた微調整を適用して画像をリフします。

さあ、特殊な高度な機能でさらにパワーを引き出しましょう…

特別なimg2imgツールによるコントロールの強化

Stable Diffusionには、よりきめ細かなステアリングを可能にする組み込みのStable Diffusion img2img機能が追加されています:

インペインティング

キャンバスに直接修正やブラシストロークをペイントすることで、ソース画像自体を手動で微調整できます。一種の「AI Photoshop」として、これらの編集を最終的なレンダリングに統合します:

たとえば、濃すぎる脇の下を明るくしたり、しみを消したり、顔の特徴を調整したり、髪型や髪の色を変えたり、背景を洗練させたりすることができます。モデルは、これらのペイントオーバーを、局所的な領域における修正の追加信号として使用します。

超解像アップスケーリング

Real ESRGANのような最先端のアップスケール拡張機能を使えば、画質を保ったまま、超高解像度の画像を生成できます。

そのため、ベースの欠陥をすべて修正し、メガピクセルを大幅にアップして、高忠実度の巨大な印刷用アートワークを作成できます。

まとめ

以上で、安定拡散 img2img の可能性を最大限に引き出すための包括的なガイドを終了します!サンプル画像を使用することで、AI画像生成プロセスをより厳密にコントロールできることがお分かりいただけたと思います。

Img2imgは、無駄なステップを省き、既知の要素をゼロから再構築することで、クリエイティブなビジョンをよりダイレクトに実現します。ここで取り上げたテクニックを身につければ、環境の微妙なタッチアップからキャラクターの過激なイメチェンまで、あらゆることにStable Diffusion img2imgを使えるようになります。

次のAIアートプロジェクトでは、その力を発揮してください!Stable Diffusionがターゲットとする画像ガイダンスと、あなたが望む修正のプロンプトを提供するだけです。あなたの拡張イマジネーションが思い描く素晴らしい光景を見るのが待ち遠しいです!