はじめに
AI画像生成では、プロンプト(テキスト指示)以外にも多くの設定項目(パラメータ)があります。 「CFGスケール」「サンプラー」「ステップ数」── これらの値を変えるだけで、画像の品質や雰囲気がガラッと変わりますの。
でも、意味がわからないままデフォルト値のまま使っている、そんな経験おありではないでしょうか? この記事では、各パラメータの役割・効果・おすすめ設定をやさしく解説します。
- CFGスケールの意味と調整方法
- サンプラーの種類と選び方
- ステップ数の効果と最適値
- VAEの役割と設定方法
- シード値の仕組みと活用法
- 解像度の考え方
- 用途別のおすすめ設定プリセット
Stable Diffusionの生成画面には多くの設定項目がありますが、大きく分けると 「何を描くか」(プロンプト)と「どう描くか」(パラメータ)の2つです。 この記事は後者「どう描くか」を解説します。
第1章:CFGスケール ─ プロンプトへの忠実さ
CFGスケール(Classifier-Free Guidance Scale)は、 「プロンプトにどれだけ忠実に画像を生成するか」を決めるパラメータです。
CFGスケールの効果
抽象的・ランダム
創造的・柔らかい
バランス◎
コントラスト強め
色・エッジが崩壊
画家への指示の厳しさに似ています。 CFGが低い → 「こんな感じで自由に描いて」(アーティストの裁量が大きい)。 CFGが高い → 「指示通りに正確に描いて」(自由度なし、破綻リスクあり)。
おすすめの設定
| 用途 | CFGスケール | 理由 |
|---|---|---|
| 一般的な生成 | 7 | 最もバランスが良い万能値 |
| アート・風景 | 5〜7 | 柔らかく自然な表現 |
| キャラクター(忠実に) | 7〜9 | プロンプトの指示をしっかり反映 |
| 文字を含む画像 | 9〜12 | テキストの精度を上げたい場合 |
SDXLではCFG 4〜8が推奨されることが多く、SD 1.5より低めが最適です。 使用するモデルやサンプラーによって最適値は変わるので、 まずは7から試して微調整してみましょう。
CFGスケールの効果をもっと直感的に理解したい方は、記事下部の実画像比較をご覧ください。 同じプロンプト・同じシード値でCFG 1〜30まで変えた比較画像を掲載しています。
第2章:サンプラー ─ 画像の描き方の「流派」
サンプラーは、ノイズから画像を生成する際の 「ノイズの除去方法」を決めるアルゴリズムです。 同じプロンプトでもサンプラーが違えば、画像の雰囲気やディテールが変わります。
主要サンプラー一覧
Euler a
最もポピュラーなサンプラー。「a」はAncestralの略で、 毎ステップにランダム性を加えるため創造的で多様な画像が生まれやすい。 ステップ数は20〜30で十分。
DPM++ 2M Karras
品質と速度のバランスが最も良いとされるサンプラー。 Karrasスケジューラーとの組み合わせで安定した高品質な出力。 多くのモデル作成者が推奨。ステップ数20〜30。
DPM++ SDE Karras
SDEベースでノイズ除去が丁寧。ディテールが豊かで 質感表現に優れる。やや遅いが、品質重視の場面で活躍。
UniPC
少ないステップ数(10〜15)でも高品質な画像を生成可能。 速度重視のシーンや大量生成に最適。
LCM
Latent Consistency Model対応サンプラー。 わずか4〜8ステップで画像生成可能。 専用のLoRAやモデルが必要。
DDIM
初期から存在する安定サンプラー。決定的(ランダム性なし)なため、 再現性が高い。img2imgやControlNetとの相性が良い。
サンプラーの選び方フローチャート
- とりあえず使う → 「DPM++ 2M Karras」(万能)
- 多様な画像を試したい → 「Euler a」(ランダム性あり)
- 品質重視・じっくり → 「DPM++ SDE Karras」(ディテール◎)
- 速度重視・大量生成 → 「UniPC」または「LCM」
- 再現性重視 → 「DDIM」
Ancestral(a付き)サンプラーの特徴
名前に「a」が付くサンプラー(Euler a, DPM++ 2S a など)は、 毎ステップでランダムノイズを追加します。 そのためステップ数を変えるとまったく違う画像になることがあります。 逆に「a」がないサンプラー(Euler, DPM++ 2M など)は ステップ数を増やしても画像が収束していくため、安定した結果が得やすいです。
サンプラーとステップ数の違いをもっと直感的に理解したい方は、記事下部の実画像比較をご覧ください。 同じプロンプト・同じシード値で4種のサンプラー × 10段階のステップ数を比較しています。
第3章:ステップ数 ─ ノイズ除去の回数
ステップ数(Sampling Steps)は、 ノイズを何回に分けて除去するかを決めるパラメータです。 多いほど丁寧だが、処理時間も増えます。
ステップ数と品質の関係
形が崩れやすい
時短向き
十分な品質
ディテール向上
時間対効果は低い
鉛筆画の仕上げ回数に似ています。 1回目はざっくりとした下書き、2回目で輪郭を整え、3回目で影を付ける… 最初の数回で大きく変わりますが、10回目と11回目の差はほとんどわかりません。
おすすめ設定
| 用途 | ステップ数 | サンプラー例 |
|---|---|---|
| プロンプトの試し打ち | 10〜15 | UniPC, Euler a |
| 通常の生成 | 20〜25 | DPM++ 2M Karras |
| 高品質生成 | 30〜40 | DPM++ SDE Karras |
| LCM使用時 | 4〜8 | LCM |
50を超えても画質の改善はほとんどありません。 むしろ過学習のような現象(over-cooking)が起き、 画像が不自然になることがあります。 20〜30で十分なことがほとんどです。
📸 実画像でサンプラー × ステップ数の違いを比較
理論だけではピンとこないので、実際に同じプロンプト・同じシード値で サンプラーとステップ数を変えて生成した画像を比較してみましょう。
モデル: DreamShaper 8(SD 1.5系) / 解像度: 512×768 / CFG: 7 / Seed: 1118099730
プロンプト: ファンタジーソーサレス(銀髪・青い瞳・金刺繍の黒ローブ・魔法パーティクル・ドラマチックライティング)
📝 Prompt:
(masterpiece, best quality, ultra-detailed:1.2), 1girl, fantasy sorceress, flowing silver hair, glowing blue eyes, intricate dark robe with golden embroidery, magical particles floating around hands, BREAK dramatic lighting, dark castle interior background, cinematic composition, detailed face, sharp focus❌ Negative Prompt:
worst quality, low quality, blurry, deformed, ugly, bad anatomy, bad hands, extra fingers, missing fingers, watermark, text※ 画像クリックで拡大できます










15ステップあたりから安定し、20〜25ステップで十分な品質に到達。それ以降はほぼ変化なし。収束型のサンプラーなので、ステップ数を上げても構図は変わらず細部が洗練されていく。










Ancestral(ランダム性あり)なので、ステップ数によって構図やディテールが変化する。20〜30ステップで品質が安定するが、ステップを変えると別の絵になることも。多様性を求めるのに向いている。










SDEベースのためランダム性があり、ステップ数で表情が変化する。質感やディテールが豊かで、特に肌や布の表現に優れる。25〜35ステップがおすすめだが、生成速度はやや遅め。










10ステップでも十分実用的な品質に到達するのが最大の特徴。収束型で安定感があり、大量生成やプロンプト探索に最適。20ステップ以降はほぼ変化なし。
一般的に「20〜30ステップが最適」とよく言われますが、実際に比較表を作ってみて思ったのは、思い切ってステップ数を上げてみるのも全然アリだということです。 特に Euler a の80ステップで出来上がった魔法の球の表現は個人的にかなり好みです! Ancestral系サンプラーはステップ数が変わると絵自体が変わるので、 「あえて高ステップでランダムに当たりを探す」という使い方もおすすめです。 時間はかかりますが、思わぬお気に入りが生まれるかもしれません。
📸 実画像でCFGスケールの違いを比較
CFGスケールの値を1から30まで変えて、 同じプロンプト・同じシードで生成した画像を比較してみましょう。 CFGが低いとプロンプト無視でふわっとした絵に、高すぎると色が破綻するのがよくわかります。
モデル: DreamShaper 8 / 解像度: 512×768 / ステップ: 30 / サンプラー: Euler a / Seed: 1118099730
プロンプト・ネガティブプロンプトは上記のサンプラー比較と同じ





















CFG 1〜3: プロンプトをほぼ無視した抜象的な絵に。 CFG 5〜8: プロンプトと自由度のバランスが良く、最も自然な仕上がりに。 CFG 10〜15: プロンプトに忠実だがコントラストが強くなってくる。 CFG 16+: 色が飽和し始め、特に20以上では色ノイズや破綻が目立ちます。
第4章:VAE ─ 色と質感の仕上げ役
VAEの役割
VAE(Variational Autoencoder / 変分自己符号化器)は、 AI画像生成プロセスの最後の仕上げを担当する部品です。
料理で言えば盛り付け担当です。 シェフ(U-Net)が作った料理を、VAEが美しくお皿に盛り付けます。 盛り付けが変われば、同じ料理でも見た目の印象が変わりますよね。
VAEを変えるとどうなる?
| VAEの状態 | 画像への影響 |
|---|---|
| VAEなし(内蔵VAE使用) | モデルのデフォルト。やや色が薄い場合がある |
| 良いVAEを使用 | 色が鮮やかに、細部がシャープに、彩度が向上 |
| 合わないVAEを使用 | 色が変・ぼやける・ノイズが出るなどの不具合 |
おすすめVAE
| VAE名 | 対応モデル | 特徴 |
|---|---|---|
| vae-ft-mse-840000 | SD 1.5 | 定番中の定番。色が自然で安定。ほとんどのSD 1.5モデルと相性◎ |
| kl-f8-anime2 | SD 1.5(アニメ系) | アニメ調モデル向け。彩度がやや高めで鮮やかな発色 |
| sdxl_vae.safetensors | SDXL | SDXL標準VAE。ほとんどのSDXLモデルに内蔵済み |
SDXLモデルを使っている場合、VAEはモデルに内蔵されていることがほとんどなので、 特に設定不要です。SD 1.5を使っている場合は「vae-ft-mse-840000」を 設定しておくと色がきれいになります。
VAEの技術的な仕組み
VAEはエンコーダーとデコーダーの2つで構成されています。
| コンポーネント | 役割 | 処理 |
|---|---|---|
| エンコーダー | 画像 → 潜在空間 | 512×512の画像を64×64×4の潜在表現に圧縮(img2imgで使用) |
| デコーダー | 潜在空間 → 画像 | 64×64×4の潜在表現を512×512のピクセル画像に復元(毎回使用) |
U-Netが処理するのは潜在空間上のデータであり、 人間が見られるピクセル画像ではありません。 VAEのデコーダーがこの「暗号化されたデータ」を 美しい画像に変換する役割を担っています。
VAEの品質が画像に影響する理由
VAEデコーダーの品質が低いと、U-Netがどれだけ良い潜在表現を作っても、 最終画像の色再現・ディテール・シャープネスが劣ります。 逆に、高品質なVAEを使えば同じ潜在表現からより鮮やかで精細な画像が得られます。
- ft-mse:MSE(平均二乗誤差)で最適化。色が正確で自然
- ft-ema:EMA(指数移動平均)で平滑化。やや柔らかい印象
- 一般的にはft-mseが推奨されることが多い
第5章:シード値 ─ 画像の「DNA」
シード値(Seed)は、画像生成の出発点となる 「ランダムノイズのパターン」を決める数値です。 同じシード+同じ設定=同じ画像が再現されます。
シード値の使い方
| 設定 | 効果 | 使うタイミング |
|---|---|---|
| -1(ランダム) | 毎回違う画像が生成される | 新しい構図・ポーズを探しているとき |
| 固定値 | 同じ構図の画像が再現される | 気に入った構図でプロンプトを微調整したいとき |
シード値の活用テクニック
- お気に入りを見つけたら → シード値をメモしておく(生成情報から確認可能)
- 微調整したいとき → シード値を固定して、プロンプトやCFGを少しだけ変える
- バリエーションを作りたいとき → シード値を1〜2変えるだけで、似た構図の別画像が得られる
- 共有するとき → シード値+全パラメータを共有すると、他の人も同じ画像を再現可能
同じシード値でも、モデル・サンプラー・ステップ数・CFG・解像度の どれか一つでも変わると異なる画像になります。 完全な再現にはすべての生成パラメータを同じにする必要があります。
第6章:解像度 ─ サイズの基本ルール
解像度はモデルの学習解像度に合わせるのが基本。 大きすぎると破綻し、小さすぎるとぼやけます。
モデル別の推奨解像度
| モデル | 基本解像度 | 推奨アスペクト比の例 |
|---|---|---|
| SD 1.5 | 512 × 512 | 512×768, 768×512 |
| SDXL | 1024 × 1024 | 832×1216, 1216×832 |
| FLUX | 1024 × 1024 | 896×1152, 1152×896 |
- SD 1.5で1024×1024にすると人が2人出る、頭が2つになるなどの破綻が起きやすい
- SDXLで512×512にするとぼやけた画像になる
- 高解像度が欲しい場合は、基本解像度で生成してからHires.fixやアップスケーラーで拡大するのが正攻法
- 総ピクセル数が基本解像度の約1.5倍以内に収めると安定
第7章:おすすめ設定プリセット
「結局どう設定すればいいの?」という方のために、用途別のおすすめプリセットを紹介します。
🎨 SD 1.5 ─ アニメイラスト(定番設定)
最もオーソドックスな設定。迷ったらまずこれで試しましょう。
📸 SD 1.5 ─ リアル系ポートレート
CFGをやや低めにして自然な柔らかさを出す。SDEサンプラーで肌の質感向上。
✨ SDXL ─ 高品質イラスト
SDXLはCFGを低めに設定するのがポイント。解像度を大きくしても安定。
⚡ 高速プレビュー用(構図探し)
大量にシード値を変えて「当たり」を探したいときに。品質は最低限だが高速。
パラメータ調整はサンプラー → CFG → ステップ数の順で試すのが効率的です。 サンプラーで大枠の雰囲気を決め、 CFGでプロンプトへの忠実さを調整し、 最後にステップ数でディテールを追い込みましょう。
まとめ
- CFGスケール ─ プロンプトへの忠実さ。まずは7から
- サンプラー ─ ノイズ除去の方法。迷ったら「DPM++ 2M Karras」
- ステップ数 ─ 多いほど丁寧だが、20〜30で十分
- VAE ─ 色と質感の仕上げ。SD 1.5なら「vae-ft-mse-840000」
- シード値 ─ 画像のDNA。固定すれば同じ画像を再現できる
- 解像度 ─ モデルの基本解像度に合わせること
- 調整の順番はサンプラー → CFG → ステップ数
- プロンプトガイド ─ プロンプトの仕組みを徹底解説
- Stable Diffusionとは? ─ 仕組みと歴史をやさしく解説
- LoRAとは? ─ 追加学習の仕組みと使い方
- おすすめチェックポイント紹介 ─ モデル選びのガイド
- SD 1.5 vs SDXL 徹底比較 ─ バージョンの違いを詳しく