✦ Glossary

AI画像生成用語辞典

専門用語をわかりやすく解説。気になる用語を検索できます。

🔍

🧠 基本概念

Stable Diffusion SD

ステーブルディフュージョン

テキストから画像を生成するAIモデル。ノイズだらけの画像から徐々にノイズを取り除いて（拡散過程の逆）画像を作り出す仕組み。Stability AIが開発し、オープンソースで公開されている。SD 1.5やSDXLなどのバージョンがある。

SDXL Stable Diffusion XL

エスディーエックスエル

SD 1.5の後継モデル。1024×1024の高解像度に対応し、2つのテキストエンコーダーにより最大150トークンのプロンプトを処理可能。より精密な画像生成ができる。

プロンプト Prompt

プロンプト

AIに「こんな画像を作って」と指示するテキスト。英単語やタグをカンマで区切って記述する。前方に書いたタグほど影響力が強い。「呪文」とも呼ばれる。

ネガティブプロンプト Negative Prompt

ネガティブプロンプト

「これは描かないで」とAIに伝える指示。品質を下げる要素（worst quality, blurry等）や不要な要素をここに書く。技術的には、この方向から離れるように画像が生成される。

チェックポイント Checkpoint / Model

チェックポイント

AI画像生成のベースとなるモデルファイル。画風や得意なジャンルが異なる様々なチェックポイントが公開されている。ファイル形式は.safetensors（推奨）または.ckpt。数GBの大きなファイル。

シード値 Seed

シード

画像生成の初期ノイズを決定する数値。同じシード + 同じプロンプト + 同じ設定 = 同じ画像が生成される。気に入った画像のシードを記録しておけば再現できる。-1やランダムに設定すると毎回異なるノイズから生成される。

⚙️ モデル構造・技術

CLIP Contrastive Language-Image Pre-training

クリップ

OpenAIが開発した、テキストと画像の関係を理解するAIモデル。Stable Diffusionではプロンプトを数値ベクトルに変換する役割を担う。テキストを「トークン」に分解し、意味のある数値列に変換する。

トークン Token

トークン

プロンプトを処理する際の最小単位。1つの英単語は1〜3トークンに分解される。カンマやスペースもトークンを消費する。SD 1.5は75トークン、SDXLは150トークンが上限で、超過分は完全に無視される。

Cross-Attention 交差注意機構

クロスアテンション

テキストの意味を画像に反映させる仕組み。画像の各ピクセルが「どのタグに最も関連するか」を計算し、そのタグの特徴を取り込む。例えば「blue eyes」は目の領域のピクセルに強く作用する。

U-Net ユーネット

ユーネット

ノイズから画像を復元するニューラルネットワーク。U字型の構造を持つことが名前の由来。プロンプトの情報を受け取り、ステップごとにノイズを少しずつ取り除いて画像を完成させる。

VAE Variational Auto-Encoder

ブイエーイー

画像を圧縮した「潜在空間」と実際の画像を相互変換するモジュール。U-Netは潜在空間上で処理を行い、最終的にVAEが実際のピクセル画像に変換する。VAEを変更すると色味や細部の表現が変わる。

潜在空間 Latent Space

せんざいくうかん

画像を数学的に圧縮した抽象空間。実際の画像（1024×1024ピクセル）を直接処理すると膨大な計算が必要なため、圧縮された空間上で処理を行い、最後にVAEで画像に戻す。「Latent Diffusion」の名前の由来。

CFGスケール Classifier-Free Guidance Scale

シーエフジースケール

プロンプトにどれだけ忠実に画像を生成するかを調整する値。7前後が推奨。低い（1〜3）とプロンプト無視気味、高い（15+）と色が飽和して画像が崩壊することがある。

ODE Ordinary Differential Equation

オーディーイー / 常微分方程式

常微分方程式。サンプラーの文脈では決定論的な計算方式を指す。ODE系サンプラー（Euler、DPM++ 2M Karras等）は計算過程にランダム性がなく、同じシード・同じ設定なら毎回まったく同じ画像が生成される。

SDE Stochastic Differential Equation

エスディーイー / 確率微分方程式

確率微分方程式。サンプラーの文脈では確率的な計算方式を指す。SDE系サンプラー（DPM++ SDE Karras等）は各ステップでノイズの除去と再注入を行うため、同じシード・同じ設定でも毎回微妙に異なる画像が生成されることがある。ディテールが豊かになる傾向がある。

スケジューラー Scheduler / Noise Schedule

スケジューラー

ノイズ除去の各ステップで「どれだけノイズを除去するか」のスケジュールを決定するコンポーネント。Karrasスケジューラーは後半のステップでノイズ除去を細かく行い、ディテールを向上させる。サンプラー名の末尾に付く「Karras」はこのスケジューラーの種類を示す。

トークナイザー Tokenizer

トークナイザー

プロンプト（テキスト）をCLIPが処理できるトークン（数値列）に変換するプログラム。英単語を意味のある最小単位に分割する役割を持つ。バックエンドによってトークナイザーの実装が異なるため、同じプロンプトでもわずかに異なる解釈をされることがある。

CLIP Skip CLIPレイヤースキップ

クリップスキップ

CLIPテキストエンコーダーの最後から何層目の出力を使うかを指定するパラメータ。CLIP Skip 1は最終層（より抽象的）、CLIP Skip 2は最終から2番目の層（より具体的）を使用する。アニメ系ではCLIP Skip 2、リアル系ではCLIP Skip 1が一般的。値が変わると画像の雰囲気がかなり変化する。

🎓 学習・ファインチューニング

LoRA Low-Rank Adaptation

ローラ

ベースモデルに特定のキャラクターや画風を追加学習させる技術。モデル全体を再学習するのではなく、小さな追加データ（数十MB）だけを学習するため軽量。複数のLoRAを組み合わせて使うこともできる。

トリガーワード Trigger Word

トリガーワード

LoRAを有効化するためのキーワード。プロンプトにこの単語を入れると、そのLoRAの学習内容が画像に反映される。例えば「syasta」というトリガーワードのLoRAなら、プロンプトにsyastaと書くと学習したキャラが出現する。

エポック Epoch

エポック

学習データ全体を1周学習すること。10エポック = 全データを10回繰り返し学習。エポック数が多すぎると過学習（画像が固定的になる）し、少なすぎると学習不足になる。

学習率 Learning Rate

がくしゅうりつ

1回の学習でモデルをどれだけ更新するかの値。大きすぎると不安定（画像が壊れる）、小さすぎると学習が進まない。LoRAでは0.0001（1e-4）程度が一般的。

ネットワークランク (DIM) Network Rank / Dimension

ネットワークランク

LoRAの表現力を決定する値。大きいほど多くの特徴を学習できるが、ファイルサイズも大きくなり過学習のリスクも増す。キャラLoRAなら32〜64が一般的。

ネットワークアルファ Network Alpha

ネットワークアルファ

LoRAの学習の強さを調整する係数。通常はランク(DIM)の半分の値に設定する（DIM=32ならAlpha=16）。学習の安定性に影響する。

キャプション Caption

キャプション

学習用画像に付ける説明テキスト（.txtファイル）。画像ごとに「この画像には何が写っているか」をタグ形式で記述する。キャプションの正確さがLoRAの品質を大きく左右する。

過学習 Overfitting

かがくしゅう

学習データを「暗記」しすぎて、柔軟な画像が生成できなくなること。同じポーズ・構図ばかりが出たり、学習画像そのものが再現されたりする。エポック数を減らす、学習率を下げるなどで対策する。

kohya_ss LoRA学習ツール

コハヤエスエス

LoRAやDreamboothの学習を行うためのオープンソースツール。GUI（Web UI）から操作でき、学習パラメータの設定やトレーニングの実行ができる。Python環境で動作する。

🎛️ 生成設定

サンプラー Sampler

サンプラー

ノイズを除去する際のアルゴリズム。Euler、DPM++ 2M、DDIM など様々な種類がある。サンプラーによって画風、生成速度、品質が異なる。SDXLではDPM++ 2M Karrasが人気。

Ancestral（a付き）サンプラー Ancestral Sampler

アンセストラルサンプラー

サンプラー名に「a」が付くもの（Euler a、DPM++ 2S a など）の総称。毎ステップでランダムノイズを追加するため、ステップ数を変えると構図やディテールが大きく変化する。多様な画像を探索するのに向いているが、再現性は低い。「a」がないサンプラーはステップ数を増やすと画像が収束する。

ステップ数 Sampling Steps

ステップすう

ノイズ除去を何回繰り返すか。多いほど詳細になるが時間がかかる。20〜30が推奨。50以上にしても大きな改善は見られないことが多い。

解像度 Resolution

かいぞうど

生成する画像のピクセルサイズ。SD 1.5は512×512、SDXLは1024×1024が基本。各モデルが学習した解像度に合わせることが重要。大きくしすぎると品質が落ちることがある。

バッチサイズ Batch Size

バッチサイズ

一度に同時生成する画像の枚数。VRAM（GPUメモリ）を多く消費するため、メモリ不足の場合は1に設定する。VRAMに余裕があれば2〜4に増やして効率化できる。

img2img Image to Image

イメージトゥイメージ

既存の画像を元に新しい画像を生成する機能。元画像の構図や色合いを残しつつ、プロンプトに従って変換する。Denoising Strength（どれだけ原画から変えるか）で強度を調整。

インペイント Inpaint

インペイント

画像の一部だけを再生成する機能。修正したい部分をマスク（塗りつぶし）で指定し、そこだけを新しく生成する。手の修正や表情の変更などに便利。

アップスケール Upscale / Hi-Res Fix

アップスケール

生成した画像を高解像度に拡大する機能。単純な拡大ではなく、AIがディテールを補完しながら拡大する。Hires.FixやReal-ESRGANなどの手法がある。

Hires.Fix High Resolution Fix

ハイレゾフィックス

SD 1.5で高解像度画像を生成するための手法。まず512×512で生成し、その後アップスケーラーで拡大しながら再度ノイズ除去を行う。SD 1.5では必須級のテクニック。SDXLでは1024×1024がネイティブなため不要な場合が多い。

ADetailer After Detailer

エーディテイラー

生成画像の顔や手を自動検出して再生成する拡張機能。YOLO（物体検出AI）で顔や手の領域を検出し、その部分だけをインペイントで修正する。NSFW画像や全身画像で特に効果的。

ControlNet ControlNet

コントロールネット

画像生成時にポーズ・構図・深度・エッジなどを精密に制御する技術。参照画像からOpenPose（骨格）やCanny（輪郭線）を抽出し、それに沿った画像を生成する。複雑なポーズの安定化に非常に有効。

Safety Checker 安全フィルター

セーフティチェッカー

生成した画像がNSFW（成人向け）かどうかを判定し、該当する場合は黒塗りやモザイク処理を行う機能。AUTOMATIC1111ではSettings内で無効化可能。ComfyUIには標準搭載されていない。

Denoising Strength ノイズ除去強度

デノイジングストレングス

img2imgやHires.Fixで、元画像からどれだけ変化させるかを決める値（0〜1）。0に近いほど原画に忠実、1に近いほど大きく変化する。Hires.Fixでは0.4〜0.55、ADetailerの顔修正では0.3〜0.4が推奨。

✍️ プロンプト技法

重み付け（ウェイト） Weight / Emphasis

おもみづけ

特定のタグの影響力を調整する機能。(tag:1.3)で1.3倍に強調、(tag:0.7)で弱める。((tag))は1.21倍。推奨範囲は0.5〜1.4で、それ以上は画像が崩壊しやすい。

BREAK チャンク分割構文

ブレイク

プロンプト内でBREAKと記述すると、トークンチャンクを意図的に分割できる。キャラ特徴と背景を分離したい時に有効。SDXLの2チャンク（150トークン）で特に効果的。

タグ Tag

タグ

プロンプトで使う個々の英単語やフレーズ。1girl, blue eyes, standingなどDanbooruタグがよく使われる。タグをカンマで区切って並べることで画像を指示する。

品質タグ Quality Tags

ひんしつタグ

画像の品質を上げるためのタグ。masterpiece, best qualityが代表的。トークンを消費するため2つ程度で十分。多く書いてもほとんど効果は変わらない。

AND構文 AND Syntax

アンドこうぶん

複数のプロンプトをANDで接続し、それぞれの出力を合成する技法。通常のカンマ区切りでは1つのベクトル内で混ざるが、ANDは個別にU-Net処理して加算するため、キャラと背景の干渉を防げる。生成速度は遅くなる。

Prompt Editing ステップ途中切り替え

プロンプトエディティング

デノイジングの途中でプロンプトを切り替える技法。[from:to:0.5]と書くと、前半は"from"、後半は"to"として処理される。構図とディテールを別々に制御できる上級テクニック。

🌐 モデル・プラットフォーム

Civitai モデル配布プラットフォーム

シビタイ

チェックポイント、LoRA、VAEなどのAI画像生成モデルを共有・ダウンロードできるプラットフォーム。モデルのプレビュー画像や評価、使用パラメータが確認でき、Stable Diffusionユーザーの主要なモデル入手先。

マージ（モデルマージ） Model Merge

マージ

2つ以上のチェックポイントの重みを混合して新しいモデルを作る手法。例えばアニメ系とリアル系を混ぜて「セミリアル」なモデルを作ることができる。AUTOMATIC1111のCheckpoint Merger機能で実行可能。

Pony系モデル Pony-based Models

ポニーけいモデル

Pony Diffusion V6 XLをベースとしたSDXLモデル群。Booruタグ体系で学習されており、スコアタグ（score_9等）で品質を制御する独自の仕組みを持つ。ネガティブプロンプトにはsource_pony, source_furryなど専用タグを使用。

スコアタグ Score Tags

スコアタグ

Pony系モデル特有の品質制御タグ。score_9, score_8_up, score_7_upのように記述し、学習データの品質ランクに対応する。通常のmasterpieceの代わりに使う。Pony系以外のモデルでは効果がない点に注意。

💻 ハードウェア・環境

VRAM Video RAM

ブイラム

GPUに搭載されたメモリ。画像生成で最も重要なスペック。SD 1.5は4GB〜、SDXLは8GB〜が最低ライン。LoRA学習には12GB以上が推奨。

CUDA Compute Unified Device Architecture

クーダ

NVIDIAのGPUで汎用計算を行うための技術。Stable Diffusionの画像生成やLoRA学習はCUDA対応のNVIDIA GPUでのみ高速に動作する。AMDやIntelのGPUでも動作可能だが設定が複雑。

cuDNN CUDA Deep Neural Network library

カドン / シーユーディーエヌエヌ

NVIDIAが提供するディープラーニング向け最適化ライブラリ。インストールすることでAI処理が高速化される。kohya_ssのセットアップメニューからインストール可能。

PyTorch Deep Learning Framework

パイトーチ

Meta（旧Facebook）が開発した深層学習フレームワーク。Stable Diffusionの画像生成処理（U-Netのノイズ除去計算など）はすべてPyTorch上で実行される。CUDAドライバーとの互換性があり、バージョンの組み合わせに注意が必要。diffusersやtransformersの基盤となっている。

diffusers Hugging Face Diffusers

ディフューザーズ

Hugging Faceが開発した、拡散モデルを扱うためのPythonライブラリ。Stable Diffusionを動かすための「エンジン」の一つで、InvokeAIなど多くのツールが基盤として採用している。k-diffusionやComfyUI内蔵エンジンとはサンプラーの内部実装が異なるため、同じシードでも異なるツール間で画像が一致しない原因となる。

k-diffusion Katherine Crowson's Diffusion

ケーディフュージョン

Katherine Crowsonが開発した拡散モデル用ライブラリ。AUTOMATIC1111 WebUIのサンプラー実装の基盤となっている。diffusersとはノイズスケジュールや係数の計算方法が異なるため、同じ設定でも生成結果に差が出る。

浮動小数点演算 Floating Point Arithmetic

ふどうしょうすうてんえんざん

コンピュータで小数を扱う計算方式。GPUの並列計算では演算の順序が微妙に変わることがあり、その丸め誤差がSDE系サンプラーの再現性に影響する。FP16（半精度）はメモリ効率が良いが精度が低く、FP32（単精度）は精度が高いがメモリを多く消費する。

AI画像生成 用語辞典

AI画像生成用語辞典