はじめに
「Stable Diffusion」── AI画像生成に少しでも興味がある方なら、 一度は耳にしたことがおありではないでしょうか。
でも、実際のところ「Stable Diffusionって何?」と聞かれると、 うまく説明できない方も多いのではないかと思いますの。 この記事では、Stable Diffusionの仕組み・歴史・バージョンの違い・他AIとの比較まで、 わかりやすく解説します。
- Stable Diffusionとは何か?
- 名前の「Stable」と「Diffusion」の意味
- 画像がどうやって生成されるのか
- バージョン(SD 1.5 / SDXL / SD 3.x)の違い
- MidjourneyやDALL-Eとの違い
- なぜ「無料」で使えるのか
第1章:Stable Diffusionとは
一言で言うと
テキスト(プロンプト)を入力すると画像を生成してくれる、 オープンソースのAI画像生成モデルのことです。
2022年にドイツのCompVisグループ(ミュンヘン大学)と Stability AI社が共同で公開しました。 誰でも無料でダウンロードし、自分のPCで動かすことができます。
名前の由来
| 単語 | 意味 | 技術的な背景 |
|---|---|---|
| Stable(安定した) | 学習が安定している | 潜在空間で処理することで、計算が安定して行える |
| Diffusion(拡散) | ノイズを拡散・除去する | ノイズを段階的に除去して画像を生成する「拡散プロセス」が由来 |
学術的には「Latent Diffusion Model(潜在拡散モデル)」と呼ばれます。 「潜在空間(Latent Space)で拡散処理を行うモデル」という意味です。
第2章:どうやって画像を作るのか
3ステップで理解する画像生成
ステップ1: テキストを理解する
あなた: "青い目の猫が草原にいる"
AI(CLIP): 「青い」「目」「猫」「草原」の意味を数値に変換 ✅
ステップ2: ノイズから画像を彫り出す
AI(U-Net): 砂嵐のような画像から少しずつノイズを取り除く
「猫の形にする」「目を青くする」「背景を草原にする」...を繰り返す 🔄
ステップ3: きれいな画像に仕上げる
AI(VAE): 圧縮された状態のデータをフルサイズの画像に復元 🖼️
大理石の彫刻に似ていますの。ミケランジェロが 「ダビデ像は大理石の中にいた。余計な部分を取り除いただけだ」と言ったように、 Stable Diffusionもノイズの中に潜む画像を取り出しているのですわ。
3つのコアコンポーネント
Stable Diffusionは、大きく3つの部品で構成されています。
| コンポーネント | 役割 | たとえ |
|---|---|---|
| CLIP(テキストエンコーダー) | テキストを数値ベクトルに変換 | 「設計図を読む翻訳者」 |
| U-Net(ノイズ予測器) | ノイズを段階的に除去して画像を生成 | 「彫刻を彫る職人」 |
| VAE(画像エンコーダー/デコーダー) | 画像の圧縮・復元を担当 | 「仕上げ担当」 |
処理の流れ(Forward / Reverse Process)
【学習時(Forward Process)】 きれいな画像 → 少しノイズを加える → もう少し → ... → 完全なノイズ(砂嵐) AIはこの「壊し方」を逆に覚え、「戻し方」を学習する 【生成時(Reverse Process)】 ランダムノイズ → CLIPがテキストの意味をU-Netに伝える → U-Netがノイズを1ステップ除去 → もう1ステップ → ... → きれいな潜在表現 → VAEが潜在表現をフルサイズの画像に復元
潜在空間(Latent Space)で処理する理由
512×512の画像をそのまま処理すると計算コストが膨大です。 Stable Diffusionではまず画像を小さな潜在表現に圧縮してから処理します。
| 処理対象 | サイズ | データ量 |
|---|---|---|
| 元の画像(SD 1.5) | 512 × 512 × 3色 | 約78万値 |
| 潜在空間 | 64 × 64 × 4ch | 約1.6万値(約48分の1) |
この圧縮のおかげで、一般的なゲーミングPCでも数秒〜数十秒で画像を生成できます。 これが「Stable(安定した)」の名前の由来でもあります。
Cross-Attention ─ テキストと画像をつなぐ仕組み
U-Netの内部ではCross-Attentionという仕組みで、 CLIPが変換したテキスト情報と画像の各領域を関連付けています。 これにより「青い目」という指示が目の部分に、「草原」が背景に反映されます。
第3章:バージョンの違い
Stable Diffusionには複数のバージョンがあり、性能や仕様が大きく異なります。
SD 1.5(2022年10月)
最も広く使われたバージョン。512×512pxが基本解像度。 軽量で動作が速く、カスタムモデル(チェックポイント)やLoRAが最も豊富。 VRAM 4GB程度でも動作可能。初心者はここから始めるのがおすすめ。
SDXL(2023年7月)
大幅に進化したバージョン。1024×1024pxが基本解像度。 U-Netのパラメータ数が約3倍、CLIPを2つ搭載(OpenCLIP + CLIP ViT-L)。 より高品質な画像を生成できるが、VRAM 8GB以上を推奨。 現在のコミュニティの主流。
SD 3.x / FLUX(2024年〜)
アーキテクチャが根本的に変化。U-Netの代わりにDiT(Diffusion Transformer)を採用。 テキスト理解力が飛躍的に向上し、文字の描画にも対応。 ただしVRAM要件が高く(12GB以上推奨)、対応ツールもまだ発展途上。 FLUXはSD開発者がBlack Forest Labsで開発した派生モデル。
バージョン比較表
| 項目 | SD 1.5 | SDXL | SD 3.x / FLUX |
|---|---|---|---|
| 基本解像度 | 512×512 | 1024×1024 | 1024×1024+ |
| CLIP | 1つ | 2つ | 3つ(T5含む) |
| ノイズ除去 | U-Net | U-Net(大型) | DiT(Transformer) |
| 推奨VRAM | 4GB〜 | 8GB〜 | 12GB〜 |
| モデル数 | ★★★★★ | ★★★★☆ | ★★☆☆☆ |
| 初心者向け | ◎ | ○ | △ |
- 初心者・低スペックPC → SD 1.5 をおすすめいたしますわ。モデルも豊富で情報が多いですの
- 高品質を求める方 → SDXL をおすすめいたしますわ。現在の主流で高品質
- 最先端を試したい方 → SD 3.x / FLUX をぜひ試してみてくださいませ
第4章:他のAI画像生成との違い
AI画像生成はStable Diffusionだけではありません。主要なAIと比較してみましょう。
| 項目 | Stable Diffusion | Midjourney | DALL-E 3 |
|---|---|---|---|
| 開発元 | Stability AI | Midjourney Inc. | OpenAI |
| 利用方法 | ローカルPC / クラウド | Discord / Web | ChatGPT内 |
| 料金 | 完全無料(ローカル) | 有料(月$10〜) | 有料(ChatGPT Plus) |
| オープンソース | ✅ はい | ❌ | ❌ |
| カスタマイズ | 自由自在(LoRA/モデル) | 限定的 | 限定的 |
| NSFW生成 | 制限なし(ローカル) | 禁止 | 禁止 |
| 得意なこと | カスタマイズ、大量生成 | アート性の高い画像 | テキスト理解力 |
✅ Stable Diffusionの強み
- 完全無料・無制限に生成できる
- 数万種のカスタムモデルやLoRAが使える
- プライバシーが守られる(ローカル実行)
- フィルターなし、表現の自由度が高い
- プログラムで自動化できる
⚠️ Stable Diffusionの弱み
- 高性能GPU(NVIDIA推奨)が必要
- セットアップに技術知識が必要
- エラー対応は自力
- テキスト(文字)の描画は苦手(SD 1.5/SDXL)
第5章:なぜ無料で使えるのか
「こんなにすごい技術がなぜ無料?」── 実は、Stable Diffusionが 無料で使えるのには明確な理由があります。
オープンソースという文化
Stable Diffusionのモデルの重み(パラメータ)は、 インターネット上に無料で公開されています。 これはオープンソース(ソースコードや成果物を自由に利用・改変・再配布できる) という考え方に基づいています。
- コミュニティが派生モデルやツールを自由に開発・共有
- Civitaiなどのサイトに数万種のカスタムモデルが無料で公開
- バグの発見・修正が早い(世界中の開発者が参加)
- 特定企業に依存しない(サービス終了のリスクが低い)
Stability AIの収益モデル
モデルを無料公開したStability AI社は、 API(有料の画像生成サービス)や企業向けソリューションで収益を上げています。 オープンソースで普及させ、エコシステムを構築してからビジネスにつなげる戦略です。
「無料」はモデル自体の話です。高性能なGPUを搭載したPCが必要なため、 ハードウェアのコストはかかります。 GPUを持っていない場合は、Google ColabやクラウドGPUサービス(有料)を利用する方法もあります。
第6章:Stable Diffusionを動かすツール
Stable Diffusionのモデル自体はただの「AI」です。実際に使うには操作ツール(UI)が必要です。
| ツール | 特徴 | おすすめの人 |
|---|---|---|
| AUTOMATIC1111 WebUI | 最も有名なGUI。拡張機能が豊富 | 初心者〜中級者 |
| ComfyUI | ノードベース。自由度が非常に高い | 上級者、ワークフロー構築 |
| Fooocus | Midjourneyライクなシンプルさ | 初心者、手軽に始めたい人 |
| SD.Next | A1111の派生版。最新モデルに対応 | 新機能を試したい人 |
迷ったらAUTOMATIC1111 WebUIをおすすめいたしますわ。 日本語の情報が最も多く、困ったときに解決策が見つかりやすいですの。 もっとシンプルに始めたいならFooocusも良い選択肢です。
第7章:カスタマイズの世界
Stable Diffusionの最大の魅力はカスタマイズ性です。 ベースモデルに追加の学習データを適用することで、出力スタイルを自在に変えられます。
| カスタマイズ方法 | 説明 | サイズ |
|---|---|---|
| チェックポイント | ベースモデル全体を差し替え。アニメ調、リアル調など画風が変わる | 2〜7GB |
| LoRA | 少量の追加学習で特定のスタイルやキャラクターを学習 | 10〜200MB |
| VAE | 画像の色味や彩度を調整 | 約300MB |
| Textual Inversion | 新しい概念を数枚の画像から学習 | 数KB |
Civitai(civitai.com)が最大のモデル共有サイトです。 数万種のチェックポイントやLoRAが無料で公開されており、 プレビュー画像や推奨パラメータも確認できます。
まとめ
- Stable Diffusionは、テキストから画像を生成するオープンソースAIモデル
- 名前は「安定した(Stable)拡散(Diffusion)処理」に由来
- 3つのコンポーネント(CLIP / U-Net / VAE)で構成される
- バージョンはSD 1.5 → SDXL → SD 3.x/FLUXと進化
- Midjourney・DALL-Eと違い、完全無料・カスタマイズ自由
- チェックポイントやLoRAで画風を自在に変更できる
- 動かすにはAUTOMATIC1111などのUIツールが必要
- プロンプトガイド ─ プロンプトの仕組みを徹底解説
- SD 1.5 vs SDXL 徹底比較 ─ バージョンの違いをさらに詳しく
- おすすめチェックポイント紹介 ─ 厳選モデルの得意・苦手まとめ
- 無料AI画像生成って何? ─ AI画像生成の基礎知識