はじめに

Stable Diffusion」── AI画像生成に少しでも興味がある方なら、 一度は耳にしたことがおありではないでしょうか。

でも、実際のところ「Stable Diffusionって何?」と聞かれると、 うまく説明できない方も多いのではないかと思いますの。 この記事では、Stable Diffusionの仕組み・歴史・バージョンの違い・他AIとの比較まで、 わかりやすく解説します。

📝 この記事でわかること
  • Stable Diffusionとは何か?
  • 名前の「Stable」と「Diffusion」の意味
  • 画像がどうやって生成されるのか
  • バージョン(SD 1.5 / SDXL / SD 3.x)の違い
  • MidjourneyやDALL-Eとの違い
  • なぜ「無料」で使えるのか

第1章:Stable Diffusionとは

一言で言うと

💡 Stable Diffusionとは

テキスト(プロンプト)を入力すると画像を生成してくれる、 オープンソースのAI画像生成モデルのことです。

2022年にドイツのCompVisグループ(ミュンヘン大学)と Stability AI社が共同で公開しました。 誰でも無料でダウンロードし、自分のPCで動かすことができます。

名前の由来

単語意味技術的な背景
Stable(安定した) 学習が安定している 潜在空間で処理することで、計算が安定して行える
Diffusion(拡散) ノイズを拡散・除去する ノイズを段階的に除去して画像を生成する「拡散プロセス」が由来
📝 正式名称

学術的には「Latent Diffusion Model(潜在拡散モデル)」と呼ばれます。 「潜在空間(Latent Space)で拡散処理を行うモデル」という意味です。

第2章:どうやって画像を作るのか

3ステップで理解する画像生成

ステップ1: テキストを理解する
  あなた: "青い目の猫が草原にいる"
  AI(CLIP): 「青い」「目」「猫」「草原」の意味を数値に変換 ✅

ステップ2: ノイズから画像を彫り出す
  AI(U-Net): 砂嵐のような画像から少しずつノイズを取り除く
             「猫の形にする」「目を青くする」「背景を草原にする」...を繰り返す 🔄

ステップ3: きれいな画像に仕上げる
  AI(VAE): 圧縮された状態のデータをフルサイズの画像に復元 🖼️
🎨 わかりやすいたとえ

大理石の彫刻に似ていますの。ミケランジェロが 「ダビデ像は大理石の中にいた。余計な部分を取り除いただけだ」と言ったように、 Stable Diffusionもノイズの中に潜む画像を取り出しているのですわ。

3つのコアコンポーネント

Stable Diffusionは、大きく3つの部品で構成されています。

コンポーネント役割たとえ
CLIP(テキストエンコーダー) テキストを数値ベクトルに変換 「設計図を読む翻訳者」
U-Net(ノイズ予測器) ノイズを段階的に除去して画像を生成 「彫刻を彫る職人」
VAE(画像エンコーダー/デコーダー) 画像の圧縮・復元を担当 「仕上げ担当」

処理の流れ(Forward / Reverse Process)

【学習時(Forward Process)】
きれいな画像 → 少しノイズを加える → もう少し → ... → 完全なノイズ(砂嵐)
  AIはこの「壊し方」を逆に覚え、「戻し方」を学習する

【生成時(Reverse Process)】
ランダムノイズ → CLIPがテキストの意味をU-Netに伝える
  → U-Netがノイズを1ステップ除去 → もう1ステップ → ... → きれいな潜在表現
  → VAEが潜在表現をフルサイズの画像に復元

潜在空間(Latent Space)で処理する理由

512×512の画像をそのまま処理すると計算コストが膨大です。 Stable Diffusionではまず画像を小さな潜在表現に圧縮してから処理します。

処理対象サイズデータ量
元の画像(SD 1.5)512 × 512 × 3色約78万値
潜在空間64 × 64 × 4ch約1.6万値(約48分の1

この圧縮のおかげで、一般的なゲーミングPCでも数秒〜数十秒で画像を生成できます。 これが「Stable(安定した)」の名前の由来でもあります。

Cross-Attention ─ テキストと画像をつなぐ仕組み

U-Netの内部ではCross-Attentionという仕組みで、 CLIPが変換したテキスト情報と画像の各領域を関連付けています。 これにより「青い目」という指示が目の部分に、「草原」が背景に反映されます。

第3章:バージョンの違い

Stable Diffusionには複数のバージョンがあり、性能や仕様が大きく異なります。

📦 レガシー

SD 1.5(2022年10月)

最も広く使われたバージョン。512×512pxが基本解像度。 軽量で動作が速く、カスタムモデル(チェックポイント)やLoRAが最も豊富。 VRAM 4GB程度でも動作可能。初心者はここから始めるのがおすすめ。

✅ 現在の主流

SDXL(2023年7月)

大幅に進化したバージョン。1024×1024pxが基本解像度。 U-Netのパラメータ数が約3倍、CLIPを2つ搭載(OpenCLIP + CLIP ViT-L)。 より高品質な画像を生成できるが、VRAM 8GB以上を推奨。 現在のコミュニティの主流。

🚀 最新世代

SD 3.x / FLUX(2024年〜)

アーキテクチャが根本的に変化。U-Netの代わりにDiT(Diffusion Transformer)を採用。 テキスト理解力が飛躍的に向上し、文字の描画にも対応。 ただしVRAM要件が高く(12GB以上推奨)、対応ツールもまだ発展途上。 FLUXはSD開発者がBlack Forest Labsで開発した派生モデル。

バージョン比較表

項目SD 1.5SDXLSD 3.x / FLUX
基本解像度512×5121024×10241024×1024+
CLIP1つ2つ3つ(T5含む)
ノイズ除去U-NetU-Net(大型)DiT(Transformer)
推奨VRAM4GB〜8GB〜12GB〜
モデル数★★★★★★★★★☆★★☆☆☆
初心者向け
🎯 どのバージョンを使うべき?
  • 初心者・低スペックPC → SD 1.5 をおすすめいたしますわ。モデルも豊富で情報が多いですの
  • 高品質を求める方 → SDXL をおすすめいたしますわ。現在の主流で高品質
  • 最先端を試したい方 → SD 3.x / FLUX をぜひ試してみてくださいませ

第4章:他のAI画像生成との違い

AI画像生成はStable Diffusionだけではありません。主要なAIと比較してみましょう。

項目Stable DiffusionMidjourneyDALL-E 3
開発元Stability AIMidjourney Inc.OpenAI
利用方法ローカルPC / クラウドDiscord / WebChatGPT内
料金完全無料(ローカル)有料(月$10〜)有料(ChatGPT Plus)
オープンソース✅ はい
カスタマイズ自由自在(LoRA/モデル)限定的限定的
NSFW生成制限なし(ローカル)禁止禁止
得意なことカスタマイズ、大量生成アート性の高い画像テキスト理解力

✅ Stable Diffusionの強み

  • 完全無料・無制限に生成できる
  • 数万種のカスタムモデルやLoRAが使える
  • プライバシーが守られる(ローカル実行)
  • フィルターなし、表現の自由度が高い
  • プログラムで自動化できる

⚠️ Stable Diffusionの弱み

  • 高性能GPU(NVIDIA推奨)が必要
  • セットアップに技術知識が必要
  • エラー対応は自力
  • テキスト(文字)の描画は苦手(SD 1.5/SDXL)

第5章:なぜ無料で使えるのか

「こんなにすごい技術がなぜ無料?」── 実は、Stable Diffusionが 無料で使えるのには明確な理由があります。

オープンソースという文化

Stable Diffusionのモデルの重み(パラメータ)は、 インターネット上に無料で公開されています。 これはオープンソース(ソースコードや成果物を自由に利用・改変・再配布できる) という考え方に基づいています。

📝 オープンソースのメリット
  • コミュニティが派生モデルやツールを自由に開発・共有
  • Civitaiなどのサイトに数万種のカスタムモデルが無料で公開
  • バグの発見・修正が早い(世界中の開発者が参加)
  • 特定企業に依存しない(サービス終了のリスクが低い)

Stability AIの収益モデル

モデルを無料公開したStability AI社は、 API(有料の画像生成サービス)や企業向けソリューションで収益を上げています。 オープンソースで普及させ、エコシステムを構築してからビジネスにつなげる戦略です。

⚠️ 注意点

「無料」はモデル自体の話です。高性能なGPUを搭載したPCが必要なため、 ハードウェアのコストはかかります。 GPUを持っていない場合は、Google ColabやクラウドGPUサービス(有料)を利用する方法もあります。

第6章:Stable Diffusionを動かすツール

Stable Diffusionのモデル自体はただの「AI」です。実際に使うには操作ツール(UI)が必要です。

ツール特徴おすすめの人
AUTOMATIC1111 WebUI 最も有名なGUI。拡張機能が豊富 初心者〜中級者
ComfyUI ノードベース。自由度が非常に高い 上級者、ワークフロー構築
Fooocus Midjourneyライクなシンプルさ 初心者、手軽に始めたい人
SD.Next A1111の派生版。最新モデルに対応 新機能を試したい人
🔰 最初の一歩は?

迷ったらAUTOMATIC1111 WebUIをおすすめいたしますわ。 日本語の情報が最も多く、困ったときに解決策が見つかりやすいですの。 もっとシンプルに始めたいならFooocusも良い選択肢です。

第7章:カスタマイズの世界

Stable Diffusionの最大の魅力はカスタマイズ性です。 ベースモデルに追加の学習データを適用することで、出力スタイルを自在に変えられます。

カスタマイズ方法説明サイズ
チェックポイント ベースモデル全体を差し替え。アニメ調、リアル調など画風が変わる 2〜7GB
LoRA 少量の追加学習で特定のスタイルやキャラクターを学習 10〜200MB
VAE 画像の色味や彩度を調整 約300MB
Textual Inversion 新しい概念を数枚の画像から学習 数KB
📝 モデルの入手先

Civitai(civitai.com)が最大のモデル共有サイトです。 数万種のチェックポイントやLoRAが無料で公開されており、 プレビュー画像や推奨パラメータも確認できます。

まとめ

📋 この記事のまとめ
  • Stable Diffusionは、テキストから画像を生成するオープンソースAIモデル
  • 名前は「安定した(Stable)拡散(Diffusion)処理」に由来
  • 3つのコンポーネント(CLIP / U-Net / VAE)で構成される
  • バージョンはSD 1.5 → SDXL → SD 3.x/FLUXと進化
  • Midjourney・DALL-Eと違い、完全無料・カスタマイズ自由
  • チェックポイントやLoRAで画風を自在に変更できる
  • 動かすにはAUTOMATIC1111などのUIツールが必要
📖 関連記事

❀ この記事が役に立ったら

サイト運営のモチベーションになります。よろしければ応援お願いします!

❀ お布施する(OFuse)