Stable Diffusion とは？仕組みと歴史をわかりやすく解説

はじめに

「Stable Diffusion」── AI画像生成に少しでも興味がある方なら、一度は耳にしたことがおありではないでしょうか。

でも、実際のところ「Stable Diffusionって何？」と聞かれると、うまく説明できない方も多いのではないかと思いますの。この記事では、Stable Diffusionの仕組み・歴史・バージョンの違い・他AIとの比較まで、わかりやすく解説します。

📝 この記事でわかること

Stable Diffusionとは何か？
名前の「Stable」と「Diffusion」の意味
画像がどうやって生成されるのか
バージョン（SD 1.5 / SDXL / SD 3.x）の違い
MidjourneyやDALL-Eとの違い
なぜ「無料」で使えるのか

第1章：Stable Diffusionとは

一言で言うと

💡 Stable Diffusionとは

テキスト（プロンプト）を入力すると画像を生成してくれる、 オープンソースのAI画像生成モデルのことです。

2022年にドイツのCompVisグループ（ミュンヘン大学）と Stability AI社が共同で公開しました。誰でも無料でダウンロードし、自分のPCで動かすことができます。

名前の由来

単語	意味	技術的な背景
Stable（安定した）	学習が安定している	潜在空間で処理することで、計算が安定して行える
Diffusion（拡散）	ノイズを拡散・除去する	ノイズを段階的に除去して画像を生成する「拡散プロセス」が由来

📝 正式名称

学術的には「Latent Diffusion Model（潜在拡散モデル）」と呼ばれます。「潜在空間（Latent Space）で拡散処理を行うモデル」という意味です。

第2章：どうやって画像を作るのか

3ステップで理解する画像生成

ステップ1: テキストを理解する
  あなた: "青い目の猫が草原にいる"
  AI(CLIP): 「青い」「目」「猫」「草原」の意味を数値に変換 ✅

ステップ2: ノイズから画像を彫り出す
  AI(U-Net): 砂嵐のような画像から少しずつノイズを取り除く
             「猫の形にする」「目を青くする」「背景を草原にする」...を繰り返す 🔄

ステップ3: きれいな画像に仕上げる
  AI(VAE): 圧縮された状態のデータをフルサイズの画像に復元 🖼️

🎨 わかりやすいたとえ

大理石の彫刻に似ていますの。ミケランジェロが「ダビデ像は大理石の中にいた。余計な部分を取り除いただけだ」と言ったように、 Stable Diffusionもノイズの中に潜む画像を取り出しているのですわ。

3つのコアコンポーネント

Stable Diffusionは、大きく3つの部品で構成されています。

コンポーネント	役割	たとえ
CLIP（テキストエンコーダー）	テキストを数値ベクトルに変換	「設計図を読む翻訳者」
U-Net（ノイズ予測器）	ノイズを段階的に除去して画像を生成	「彫刻を彫る職人」
VAE（画像エンコーダー/デコーダー）	画像の圧縮・復元を担当	「仕上げ担当」

処理の流れ（Forward / Reverse Process）

【学習時（Forward Process）】
きれいな画像 → 少しノイズを加える → もう少し → ... → 完全なノイズ（砂嵐）
  AIはこの「壊し方」を逆に覚え、「戻し方」を学習する

【生成時（Reverse Process）】
ランダムノイズ → CLIPがテキストの意味をU-Netに伝える
  → U-Netがノイズを1ステップ除去 → もう1ステップ → ... → きれいな潜在表現
  → VAEが潜在表現をフルサイズの画像に復元

潜在空間（Latent Space）で処理する理由

512×512の画像をそのまま処理すると計算コストが膨大です。 Stable Diffusionではまず画像を小さな潜在表現に圧縮してから処理します。

処理対象	サイズ	データ量
元の画像（SD 1.5）	512 × 512 × 3色	約78万値
潜在空間	64 × 64 × 4ch	約1.6万値（約48分の1）

この圧縮のおかげで、一般的なゲーミングPCでも数秒〜数十秒で画像を生成できます。これが「Stable（安定した）」の名前の由来でもあります。

Cross-Attention ─ テキストと画像をつなぐ仕組み

U-Netの内部ではCross-Attentionという仕組みで、 CLIPが変換したテキスト情報と画像の各領域を関連付けています。これにより「青い目」という指示が目の部分に、「草原」が背景に反映されます。

第3章：バージョンの違い

Stable Diffusionには複数のバージョンがあり、性能や仕様が大きく異なります。

📦 レガシー

SD 1.5（2022年10月）

最も広く使われたバージョン。512×512pxが基本解像度。軽量で動作が速く、カスタムモデル（チェックポイント）やLoRAが最も豊富。 VRAM 4GB程度でも動作可能。初心者はここから始めるのがおすすめ。

✅ 現在の主流

SDXL（2023年7月）

大幅に進化したバージョン。1024×1024pxが基本解像度。 U-Netのパラメータ数が約3倍、CLIPを2つ搭載（OpenCLIP + CLIP ViT-L）。より高品質な画像を生成できるが、VRAM 8GB以上を推奨。現在のコミュニティの主流。

🚀 最新世代

SD 3.x / FLUX（2024年〜）

アーキテクチャが根本的に変化。U-Netの代わりにDiT（Diffusion Transformer）を採用。テキスト理解力が飛躍的に向上し、文字の描画にも対応。ただしVRAM要件が高く（12GB以上推奨）、対応ツールもまだ発展途上。 FLUXはSD開発者がBlack Forest Labsで開発した派生モデル。

バージョン比較表

項目	SD 1.5	SDXL	SD 3.x / FLUX
基本解像度	512×512	1024×1024	1024×1024+
CLIP	1つ	2つ	3つ(T5含む)
ノイズ除去	U-Net	U-Net(大型)	DiT(Transformer)
推奨VRAM	4GB〜	8GB〜	12GB〜
モデル数	★★★★★	★★★★☆	★★☆☆☆
初心者向け	◎	○	△

🎯 どのバージョンを使うべき？

初心者・低スペックPC → SD 1.5 をおすすめいたしますわ。モデルも豊富で情報が多いですの
高品質を求める方 → SDXL をおすすめいたしますわ。現在の主流で高品質
最先端を試したい方 → SD 3.x / FLUX をぜひ試してみてくださいませ

第4章：他のAI画像生成との違い

AI画像生成はStable Diffusionだけではありません。主要なAIと比較してみましょう。

項目	Stable Diffusion	Midjourney	DALL-E 3
開発元	Stability AI	Midjourney Inc.	OpenAI
利用方法	ローカルPC / クラウド	Discord / Web	ChatGPT内
料金	完全無料（ローカル）	有料（月$10〜）	有料（ChatGPT Plus）
オープンソース	✅ はい	❌	❌
カスタマイズ	自由自在（LoRA/モデル）	限定的	限定的
NSFW生成	制限なし（ローカル）	禁止	禁止
得意なこと	カスタマイズ、大量生成	アート性の高い画像	テキスト理解力

✅ Stable Diffusionの強み

完全無料・無制限に生成できる
数万種のカスタムモデルやLoRAが使える
プライバシーが守られる（ローカル実行）
フィルターなし、表現の自由度が高い
プログラムで自動化できる

⚠️ Stable Diffusionの弱み

高性能GPU（NVIDIA推奨）が必要
セットアップに技術知識が必要
エラー対応は自力
テキスト（文字）の描画は苦手（SD 1.5/SDXL）

第5章：なぜ無料で使えるのか

「こんなにすごい技術がなぜ無料？」── 実は、Stable Diffusionが無料で使えるのには明確な理由があります。

オープンソースという文化

Stable Diffusionのモデルの重み（パラメータ）は、インターネット上に無料で公開されています。これはオープンソース（ソースコードや成果物を自由に利用・改変・再配布できる）という考え方に基づいています。

📝 オープンソースのメリット

コミュニティが派生モデルやツールを自由に開発・共有
Civitaiなどのサイトに数万種のカスタムモデルが無料で公開
バグの発見・修正が早い（世界中の開発者が参加）
特定企業に依存しない（サービス終了のリスクが低い）

Stability AIの収益モデル

モデルを無料公開したStability AI社は、 API（有料の画像生成サービス）や企業向けソリューションで収益を上げています。オープンソースで普及させ、エコシステムを構築してからビジネスにつなげる戦略です。

⚠️ 注意点

「無料」はモデル自体の話です。高性能なGPUを搭載したPCが必要なため、 ハードウェアのコストはかかります。 GPUを持っていない場合は、Google ColabやクラウドGPUサービス（有料）を利用する方法もあります。

第6章：Stable Diffusionを動かすツール

Stable Diffusionのモデル自体はただの「AI」です。実際に使うには操作ツール（UI）が必要です。

ツール	特徴	おすすめの人
AUTOMATIC1111 WebUI	最も有名なGUI。拡張機能が豊富	初心者〜中級者
ComfyUI	ノードベース。自由度が非常に高い	上級者、ワークフロー構築
Fooocus	Midjourneyライクなシンプルさ	初心者、手軽に始めたい人
SD.Next	A1111の派生版。最新モデルに対応	新機能を試したい人

🔰 最初の一歩は？

迷ったらAUTOMATIC1111 WebUIをおすすめいたしますわ。日本語の情報が最も多く、困ったときに解決策が見つかりやすいですの。もっとシンプルに始めたいならFooocusも良い選択肢です。

第7章：カスタマイズの世界

Stable Diffusionの最大の魅力はカスタマイズ性です。ベースモデルに追加の学習データを適用することで、出力スタイルを自在に変えられます。

カスタマイズ方法	説明	サイズ
チェックポイント	ベースモデル全体を差し替え。アニメ調、リアル調など画風が変わる	2〜7GB
LoRA	少量の追加学習で特定のスタイルやキャラクターを学習	10〜200MB
VAE	画像の色味や彩度を調整	約300MB
Textual Inversion	新しい概念を数枚の画像から学習	数KB

📝 モデルの入手先

Civitai（civitai.com）が最大のモデル共有サイトです。数万種のチェックポイントやLoRAが無料で公開されており、プレビュー画像や推奨パラメータも確認できます。

まとめ

📋 この記事のまとめ

Stable Diffusionは、テキストから画像を生成するオープンソースAIモデル
名前は「安定した（Stable）拡散（Diffusion）処理」に由来
3つのコンポーネント（CLIP / U-Net / VAE）で構成される
バージョンはSD 1.5 → SDXL → SD 3.x/FLUXと進化
Midjourney・DALL-Eと違い、完全無料・カスタマイズ自由
チェックポイントやLoRAで画風を自在に変更できる
動かすにはAUTOMATIC1111などのUIツールが必要

📖 関連記事

プロンプトガイド ─ プロンプトの仕組みを徹底解説
SD 1.5 vs SDXL 徹底比較 ─ バージョンの違いをさらに詳しく
おすすめチェックポイント紹介 ─ 厳選モデルの得意・苦手まとめ
無料AI画像生成って何？ ─ AI画像生成の基礎知識

❀ この記事が役に立ったら

サイト運営のモチベーションになります。よろしければ応援お願いします！

❀ お布施する（OFuse）