タグとは？ ─ AI画像生成の「指示言語」の由来と仕組み

はじめに

AI画像生成を始めると、すぐに出会うのが「タグ」という言葉です。 1girl, blue eyes, masterpiece… プロンプト欄に英単語をカンマで区切って並べる、あの書き方のことですわね。

でも、ふと疑問に思ったことはおありではないでしょうか？

💭 よくある疑問

「なんで英語のタグなの？日本語じゃダメなの？」
「1girl とか solo って、誰が決めたルールなの？」
「タグをたくさん書けば良い画像が出るの？」
「品質タグって本当に意味あるの？」

実は、AI画像生成で使われるタグには明確なルーツがあります。そしてそのルーツを知ることで、プロンプトの書き方は格段に上手くなります。

この記事では、タグの「何？」「どこから来たの？」「なぜ使われているの？」を、由来から実践テクニックまで丁寧に解説しますわ。

📋 この記事で分かること

タグの定義と「なぜ英単語なのか」
Danbooruタグシステムの由来と20年の歴史
タグがAI画像生成に使われるようになった経緯
タグの種類と分類（品質・人物・衣装・構図など）
モデル世代（SD 1.5 / SDXL / FLUX）でのタグの使い方の違い
タグの並べ方と効果的な書き方

第1章：タグってなに？─ ざっくり理解

🍳 たとえ話：レストランの注文票

タグを理解するために、レストランの注文に例えてみましょう。

🍳 たとえ話：レストランの注文票

あなたがシェフ（AI）に料理を作ってもらうとします。

自然言語の注文（会話）：
「えーと、パスタがいいかな。トマトソースで、ちょっとピリ辛にして、上にバジルを乗せて、あとチーズも多めで」

タグ方式の注文（注文票）：
pasta, tomato sauce, spicy, basil topping, extra cheese

どちらでも料理は作れますが、タグ方式は余計な言葉（えーと、ちょっと、あと）がなく、キーワードだけに圧縮されているのがポイントです。限られたスペース（トークン数）の中で、最大限の情報をシェフに伝えることができますわ。

タグの正体：プロンプト内の「キーワード」

AI画像生成におけるタグ（Tag）とは、プロンプト（指示文）の中で使う個々の英単語やフレーズのことです。カンマ , で区切って並べることで、AIに「こんな画像を作って」と指示を出します。

1girl, solo, blue eyes, long blonde hair, white dress, standing, forest, masterpiece

この例では、1girl、solo、blue eyes などの一つひとつが「タグ」です。

なぜ英語なのか？

「日本語で書いちゃダメなの？」と思われるかもしれません。技術的な理由があります。

🔑 英語である理由

Stable Diffusionのテキスト理解を担うCLIP（クリップ）というAIモデルは、英語のテキストと画像のペアで学習されています。そのため、英語のタグは正確に意味を理解できますが、日本語を入れると「意味不明な記号列」として処理されてしまいます。

料理に例えると、日本語のメニューしか読めないシェフにフランス語の注文票を渡すようなものです。シェフが読める言語（＝英語のタグ）で書くことが大切なのですわ。

CLIPの仕組みについてもっと詳しく知りたい方は、プロンプトガイドをご覧ください。

第2章：タグのルーツ ─ Danbooruとbooruタグシステム

AI画像生成で使われるタグには、20年以上の歴史を持つルーツがあります。それがDanbooru（ダンボール）というイラスト共有サイトです。

📺 Danbooruとは？

Danbooruは2005年に誕生した、アニメ・マンガ系イラストの共有・アーカイブサイトです。名前の由来は日本語の「段ボール」で、「イラストをまとめて保管する箱」のようなイメージから名付けられました。

このサイトが革新的だったのは、投稿されるイラスト1枚1枚に対してコミュニティのユーザーが詳細なタグを付けていったこと。キャラクター名、髪の色、目の色、表情、服装、ポーズ、背景…あらゆる要素が英単語のタグとして記録されていきました。

📝 Danbooruのタグ付けの例

1枚のイラストに対して、こんなタグが付けられます：

1girl, solo, long_hair, blue_eyes, smile, school_uniform, 
standing, outdoors, cherry_blossoms, looking_at_viewer

「女の子が1人、長い髪、青い目、笑顔、制服を着て、屋外で桜の中に立っている」
──画像の内容がタグだけで正確に伝わりますよね。

📚 フォークソノミー ─ みんなで作る分類体系

Danbooruのタグシステムは、情報科学の用語でフォークソノミー（Folksonomy）と呼ばれる仕組みです。「Folk（みんな）」+「Taxonomy（分類体系）」を組み合わせた造語で、専門家ではなくコミュニティの力で分類を作り上げる方式を指します。

図書館の分類は司書が決めますが、Danbooruの分類はユーザー全員で決めます。20年以上をかけて、数百万枚のイラストに対して正確なタグが付けられてきました。この膨大な「タグ付きイラストデータベース」が、後にAI画像生成の世界を変えることになるのです。

📁 Danbooruタグのカテゴリ

Danbooruのタグは単に羅列されているわけではなく、きちんとカテゴリ分けされています。

カテゴリ	内容	例
General（一般）	動作、テーマ、服装、表情など	`long_hair`, `smile`, `standing`
Character（キャラクター）	アニメ・ゲームのキャラ名	`hatsune_miku`, `saber`
Copyright（著作権）	作品名・シリーズ名	`fate/stay_night`, `vocaloid`
Artist（アーティスト）	原作者・絵師名	（特定名のため省略）
Meta（メタ）	技術的な情報	`highres`, `absurdres`, `solo`

このカテゴリ分類があるからこそ、曖昧さのない正確な画像検索が可能になっています。そして、この正確さがAI学習データとしての価値を飛躍的に高めたのですわ。

🤖 なぜAI画像生成に使われるようになったか

ここが最も重要なポイントです。AIモデルの学習には「画像とその説明文のペア」が大量に必要です。

🔑 AI学習とDanbooruタグの関係

Danbooruには数百万枚のイラストが投稿されていた
すべてのイラストに正確な英語タグが付いていた
AI研究者がこのデータを「画像＋説明文」のペアとして学習データに使った
学習されたAIモデルは、タグと画像の対応関係を正確に理解している
だから、同じタグをプロンプトに書くと、正確に反映される

つまり、「AIが理解できるタグ＝ AIが学習したデータのタグ」なのです。 Danbooruのコミュニティが20年かけて整備したタグ体系が、AI画像生成の「共通言語」になりました。

具体的なモデルとDanbooruの関係

モデル / サービス	学習データ	タグの関係
Waifu Diffusion	Danbooruデータセット直接使用	Danbooruタグがそのまま効く
NovelAI	Danbooruベースの独自データセット	Danbooruタグ＋独自品質タグ
アニメ系チェックポイント	Danbooruデータでファインチューニング	Danbooruタグが高精度で反映
リアル系チェックポイント	LAION等の自然言語キャプション	Danbooruタグの影響は弱め

💡 豆知識

リアル系のモデル（LAION等で学習）はDanbooruタグではなく自然言語のキャプションで学習されているため、タグの羅列よりも「A beautiful woman standing in a garden」のような文章のほうが効きやすい場合があります。使っているモデルが何で学習されたかを知ることも、良いプロンプトを書く秘訣ですわ。

参考資料

Danbooru - Wikipedia（英語） ─ Danbooruの概要と歴史
Folksonomy - Wikipedia（英語） ─ フォークソノミーの概念解説
Gwern's Danbooru Dataset ─ AI学習に使われたDanbooruデータセットの技術資料

第3章：タグの種類と分類

Danbooruの歴史を理解したところで、実際にAI画像生成でよく使われるタグを用途別に分類してみましょう。どんなカテゴリがあるか把握しておくと、プロンプト構築がぐっと楽になります。

🏷️ タグの大分類

カテゴリ	役割	代表的なタグ
品質タグ	画像全体の品質を左右	`masterpiece`, `best quality`, `highly detailed`
人物タグ	登場人物の人数・性別	`1girl`, `1boy`, `solo`, `multiple girls`
身体特徴タグ	容姿の詳細を指定	`blue eyes`, `long hair`, `blonde hair`, `large breasts`
衣装タグ	服装・アクセサリー	`school uniform`, `white dress`, `armor`, `ribbon`
構図・ポーズタグ	画面の切り取り方と体勢	`upper body`, `full body`, `looking at viewer`, `sitting`
表情タグ	感情表現	`smile`, `blush`, `closed eyes`, `open mouth`
背景・場面タグ	シーンの設定	`outdoors`, `forest`, `night sky`, `classroom`
ライティングタグ	光の演出	`dramatic lighting`, `sunlight`, `backlighting`
スタイルタグ	画風の方向性	`anime style`, `photorealistic`, `watercolor`

🎯 タグの「効き方」の違い

すべてのタグが同じように画像に影響するわけではありません。タグによって、画像のどの部分にどれだけ影響するかが異なります。

タグの種類	影響範囲	例
具体的なタグ	画像の特定の領域に集中	`blue eyes` → 目の部分、`red ribbon` → 髪や手元
抽象的なタグ	画像全体にうっすら分散	`masterpiece` → 全体の品質向上、`dramatic` → 雰囲気
構図タグ	画像のレイアウトを大きく変える	`close-up` → 顔アップ、`full body` → 全身構図

これは技術的にはAttention Map（アテンションマップ）の分布の違いによるものです。具体的なタグほど画像内の特定領域のピクセルに強く作用し、抽象的なタグは画面全体に薄く影響します。詳しくはプロンプトガイドのCross-Attentionの章で解説していますわ。

⭐ Pony系モデル専用タグ

Pony Diffusion V6 XLをベースにしたモデルでは、通常のタグに加えてスコアタグという独自の品質制御システムがあります。

score_9, score_8_up, score_7_up, source_anime

通常の品質タグ（masterpiece等）の代わりに使います。 Pony系モデルを使う場合は、そのモデルが対応しているタグ体系をチェックポイント紹介で確認してくださいませ。

第4章：タグの実践テクニック

タグの歴史と種類を理解したところで、実際にどう並べれば良い画像が出るかを見ていきましょう。

📐 推奨のタグ並び順

タグには「前方ほど影響力が強い」という明確なルールがあります。これはCLIPの位置エンコーディングによるもので、先頭に書いたタグほどAIが強く注目します。

🔑 推奨のタグ順序

[品質] → [人物] → [構図] → [身体特徴] → [衣装] → [表情] → [背景] → [ライティング]

最も重要なタグ（人物の人数、構図）を前方に、品質やライティングなど全体に薄く影響するタグは後方に配置するのが基本です。

✅ 良い例

masterpiece, best quality, 1girl, solo, upper body, looking at viewer,
blue eyes, long blonde hair,
white dress, ribbon,
smile,
garden, sunlight

カテゴリごとにまとまりがあり、重要なタグが前方に来ています。

❌ 悪い例

garden, sunlight, smile, masterpiece, solo, ribbon, blue eyes, 
1girl, white dress, best quality, long blonde hair, upper body

カテゴリがバラバラで、背景タグが先頭に来てしまっています。この場合、garden が最も強く影響し、人物の描写が弱くなる可能性があります。

⚠️ よくある失敗と改善

失敗パターン	問題点	改善方法
類義語の連打	`beautiful, gorgeous, stunning` は意味が重複してトークンを浪費	`(beautiful:1.3)` で1つに強化
矛盾するタグ	`sitting, standing` を同時指定するとポーズが崩壊	1つの動作に絞る
タグの詰め込みすぎ	75トークンを超えると後半は影響力が大幅に低下	必要最低限のタグに厳選
日本語タグの混入	CLIPが英語で学習されているため意味不明になる	必ず英語タグを使用

🔍 DeepDanbooru ─ 画像からタグを逆引き

「この画像にはどんなタグが使われているんだろう？」と思ったことはありませんか？ DeepDanbooru（ディープダンボール）は、画像を入力するとその画像に当てはまるDanbooruタグを自動予測してくれるAIツールです。

💡 DeepDanbooruの活用法

気に入った画像のタグを分析して、自分のプロンプトに取り入れる
LoRA学習用の画像にキャプション（タグ）を自動付与する
自分のプロンプトで生成した画像を逆分析して、実際に反映されたタグを確認する

AUTOMATIC1111 WebUIでは「Interrogate DeepBooru」ボタンから利用できます。画像を読み込んでボタンを押すだけで、タグのリストが生成されますわ。

🔄 モデル世代でのタグの使い方の違い

最後に、モデルの世代によってタグの書き方が変わることを確認しておきましょう。

モデル	推奨スタイル	例
SD 1.5	タグの羅列（カンマ区切り）	`1girl, blue eyes, white dress, forest, masterpiece`
SDXL	短い文章＋タグ	`A girl with blue eyes wearing a white dress, standing in a forest. masterpiece`
FLUX	詳細な自然言語	`A photorealistic portrait of a young woman with translucent blue eyes, wearing a white chiffon dress in a misty forest`

⚠️ モデル世代を意識しよう

SD 1.5にはタグの羅列が最適。SDXLやFLUXにSD 1.5のタグ羅列をそのまま使うと、モデルの文脈理解力を活かしきれず、もったいない結果になります。逆に、SD 1.5に自然言語の長文を書くと、a, the, with などの文法語が貴重なトークンを無駄に消費してしまいますの。詳しくはプロンプトガイドで解説しています。

まとめ

この記事で解説した内容をおさらいしましょう。

📋 この記事のポイント

タグとは、AI画像生成のプロンプトで使う英単語やフレーズのこと
タグのルーツは2005年に誕生したDanbooruのタグシステム
Danbooruの数百万枚のタグ付きイラストがAIの学習データになった
AIが「理解できるタグ」は「AIが学習したデータのタグ」と一致する
タグには品質・人物・身体特徴・衣装・構図・背景などのカテゴリがある
前方のタグほど影響力が強いため、並び順が重要
モデルの世代（SD 1.5 / SDXL / FLUX）で最適な書き方が異なる
DeepDanbooruで画像からタグを逆引きできる

タグの由来を知ると、プロンプトの書き方がただの「おまじない」ではなく、論理的な理由に基づいた技術であることがわかります。ぜひこの知識を活かして、より効果的なプロンプトを書いてみてくださいませ。

プロンプトガイド ─ プロンプトがどのように画像に影響するかを技術的に解説
LoRAとは？ ─ 追加学習の仕組みと使い方
生成パラメータ解説 ─ VAE・サンプラー・CFGスケールの意味と効果
おすすめチェックポイント紹介 ─ 得意・苦手まとめ
SD 1.5 vs SDXL 徹底比較 ─ どちらを使うべきか

❀ この記事が役に立ったら

サイト運営のモチベーションになります。よろしければ応援お願いします！

❀ お布施する（OFuse）

タグとは？

はじめに

第1章：タグってなに？─ ざっくり理解

🍳 たとえ話：レストランの注文票

タグの正体：プロンプト内の「キーワード」

なぜ英語なのか？

第2章：タグのルーツ ─ Danbooruとbooruタグシステム

📺 Danbooruとは？

📚 フォークソノミー ─ みんなで作る分類体系

📁 Danbooruタグのカテゴリ

🤖 なぜAI画像生成に使われるようになったか

具体的なモデルとDanbooruの関係

参考資料

第3章：タグの種類と分類

🏷️ タグの大分類

🎯 タグの「効き方」の違い

⭐ Pony系モデル専用タグ

第4章：タグの実践テクニック

📐 推奨のタグ並び順

✅ 良い例

❌ 悪い例

⚠️ よくある失敗と改善

🔍 DeepDanbooru ─ 画像からタグを逆引き

🔄 モデル世代でのタグの使い方の違い

まとめ

関連記事