1.なぜComfyUIは「ノードの理解」が必要なのか
ComfyUIを初めて触ったとき、多くの人がこう感じるハズです。

ノード?なにそれ……
画面に並ぶ箱を線で繋げと言われても、何をどう繋げばいいのか分からず、”難しそうなツール”だと感じてしまうこともあります。
これは自然な違和感で、ComfyUIがAUTOMATIC1111とは根本的に異なるUIだからです。
・AUTOMATIC1111:設定を入力してボタンを押す ― 操作中心
・ComfyUI:画像生成の流れを自分で組み立てる ― 構造理解中心
そのためノードの役割や接続を理解しないまま使うと、
・ワークフローを丸ごとコピーするしかない
・少しの変更でエラーになる
・原因が分からず詰まる
といった状況に陥りがちです。
逆に、最低限のノード構成と役割を理解すれば、ComfyUIは非常に自由度の高い画像生成ツールになります。
このページでは、その第一歩として「画像生成に必要な基本ノード構成」を解説します。
1.1 AUTOMATIC1111とComfyUIの決定的な違い
AUTOMATIC1111とComfyUIの2つは同じStable Diffusionを使った画像生成ツールですが、見せているレイヤーが異なります。
・AUTOMATIC1111:完成された操作画面
画像生成に必要な処理が1つの画面にまとめられており、ユーザーは内部処理を意識せずに操作できます。
・モデル選択
・プロンプト入力
・サンプラー設定
・画像サイズ指定
・生成/保存
つまり「使いやすくパッケージされたUI」であり、簡単に扱える反面、処理の途中に介入したり複雑な分岐を作るのは難しいという制約があります。
・ComfyUI:処理の中身を見せるUI
画像生成の流れがノードとして可視化され、ユーザーが線でつないで構築します。
・モデル読み込み
・プロンプト変換
・潜在空間で生成
・デコード
・保存
「内部処理をそのまま委ねるUI」であり、途中に処理を挟む・分岐や並列処理を作る・出力を複数用途に使うなど高い自由度を持ちます。
ただし、ノードの役割を理解しないと動かせないという特徴があります。
1.2 ワークフロー丸コピでは応用できない理由
ComfyUIでは「このワークフローを使えば高品質な画像が出る」といった情報をよく見かけます。

とりあえずワークフローを集めて使えばいいのでは?
この考え自体は間違いではありません。
むしろ、ComfyUIに触れ始める入口としては正しい選択です。
ただし――
・少し変えたいだけなのに、壊れる
服装や解像度、モデルを変えたいだけでも、ノードの役割を理解していないとエラーや意図しない結果につながります。これはセンスの問題ではなく、ワークフローがブラックボックスになっているためです。
・エラーが出ても、原因が分からない
ComfyUIはノード構成が破綻すると即エラーになりますが、ノードの意味を知らないと原因を特定できず、結局コピーに頼るしかなくなります。
・丸コピは「使える」けど「作れない」
丸コピは完成した料理を温め直すようなもの。一方、ノードを理解して組める状態は材料とレシピを理解して料理することに近く、応用や独自構成が可能になります。
・応用の第一歩は「最低限の構成」理解
いきなり複雑なワークフローを理解する必要はありません。まずは画像生成に必須の基本ノードだけを押さえることが重要です。これさえ理解すれば、
・ワークフローの意味が読める
・変更点が分かる
・コピーしたものも理解しながら使える
ようになります。
このページでは、画像生成に必要な最小構成に絞って解説します。
2.画像生成に必須な6つのノード
まず結論です。
画像を生成するだけであれば、ComfyUIで最低限必要なノードは次の6つだけです。
① Checkpoint Loader(チェックポイントを読み込む)
🧩使用する画像生成モデルを読み込む
② CLIP Text Encode(プロンプトを理解させる)
🧩入力したテキストをAIが理解できる形に変換
③ Empty Latent Image(空の潜在画像)
🧩画像を生成するための「下地」を用意する
④ KSampler(Kサンプラー)
🧩プロンプトとモデルを使って実際に画像を生成する
⑤ VAE Decode(VAEデコード)
🧩潜在画像を人が見える画像に変換する
⑥ Save Image(画像を保存)
🧩生成した画像をファイルとして保存する
それぞれのノードは役割が分かれており、正しい順番でつなぐことで初めて画像が生成されます。
次のセクションでは、これら6つのノードをどのようにつなぐのか、全体像を先に確認してみましょう。
3.まずは全体像を確認しよう(ノード接続図)

このワークフローは、テキストから1枚の画像を生成して保存するComfyUIの最も基本的な構成です。
この構成を理解できれば、画像サイズ変更やLoRA追加なども自分で調整できるようになります。
ワークフローは、基本的に左から右へ処理が流れる と考えると分かりやすいです。
ステップ①:モデルとプロンプトの準備
まず「Checkpoint Loader(チェックポイントを読み込む)」で使用する画像生成モデルを読み込みます。
読み込まれたCLIPは、2つの「CLIP Text Encode(CLIPテキストエンコード(プロンプト))」ノードに渡され、ポジティブ用とネガティブ用のプロンプトをそれぞれエンコードします。
ステップ②:画像生成の下地を作る
「Empty Latent Image(空の潜在画像)」は、画像を生成するための何も描かれていない下地(潜在画像)を用意します。
ステップ③:Kサンプラーで画像を生成する
「KSampler(Kサンプラー)」は、このワークフローの中心です。
・モデル
・ポジティブプロンプト
・ネガティブプロンプト
・潜在画像
これらをまとめて受け取り、実際の画像生成処理を行います。
ステップ④:画像化して保存する
Kサンプラーの出力は、まだ人が見られる画像ではありません。
「VAE Decode(VAEデコード)」で画像に変換し、最後に「Save Image(画像を保存)」でファイルとして保存します。
【図を見ながら確認してほしいポイント】
・CLIP Text Encodeは2つ必要(ポジティブ/ネガティブ)
・Checkpoint LoaderのCLIP出力を両方に接続する
・Empty Latent ImageはKSamplerに直接接続する
・VAE DecodeはKSamplerの後に必須
・Save Imageは最後に1つあればOK
4.必須6ノードを一つずつ理解する
このセクションでは、
・何をするノードなのか
・どこから入力を受け取って
・どこへ出力を渡すのか
・なぜこのノードが必須なのか
を説明します。
4.1 Checkpoint Loader(チェックポイントを読み込む)
画像生成に使用するモデル本体(チェックポイント)を読み込むノードです。
ComfyUIにおける、いわば土台となる存在です。
・なし(最初に置くノード)
[端子名]-[端子名]出力先ノード名
[モデル●]-[●モデル]KSampler(Kサンプラー)
[CLIP●]-[●クリップ]CLIP Text Encode(CLIPテキストエンコード(プロンプト))
[VAE●]-[●vae]VAE Decode(VAEデコード)
Checkpoint Loader(チェックポイントを読み込む)がなければ、
・どんな絵柄で生成するのか
・どのCLIP・VAEを使うのか
が決まりません。すべての生成はここから始まるため、必須ノードになります。
4.2 CLIP Text Encode(CLIPテキストエンコード(プロンプト))
入力したテキストプロンプトを、モデルが理解できる数値情報(条件付け)に変換するノードです。
入力元ノード名[端子名]-[端子名]
Checkpoint Loader(チェックポイントを読み込む)[CLIP●]-[●クリップ]
[端子名]-[端子名]出力先ノード名
[条件付け●]-[●ポジティブ]KSampler(Kサンプラー)
[条件付け●]-[●ネガティブ]KSampler(Kサンプラー)
※このノードは通常プロンプト用とネガティブプロンプト用の二つを配置します。
ComfyUIでは、「文章を書く=即モデルに伝わる」わけではありません。
テキスト → CLIP → 条件情報
という変換が必ず必要なため、このノードは欠かせません。
4.3 Empty Latent Image(空の潜在画像)
画像生成のスタート地点となる「空の潜在画像(ノイズの器)」を用意するノードです。
・なし
[端子名]-[端子名]出力先ノード名
[潜在●]-[●潜在画像]KSampler(Kサンプラー)
AUTOMATIC1111では裏側で自動生成されていますが、ComfyUIでは明示的に指定する必要があります。
4.4 KSampler(Kサンプラー)
ノイズから画像を生成する中核ノードです。実際の「描く処理」は、すべてここで行われます。
また、KSampler(Kサンプラー)には「生成後の制御」という項目がありますが、これは 次の画像生成でSeedをどう扱うかを指定するものです。
AUTOMATIC1111では内部的に処理されていた挙動が、ComfyUIでは明示的に選択できるようになっています。
| 設定 | 意味 | A1111での挙動 |
|---|---|---|
| fixed | 同じSeed | Seed固定 |
| increment | +1 | 連番Seed |
| decrement | -1 | ほぼ未使用 |
| randomize | 毎回ランダム | Seed = -1 |
入力元ノード名[端子名]-[端子名]
Checkpoint Loader(チェックポイントを読み込む)[モデル●]-[●モデル]
CLIP Text Encode(CLIPテキストエンコード(プロンプト))[条件付け●]-[●ポジティブ]
CLIP Text Encode(CLIPテキストエンコード(プロンプト))[条件付け●]-[●ネガティブ]
Empty Latent Image(空の潜在画像)[潜在●]-[●潜在画像]
[端子名]-[端子名]出力先ノード名
[潜在●]-[●サンプル]VAE Decode(VAEデコード)
・ステップ数
・CFG
・サンプラー方式
など、生成結果を左右する設定はすべてここに集まります。
ComfyUIで画像生成を語る上で、最重要ノードです。
4.5 VAE Decode(VAEデコード)
KSamplerが出力した潜在画像を人間が見られる画像データに変換するノードです。
入力元ノード名[端子名]-[端子名]
KSampler(Kサンプラー)[潜在●]-[●サンプル]
Checkpoint Loader(チェックポイントを読み込む)[VAE●]-[●vae]
[端子名]-[端子名]出力先ノード名
[画像●]-[●画像]Save Image(画像を保存)
KSamplerの出力は、まだ「画像っぽい何か」でしかありません。
VAE Decodeを通すことで、初めて「JPEGやPNGとして扱える画像」になります。
4.6 Save Image(画像を保存)
生成された画像をファイルとして保存するノードです。
入力元ノード名[端子名] -[端子名]
VAE Decode(VAEデコード)[画像●]-[●画像]
・ なし
画像を表示するだけでなく、
・ファイル名
・保存場所
を明示的に管理できるのがComfyUIの特徴です。
生成のゴール地点として配置します。
5.実際にやってみたら起きたエラーとその理由
5.1 5つのノード構成で実行したらエラーが出た
ここまでで、画像生成に最低限必要そうなノードは一通り理解したつもりでした。
・Checkpoint Loader
・CLIP Text Encode
・KSampler
・VAE Decode
・Save Image

これだけ揃っていれば動くはず・・・
そう考えて、まずはこの5つのノード構成のワークフローで実行してみました。
実行すると、ComfyUIは次のようなエラーを表示しました。


ムズか・・・?
一見すると難しそうですが、ここには 「ComfyUIが何を求めていたのか」 がはっきり書かれています。
5.2 なぜEmpty Latent Imageが必要だったのか
・AUTOMATIC1111との違い
このエラーの原因は、AUTOMATIC1111とComfyUIで「画像生成の開始点」が異なるためです。
AUTOMATIC1111では、解像度を指定して生成ボタンを押すだけで内部的に「空の潜在画像」が自動用意され、ユーザーは意識する必要がありません。
一方、ComfyUIでは、 「何を入力としてサンプリングを始めるのか」 を ノードとして明示的に指定する必要があります。
KSamplerはプロンプトからノイズを画像化しますが、潜在画像のサイズや状態までは決めないため、最初の潜在画像を用意する Empty Latent Imageノード が必要になります。
・潜在画像(latent image)とは何か
潜在画像(latent image)とは、 AIが直接扱う「目に見えない画像データ」のことです。
Stable Diffusionはまず潜在空間で画像を生成し、そこから最終的なピクセル画像へ変換します。Empty Latent Imageノードは、その潜在空間上の“まっさらなキャンバス”を用意する役割を担っています。
今回のエラーは、単なる接続忘れではなく、ComfyUIでは「画像生成の材料をノード単位で自分が渡す」設計になっていることを示していました。
6.まとめ:まずはこの6ノードから始めよう
ComfyUIはノード数が多く自由度も高いため、最初は戸惑いがちですが、画像生成に最低限必要なのは次の6つです。
・Checkpoint Loader
・CLIP Text Encode
・Empty Latent Image
・KSampler
・VAE Decode
・Save Image
この構成は簡易ワークフローではなく、Stable Diffusionの内部処理をそのまま可視化したものです。6ノードの役割とつながりを理解すれば、
・エラーの原因
・修正すべき箇所
・追加・入れ替えすべきノード
を自分で判断できるようになるハズです。
ワークフローを丸ごとコピーするだけの状態から一歩進み、 「このノードは何をしているのか」を考えながら組めるようになること。 それが、ComfyUIを使いこなすための最初の分岐点です。
まずはこの6ノード構成をベースに、 少しずつノードを足したり、設定を変えたりしながら試してみてください。

基礎は固めたゼ!!

コメント