핵심 구조 먼저
대략 흐름은 이렇게 생각하면 됨:
Prompt → Text Encoder(CLIP) → 모델(CheckPoint) → Sampler → Latent 이미지 → VAE Decoder → 최종 PNG
( LoRA는 중간에 모델을 보강하는 추가 학습 파일. )

Checkpoint

모델의 “본체”.
예:
- SD1.5
- SDXL
- SD3
- Pony
- Illustrious
- Flux
이 파일 하나 안에:
- 그림체
- 캐릭터 이해
- 구도
- 색감
- 학습 데이터 성향
같은 게 들어있음. 보통 확장자는:
- .safetensors
- .ckpt
LoRA
기본 모델 위에 덧씌우는 “추가 학습 데이터”.
예:
- 특정 캐릭터
- 특정 그림체
- 특정 포즈
- 특정 얼굴
- 의상
- NSFW 스타일
등을 작게 학습시킨 파일.
특징
- 용량 작음
- 여러 개 동시에 가능
- 체크포인트를 안 바꾸고 스타일 추가 가능
쉽게 말하면
Checkpoint = 기본 화가
LoRA = 특정 화풍/캐릭터 특화 기억
SD3
Stability AI 의
Stable Diffusion 3 모델.
SD 계열 세대 중 하나.
흐름:
- SD1.5 → 오래됨, 가볍고 빠름
- SDXL → 고품질
- SD3 → 더 발전된 구조
특징
- 프롬프트 이해력 향상
- 손/글자 개선
- 구조 이해 좋아짐
- 하드웨어 요구량 큼
단점
- 무거움
- 생태계가 SDXL보다 작았던 시기 있음
- 일부 워크플로우 호환 문제
Prompt ( CLIP Text Encoder )
AI에게 주는 지시문.
예:
1girl, elf knight, silver armor, fantasy forest
Model Sampling

이미지를 “점점 만들어가는 과정”.
처음엔 랜덤 노이즈 상태인데,
Sampler가 조금씩 그림으로 바꿈.
KSampler
ComfyUI 에서 핵심 생성 노드.
실제로 그림 만드는 역할.
입력:
- 모델
- 프롬프트
- 시드(seed)
- steps
- cfg
등을 받아서 latent 이미지를 생성함.

VAE Decoder
Latent → 실제 이미지(PNG) 로 변환하는 장치.
즉:
- AI 내부 압축 그림
→ 사람이 볼 수 있는 그림
으로 바꿔줌.
왜 중요함?
VAE에 따라:
- 색감
- 명암
- 디테일
- 채도
차이 남.
그래서 같은 모델이어도
VAE 바꾸면 느낌 달라질 수 있음.