deepfloyd-if 란?
stable diffusion을 개발한 Stability 의 연구 조직인 DeepFloyd Lab에서 개발한 Text to image 모델이다.
IF는 높은 수준의 현실적인 이미지 생성과 언어 이해 능력을 가지고 있고, 이미지에 원하는 텍스트를 넣어 생성할 수 있다는 점이 큰 차별점이다.
Stable diffusion은 이미지 생성은 잘 했지만 텍스트를 포함한 이미지 예를들어 ‘mineral’ 을 포함한 네온 사인 을 그리려고 하면 네온 사인은 잘 그려도 mineral이란 텍스트를 온전하게 구현 해 내지 못한다는 단점이 있었다.
이미지를 보면 확실한 차이를 알 수있다. stable diffusion으로 생성한 이미지는 영어가 적혀있긴 하지만 제대로 읽을 수 어없다.
반면 IF 모델로 생성한 이미지는 확실히 텍스트가 영어로 잘 구현되었다. mineral 스펠링이 잘못 구현되긴했지만 random seed를 조정하면 쉽게 해결 가능하다.
deepfloyd IF 모델의 구조
deepfloyd IF 모델의 구조를 살펴보면 T5 Transformer 기반 Frozen 텍스트 인코더와 3단계의 fixel diffusion module의 결합으로 구성되어 있다.
대략적인 순서는 다음과 같다.
- text embedding을 통해 문장을 이해하고 이미지 생성 모델 (IF-I 계열) 로 64 x 64 크기의 이미지를 생성
- IF-II 계열 모델로 이미지를 256 x 256으로 up-scaling
- IF-III, Stable diffusion X4 up-scaling 모델을 이용해 1024 x 1024 크기로 up-scaling을 진행
해당 모델도 Stable diffusion과 같이 100% 오픈 소스로 공개 예정이라고 한다.
IF 모델을 활용한 예시는 아래 링크에서 확인 할 수 있습니다.
GPU 자원이 꽤 많이 필요하기 때문에 colab을 활용하는걸 추천드립니다.
'딥러닝 > Vision' 카테고리의 다른 글
stable diffusion (0) | 2023.07.04 |
---|---|
diffusion (0) | 2023.07.04 |
Semantic Segmentation (0) | 2022.03.30 |
Mask R-CNN (0) | 2022.03.30 |
Object Detection (0) | 2022.03.30 |