Stability AI가 최신 버전인 Stable Diffusion 3.5 모델을 공개했다. 이번 업데이트는 “Large”, “Large Turbo”, “Medium”의 세 가지 모델로 구성되어 있으며, 다양한 사용자 요구를 충족시키기 위해 설계되었다.
Stable Diffusion 3.5는 텍스트에서 이미지를 생성하는 데 있어 이전 버전보다 더욱 발전된 성능을 제공한다. 각 모델은 고유의 특징을 지니고 있어, 사용자의 목적에 맞춘 활용이 가능하다. Large 모델은 8억 개의 파라미터로 구성되어 고해상도 이미지를 생성할 수 있는 고급 사용자용으로, 마케팅 캠페인과 같은 전문적인 사용 사례에 적합하다. Large Turbo 모델은 빠른 이미지 생성 속도를 제공하며, 성능과 품질을 유지하면서도 네 단계로 이미지를 신속하게 만들어낸다. 이 모델은 빠르게 이미지가 필요한 환경에서 유용하다. Medium 모델은 소비자 하드웨어에서도 쉽게 실행할 수 있도록 최적화된 2.5억 개의 파라미터를 사용해 적절한 이미지 품질과 커스터마이징 가능성을 제공하며, 10월 29일에 출시될 예정이다.
이번 업데이트에는 Query-Key Normalization이라는 새로운 AI 트랜스포머 구조가 도입되었다. 이를 통해 사용자는 모델을 보다 쉽게 커스터마이징할 수 있으며, 특정한 자연어 프롬프트에 더욱 잘 맞추도록 설계되었다. 명확하지 않은 프롬프트에도 다양한 이미지 출력을 제공하여, 다양한 스타일과 지식을 보존하는 데 기여하고 있다.
Stable Diffusion 3.5의 모델 가중치는 Hugging Face에서 다운로드할 수 있으며, 자가 호스팅을 원하는 사용자에게 제공된다. Stability AI의 API를 통해서도 접근 가능하며 Replicate, Fireworks, ComfyUI 같은 플랫폼을 통해 사용할 수 있다. 향후 며칠 내로 새로운 모델에 대한 ControlNets도 공개될 예정이며, 이를 통해 더 높은 커스터마이징 능력을 제공할 계획이다.
Stable Diffusion 3.5는 비영리적 사용에 무료로 제공되며, 연간 매출 100만 달러 이하의 상업적 사용까지도 무료로 허용된다. 그 이상의 수익을 올리는 기업들은 엔터프라이즈 라이선스를 문의해야 한다.
Stable Diffusion 3.5의 모델들:
Large 모델: 고해상도(1 메가픽셀 이상) 이미지 생성에 적합하며, 마케팅이나 상업적 디지털 자산 제작을 목표로 한 프로 사용자를 위해 설계됨.
Large Turbo 모델: 빠른 생성 속도를 제공하며, 4단계로 고품질 이미지를 생성. 빠른 워크플로우가 요구되는 상황에 적합함.
Medium 모델: 0.25~2 메가픽셀 사이의 이미지 해상도를 생성하며, 일반적인 하드웨어에서도 실행 가능하도록 최적화됨. 연구자 및 취미 사용자들에게 적합하며, 10월 29일에 출시 예정.
현재 모델 가중치는 Hugging Face에서 자가 호스팅용으로 다운로드할 수 있으며, 다음 플랫폼을 통해서도 접근할 수 있다.
향후 발전 방향 Stability AI는 앞으로도 지속적으로 Stable Diffusion 모델을 발전시킬 계획이며, ControlNet과 같은 새로운 툴을 추가로 제공해 사용자가 더 창의적이고 효율적으로 작업할 수 있도록 도울 예정이다. 특히, 다양한 스타일과 출력의 가능성을 보존하는 이번 모델의 특성은 예술가나 콘텐츠 제작자에게 큰 도움이 될 수 있다. Stability AI는 시각적 미디어의 패러다임을 변화시키기 위해, 사용자 친화적이면서도 강력한 성능의 AI 도구를 개발하고자 한다.