텍스트나 이미지로부터 동영상을 생성하는 AI "Stable Video Diffusion"을 Stability AI가 공개

IT Search
0

 이미지 생성 AI "Stable Diffusion"을 개발하는 Stability AI가, 텍스트와 이미지로부터 고해상도 동영상을 생성할 수 있는 잠재 동영상 확산 모델 "Stable Video Diffusion"을 공개했다.



Stable Video Diffusion은 연구 프리뷰로 공개되어 있으며, 소스 코드가 GitHub 저장소에서 공개되어 있고, 또한 로컬에서 모델을 실행하는 데 필요한 웨이트는 Hugging Face에서 확인할 수 있다.


Stable Video Diffusion은, 14프레임 및 25프레임을 생성할 수 있는 2종류의 Image to Video 모델로 출시되었으며, 3fps~30fps로 맞춤형 프레임 레이트로 동영상 생성이 가능하다.



"Ice dragon in the mountains(산에 있는 얼음 용)"이라고 입력하면 그대로 애니메이션이 생성.


Stability AI는, runway Research의 GEN-2나 pika.art의 Pika Labs와 유저에 의한 영상 품질의 평가(세로 축)를 비교한 결과로서, 아래의 막대 그래프를 공개하고 있는데, 14프레임 생성이 가능한 Stable Video Diffusion(보라색)의 경우는 이런 느낌.



25프레임 생성할 수 있는 Stable Video Diffusion XT(보라색)의 경우가 아래.



Stability AI는 "Stable Video Diffusion을 우리의 다양한 모델에 추가하게 된 것을 기쁘게 생각합니다. 이미지, 언어, 음성, 3D, 코드 등 양식에 걸친 Stability AI 포트폴리오는 인간의 상상력을 극대화시킨다는 Stability AI 미션의 증거입니다"라고 코멘트하고 있다.

댓글 쓰기

0댓글

댓글 쓰기 (0)