텍스트나 이미지로부터 동영상을 생성하는 AI "Stable Video Diffusion"을 Stability AI가 공개

이미지 생성 AI "Stable Diffusion"을 개발하는 Stability AI가, 텍스트와 이미지로부터 고해상도 동영상을 생성할 수 있는 잠재 동영상 확산 모델 "Stable Video Diffusion"을 공개했다.

Stable Video Diffusion은 연구 프리뷰로 공개되어 있으며, 소스 코드가 GitHub 저장소에서 공개되어 있고, 또한 로컬에서 모델을 실행하는 데 필요한 웨이트는 Hugging Face에서 확인할 수 있다.

Stable Video Diffusion은, 14프레임 및 25프레임을 생성할 수 있는 2종류의 Image to Video 모델로 출시되었으며, 3fps~30fps로 맞춤형 프레임 레이트로 동영상 생성이 가능하다.

"Ice dragon in the mountains(산에 있는 얼음 용)"이라고 입력하면 그대로 애니메이션이 생성.

Stability AI는, runway Research의 GEN-2나 pika.art의 Pika Labs와 유저에 의한 영상 품질의 평가(세로 축)를 비교한 결과로서, 아래의 막대 그래프를 공개하고 있는데, 14프레임 생성이 가능한 Stable Video Diffusion(보라색)의 경우는 이런 느낌.

25프레임 생성할 수 있는 Stable Video Diffusion XT(보라색)의 경우가 아래.

Stability AI는 "Stable Video Diffusion을 우리의 다양한 모델에 추가하게 된 것을 기쁘게 생각합니다. 이미지, 언어, 음성, 3D, 코드 등 양식에 걸친 Stability AI 포트폴리오는 인간의 상상력을 극대화시킨다는 Stability AI 미션의 증거입니다"라고 코멘트하고 있다.

텍스트나 이미지로부터 동영상을 생성하는 AI "Stable Video Diffusion"을 Stability AI가 공개

댓글 쓰기

Made with Love by

Contact form

텍스트나 이미지로부터 동영상을 생성하는 AI "Stable Video Diffusion"을 Stability AI가 공개

You Might Like

댓글 쓰기

Contact form