본문 바로가기
AI.IT

AI 영상 생성 워크플로우, Sora 종료 후 Kling 3.0이 기본값 된 이유

by bamsik 2026. 5. 10.
반응형

4월 말에 메일 한 통이 왔다. OpenAI에서 보낸 거였고, 내용은 짧았다. "Sora 앱 서비스가 4월 26일부로 종료됩니다." 솔직히 처음엔 좀 당황했다. 그때까지 영상 프로젝트에 Sora를 꾸준히 쓰고 있었거든. 대체제를 바로 찾아야 했고, 그 다음 3주가 꽤 바빴다.

결론부터 말하면, 지금은 Kling 3.0과 Veo 3.1을 용도에 따라 나눠 쓰는 워크플로우로 정착했다. Sora 없어지고 나서 생산성이 오히려 나아졌냐고 물어본다면 — 응, 맞다. 그런데 조건이 있다.

Sora가 4월에 문 닫은 진짜 이유

당시 기사들이 쏟아졌는데, 핵심은 숫자로 보면 바로 나온다. Sora는 하루 컴퓨팅 비용이 약 100만 달러였다. 그런데 앱이 출시된 이후 수명 전체에 걸쳐 인앱 결제로 번 돈이 약 210만 달러였다고 OpenAI 내부 자료가 흘러나왔다. 이틀 운영하면 수익이 전부 사라지는 구조였던 거다.

텍스트 생성이나 이미지 생성과는 연산 비용 자체가 다르다. 10초짜리 영상 하나 만드는 데 드는 GPU 연산이 이미지 수백 장 분량이라는 얘기도 있다. 영상 AI가 '유료로 쓸 만한 도구'가 되려면 아직 인프라 비용 구조가 맞아야 하는데, Sora는 그 타이밍에 못 맞춘 것 같다.

다르게 보면 이게 반전이다. Sora가 없어진 게 AI 영상 시장에 정리가 된 것이기도 하다. 살아남은 Kling이나 Veo가 그 빈자리를 채우면서 오히려 경쟁 압박이 가격을 낮추고 있다.

Kling 3.0 vs Veo 3.1, 목적에 따라 골라야 한다

Kling 3.0: 볼륨 작업과 포토리얼 콘텐츠

Kling 3.0은 올해 2월 5일에 나왔고, 현재 ELO 벤치마크 점수 1243으로 AI 영상 모델 중 1위다. 핵심 스펙은 4K 60fps 네이티브 출력이고, 한 번 생성으로 최대 3분짜리 영상까지 나온다. Sora가 최대 20초였던 것과 비교하면 차이가 크다.

가격은 클립당 약 0.5달러 수준이다. 볼륨이 많은 작업에선 이 가격이 결정적이다. 제품 영상이나 포토리얼 장면처럼 "실제 카메라로 찍은 것처럼" 보여야 하는 콘텐츠에서 강하다.

한 가지 독점 기능이 있는데 Motion Brush다. 프레임 위에 직접 모션 경로를 그려서 "이 오브젝트가 이 방향으로 이렇게 움직이게" 지정할 수 있다. 현재 다른 주요 모델엔 없는 기능이다. 카메라 워크나 특정 객체의 움직임을 세밀하게 제어해야 할 때 쓴다.

Veo 3.1: 시네마틱 폴리시가 필요할 때

Veo 3.1은 구글 거다. 해상도는 1080p가 기본이지만, 색 과학이나 모션 블러 처리가 영화 카메라에서 나온 것처럼 자연스럽다. Sora를 쓰던 사람들이 "드롭인 대체제"로 가장 많이 이야기하는 게 Veo 3.1이다.

납품용 최종 렌더링이나 시네마틱 느낌이 중요한 장면에서는 Kling보다 Veo 3.1이 낫다. 가격은 Kling보다 비싸다. 용도가 다르다고 생각하는 게 맞다.

실제로 쓰는 워크플로우

지금 내 흐름은 이렇다.

  • 프로토타이핑 단계: Kling 무료 티어로 빠르게 컨셉을 확인한다. 어떤 장면 구성이 될지, 카메라 앵글이 맞는지 체크하는 단계다. 이때 퀄리티는 중요하지 않으니 비용 안 든다.
  • 확정 후 본 렌더링: 포토리얼이나 제품 영상이면 Kling 유료로, 시네마틱 느낌이 필요하면 Veo 3.1로 넘어간다. 같은 프롬프트를 두 모델에 돌려보고 결과 좋은 걸 쓰기도 한다.
  • 편집: 생성된 클립을 편집 소프트웨어로 이어 붙인다. Kling은 최대 3분이라 긴 시퀀스를 한 번에 만들 수 있어서 이음새 작업이 줄었다.

한 프로젝트 기준으로 대략 프로토타이핑에서 최종 클립까지 클립 하나당 15~20분 정도 걸린다. Sora 쓰던 때랑 비슷하다. 근데 비용은 줄었다.

프롬프트 공식과 실전 예시

영상 AI 프롬프트는 구조가 있어야 한다. 그냥 장면 설명만 쓰면 결과가 들쭉날쭉하다.

내가 정착한 구조는 이렇다:

[카메라 스타일] + [장면 설명] + [인물/오브젝트 세부] + [동작/움직임] + [조명/분위기] + [기술 사양]

❌ 나쁜 예시: "카페에 앉아 있는 사람이 커피를 마신다"

✅ 좋은 예시: "핸드헬드 클로즈업 샷, 서울 골목 카페 창가, 30대 여성이 커피잔을 천천히 들어 올리는 장면, 부드러운 자연광 오후 사이드 라이팅, 따뜻한 앰버 톤, 4K 시네마틱"

색감 지시어 하나가 결과를 완전히 바꾼다. "따뜻한 앰버 톤"이나 "쿨 블루 색조", "네온 사이버펑크 팔레트" 같은 표현을 넣으면 분위기 일관성이 확 올라간다. 그냥 쓰지 말고 꼭 넣어라.

비용 현실과 주의할 점

Kling 3.0을 쓰려면 플랜 선택이 중요하다. 4K/60fps는 Ultra 플랜($127.99/월)에서만 된다. Standard 플랜($6.99/월)에서는 해상도와 프레임 제한이 있다. 이걸 모르고 "Kling이 4K라더라"만 보고 저렴한 플랜 쓰면 반쪽짜리다. 솔직히 이 부분이 좀 아쉽다.

월 100클립 기준으로 계산하면: Kling Standard는 $6.99에 한정된 크레딧이라 100클립 생성에 부족하다. 실제 볼륨 작업을 하려면 Premier($64.99/월, 8000 크레딧) 이상이 필요하다. Veo 3.1은 API 단가가 Kling보다 높아서 동일 볼륨 기준 5배까지 차이 난다.

Kling이 비용 효율이 좋다고 했지만, 고품질 출력을 원한다면 결국 월 6~7만 원 이상은 생각해야 한다. 그래도 Sora가 없어진 지금 가장 현실적인 선택지인 건 맞다.


📎 참고 자료


📌 함께 보면 좋은 글

반응형