클링AI 3.0 공식 출시… AI가 연출까지 맡는 ‘누구나 감독의 시대’ 열렸다

영상·이미지·음성 통합한 All-in-One AI 모델로 제작 파이프라인 재편

멀티샷·주체 참조·다국어 음성까지 영화 제작 핵심 공정에 AI 본격 진입

생성 도구를 넘어 연출·제어 중심 창작 인터페이스로 진화

클링 비디오 3.0 스마트 멀티샷

AI 영상 생성 기술이 새로운 전환점을 맞았다. 글로벌 생성형 AI 기업 클링AI가 3.0 시리즈 모델을 전 세계에 공식 출시하며, 영상 제작 전 과정을 단일 AI 모델 안에서 수행할 수 있는 체계를 공개했다. 클링AI는 이번 업데이트를 통해 “누구나 감독이 될 수 있는 시대가 본격적으로 열렸다”고 강조했다.

 

클링AI 3.0 시리즈는 현재 울트라 멤버십 이용자를 대상으로 우선 공개됐으며, 향후 전체 사용자로 단계적으로 확대될 예정이다. 공개된 모델은 클링 비디오 3.0, 클링 비디오 3.0 Omni, 클링 이미지 3.0, 클링 이미지 3.0 Omni 등 네 가지다. 이미지 생성부터 영상 생성, 편집, 후반 작업에 이르기까지 영화·영상 제작의 전 과정을 포괄하는 구성이 특징이다. 업계에서는 AI가 보조 도구를 넘어 콘텐츠 제작의 핵심 공정으로 진입했음을 상징하는 사례로 평가하고 있다.

 

이번 3.0 시리즈의 핵심은 All-in-One 제품·기술 철학이다. 텍스트, 이미지, 음성, 영상 등 서로 다른 입력과 출력을 하나의 멀티모달 모델로 통합해, 창작 전 과정을 단일 흐름으로 연결했다. 개별 기능을 조합하는 방식이 아니라, 이해·생성·편집 단계가 하나의 연속된 프로세스로 작동하도록 설계된 점이 기존 모델과의 가장 큰 차별점이다. 이를 통해 영상 제작은 처음으로 단일 모델 안에서 완결되는 엔드투엔드 구조를 갖추게 됐다.

 

안정성과 표현력 측면에서도 대대적인 고도화가 이뤄졌다. 클링AI는 비디오 주체 업로드 및 바인딩, 음색 바인딩, 이미지 기반 영상 생성과 주체 참조 기술을 통합해, 장면 전환이 많은 환경에서도 인물의 외형과 동작, 음성이 일관되게 유지되도록 했다. 이 과정에서 텍스트 왜곡과 주체 붕괴로 대표되던 기존 영상 생성 AI의 한계를 상당 부분 해소했다는 평가가 나온다. 다국어 환경에서도 캐릭터 스타일과 브랜드 식별 요소가 안정적으로 유지되는 점 역시 주목된다.

 

서사 구성 능력도 강화됐다. 클링 비디오 3.0은 최대 15초 분량의 연속 생성을 지원하며, 스마트 멀티샷과 커스텀 멀티샷 기능을 새롭게 도입했다. 창작자는 샷의 리듬과 구조를 직접 설계할 수 있으며, 파편적인 클립을 이어 붙이던 기존 방식에서 벗어나 보다 자연스러운 감정 흐름을 구현할 수 있다. 화면 전개가 서사에 맞춰 진행되면서, 영상의 긴장감과 표현 밀도도 한층 높아졌다.

 

음성과 영상의 결합 수준 역시 영화 제작 기준에 근접했다. 비디오 3.0과 비디오 3.0 Omni 모델은 음·영상 동시 출력을 지원하며, 한국어·영어·중국어·일본어·스페인어 등 주요 언어는 물론 다양한 지역 방언과 억양까지 폭넓게 대응한다. 인물의 입 모양과 감정 표현이 자연스럽게 연동되면서, 화면 전반의 사실감과 연기적 밀도가 크게 향상됐다.

 

Omni 버전은 일관성과 제어력을 더욱 강화했다. 참조 자료를 업로드하면 특정 인물이나 객체의 시각적 특징과 음성을 자동으로 추출·바인딩하며, 서로 다른 장면에서도 동일한 얼굴과 음성이 유지된다. 특징 디커플링 기술을 통해 캐릭터와 소품을 자유롭게 재사용할 수 있어, 전문 영상 제작에서 요구되는 ‘직접 납품’ 수준의 결과물을 목표로 한다.

정지 이미지 영역에서도 변화가 뚜렷하다. 클링 이미지 3.0 시리즈는 단일 프레임만으로도 서사가 완결되는 이미지 생성을 지향하며, 2K·4K 초고해상도 출력을 지원한다. 스토리보드 이미지와 시리즈형 이미지 생성 기능이 추가돼, 영화·광고·게임 기획 단계에서 활용도가 크게 높아졌다. 이미지 간 스타일과 광원, 세부 표현의 일관성을 유지해 전문 시각 자료 제작에 적합하다는 설명이다.

 

클링AI는 이번 3.0을 통해 세 차례의 도약을 완성했다고 자평한다. ‘사용 가능한 생성’에서 ‘제어 가능한 제작’, 나아가 ‘전문적 미장센 구현’ 단계로 진화했다는 것이다. 단일 기능 중심의 생성 도구에서 벗어나, 연출과 조정이 가능한 시스템형 창작 환경으로 전환됐다는 점에서 의미가 크다.

 

2025년 말 기준 클링AI는 전 세계 6000만 명 이상의 창작자를 확보했으며, 누적 생성 영상 수는 6억 개를 넘어섰다. 3만 곳 이상의 기업 고객을 보유하고 있으며, 연환산 매출 규모는 약 2억4000만 달러 수준으로 집계됐다. 이번 3.0 시리즈 출시는 AI가 단순한 생성 도구를 넘어 창작 의도를 이해하고 구현하는 협업자로 자리 잡았음을 보여주는 상징적 사건으로 평가된다.

 

클링AI 3.0 시리즈는 영상·이미지·음성을 통합한 멀티모달 AI로 제작 전 과정을 단일 모델 안에서 수행할 수 있도록 했다. 창작자는 더 적은 자원으로도 전문 연출에 가까운 결과물을 구현할 수 있으며, 제작 속도와 완성도 모두에서 효율성이 높아질 것으로 기대된다.

 

클링AI 3.0의 등장은 AI 영상 기술이 ‘생성’ 중심에서 ‘연출’ 중심으로 이동하고 있음을 분명히 보여준다. 전문 영역으로 여겨졌던 감독과 연출의 문턱이 낮아지면서, 콘텐츠 산업 전반의 제작 방식과 경쟁 구도에도 변화가 불가피할 전망이다.

 

클링AI 소개

클링AI(Kling AI)는 콰이쇼우(Kwaishou)가 선보인 차세대 AI 창작 생산성 플랫폼이다. 콰이쇼우가 자체 개발한 대규모 모델 ‘클링’을 기반으로, 고품질 영상과 이미지의 생성·편집 기능을 제공한다. 보다 간편한 조작 환경과 확장된 기능, 전문적인 제어 파라미터를 통해 창작자가 창작 소재를 효율적으로 제작·관리할 수 있도록 지원한다. (사진제공)

작성 2026.02.11 01:42 수정 2026.02.11 01:42

RSS피드 기사제공처 : 디지털배움뉴스 / 등록기자: 김영미 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (1/1 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
2023-01-30 10:21:54 / 김종현기자