구글 제미나이 ‘선율’까지 삼켰다… "사진 한 장에 작곡부터 보컬까지 끝"

구글 제미나이 리리아 3 업데이트로 완성된 올인원 AI 창작 생태계의 습격

텍스트·이미지 넘어 오디오 정복 나선 구글, '나노 바나나' 결합으로 시청각 혁명 예고

딥마인드 최신 오디오 모델 탑재, 8개 국어 지원하며 글로벌 크리에이터 시장 정조준

글로벌 빅테크 공룡 구글이 자사의 핵심 인공지능(AI) 엔진인 ‘제미나이(Gemini)’의 영역을 

다시 한번 파격적으로 확장했다. 그동안 텍스트 기반의 정보 검색과 정교한 이미지 생성에 집중해온 

제미나이가 이제는 사용자의 감성과 의도를 읽어내는 ‘맞춤형 음악 생성’ 영역에 발을 들인 것이다. 

 

이번 행보는 단순한 기능 추가를 넘어, 구글이 지향하는 ‘멀티모달(Multimodal) AI’의 최종 진화형에 

한 걸음 더 다가섰다는 평가를 받는다.

 

업계에 따르면 구글은 최근 제미나이에 혁신적인 오디오 생성 기능을 공식 탑재했다. 

이번 업데이트의 기술적 핵심은 구글 딥마인드(DeepMind)가 야심 차게 개발한 최신 음악 생성 모델인 

‘리리아 3(Lyria 3)’다. 리리아 3는 단순한 기계적 합성음을 넘어, 인간의 감수성을 자극하는 선율과 리듬을 

정교하게 구현해내는 능력을 갖췄다. 특히 사용자가 제공하는 입력 데이터의 형태가 텍스트에만 국한되지 

않는다는 점이 가장 큰 특징이다.

 

AI라이프 메이커 김교동 부장 / NotebookLM으로 생성한 AI이미지

 

사용자는 이제 특정 사진이나 짧은 영상 클립을 제미나이에게 제시하며 그 분위기에 최적화된 배경음악(BGM)을 

주문할 수 있다. 예를 들어, 노을 지는 해변 사진을 올리며 "이 장면에 어울리는 몽환적이고 차분한 

재즈풍 음악을 만들어달라"고 요청하면, AI는 사진 속의 색감과 구도를 분석해 즉각적으로 선율을 뽑아낸다. 

이는 시각 정보를 청각 정보로 치환하는 고도의 인지 연산 기술이 적용된 결과다.

 

생성되는 음원의 품질 역시 놀라운 수준이다. 약 30초 분량으로 제작되는 오디오 파일에는 풍부한 악기 연주는 

물론, 주제에 부합하는 가사와 자연스러운 보컬(목소리)까지 포함된다. 여기에 구글의 또 다른 자랑인 

AI 이미지 생성기 ‘나노 바나나(Nano Banana)’가 힘을 보탠다. 음악이 생성됨과 동시에 해당 곡의 컨셉을 

반영한 앨범 커버 아트까지 자동으로 제작되어, 창작자는 별도의 디자인 작업 없이도 완성도 높은 

디지털 콘텐츠 패키지를 손에 넣게 된다.

 

접근성 면에서도 글로벌 표준을 지향한다. 한국어를 포함한 영어, 독일어, 스페인어 등 총 8개 주요 언어를 

우선 지원하며 문화적 장벽을 낮췄다. 현재 데스크톱 버전의 제미나이 웹에서 베타 서비스 형태로 

이용할 수 있으며, 구글 측은 모바일 환경으로의 이식을 위해 막바지 최적화 작업을 진행 중인 것으로 알려졌다. 

이는 이동 중에도 스마트폰 하나로 작곡과 앨범 제작이 가능한 시대가 머지않았음을 시사한다.

 

하지만 기술적 진보 뒤에는 언제나 저작권이라는 민감한 과제가 뒤따른다. 구글은 이를 정면 돌파하기 위해 

‘상생’과 ‘윤리’를 전면에 내세웠다. 리리아 3 모델 학습 과정에서 실제 아티스트들의 스타일적 특징을 참고하되, 

특정 창작물을 그대로 복제하거나 고유의 예술적 자산을 침해하지 않도록 정교한 필터링 시스템을 

구축했다는 설명이다. 이는 AI가 예술가의 자리를 대체하는 것이 아니라, 창의력을 증폭시키는 ‘도구’로서 

기능해야 한다는 구글의 철학이 반영된 대목이다.

 

콘텐츠 업계 전문가는 "유튜브 쇼츠나 틱톡 같은 숏폼 콘텐츠 시장이 폭발적으로 성장하는 상황에서, 

저작권 걱정 없는 고품질 맞춤형 음원을 단 몇 초 만에 확보할 수 있다는 것은 혁명적인 변화"라며 

"AI가 창작의 진입 장벽을 완전히 허물고 있다"고 분석했다.

 

결국 구글의 이번 업데이트는 기술 경쟁을 넘어 ‘누구나 예술가가 될 수 있는 시대’를 선언한 것과 다름없다. 

제미나이가 그려내는 선율이 인간의 창의성과 부딪히며 어떤 새로운 예술적 파형을 만들어낼지 전 세계의 이목이 

쏠리고 있다.

 

AI라이프 메이커 김교동 부장 / NotebookLM으로 생성한 AI이미지

 

구글 제미나이의 음악 생성 기능 도입은 AI가 인간의 오감을 통합적으로 이해하고 표현하는 단계에 

진입했음을 상징한다. 저작권 윤리를 준수하면서도 창작의 효율성을 극대화한 이번 기술은 

콘텐츠 산업의 패러다임을 '소비'에서 '개인화된 생산'으로 전환하는 기폭제가 될 것이다.

 

AI라이프 메이커 김교동 부장

작성 2026.02.21 14:35 수정 2026.02.21 14:44

RSS피드 기사제공처 : AI라이프 메이커 저널 / 등록기자: 김동우 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (1/1 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
2023-01-30 10:21:54 / 김종현기자