글자 몇 줄을 입력하면 영화 같은 동영상을 뚝딱 만들어내던 인공지능이 또 한 번 진화했다. 19일, 오픈AI가 기존 모델의 치명적인 단점들을 완벽에 가깝게 극복하고 생성 속도마저 비약적으로 끌어올린 차세대 영상 생성 모델 '소라(Sora) 2.0'을 공식 출시했다.
물리 법칙 꿰뚫은 '소라 2.0'... 영상 뽑는 시간 반토막 났다
1세대 영상 생성 AI들이 가진 가장 큰 한계는 '현실 세계의 물리 법칙'을 제대로 이해하지 못한다는 점이었다. 유리가 깨지는 파편의 방향이 부자연스럽거나, 물이 위로 솟구치는 등 물리적으로 불가능한 화면이 종종 연출됐다. 인공지능이 픽셀(점)을 그럴싸하게 이어 붙일 줄만 알았지, 중력이나 작용·반작용 같은 실제 공간의 규칙은 학습하지 못했기 때문이다.
이번에 공개된 소라 2.0은 이 거대한 벽을 허물었다. 컴퓨터 그래픽(CG)에서 사용되는 고도의 물리 엔진 메커니즘을 딥러닝 모델에 결합해, 피사체가 움직일 때 발생하는 빛의 반사, 그림자의 이동, 액체의 흐름 등을 현실과 분간하기 어려울 정도로 정교하게 구현해 냈다.
여기에 효율성도 크게 개선됐다. 오픈AI는 모델 아키텍처를 최적화하여 1분짜리 고해상도 영상을 생성하는 데 걸리는 시간을 기존 대비 50% 이상 단축시켰다. 막대한 컴퓨팅 자원이 소모되던 렌더링 대기 시간이 줄어들면서, 현장 작업자들의 실질적인 활용도가 대폭 높아질 전망이다.
카메라 앵글 마구 돌려도 '안 깨진다'... 극강의 3D 일관성 확보
IT 기술적으로 가장 눈여겨볼 대목은 다각도 시점 전환 시 유지되는 '객체 일관성(Temporal Consistency)'이다. 이전 모델들은 카메라 앵글이 피사체의 뒤통수나 측면으로 돌아가면, 인물의 얼굴 생김새나 옷의 무늬가 뭉개지고 다른 형태로 변해버리는 고질적인 오류가 있었다.
소라 2.0은 영상 속 객체의 3D 구조를 AI가 스스로 매핑(Mapping)하고 기억하는 능력을 비약적으로 발전시켰다. 드론이 피사체 주위를 360도로 빠르게 회전하며 촬영하는 듯한 역동적인 앵글을 입력해도, 주인공의 이목구비와 배경 사물의 형태가 전혀 훼손되지 않고 원본 그대로 유지된다.
할리우드·게임사 정조준... 전용 API 공개로 크리에이터 생태계 지각변동
단순히 '신기한 장난감' 수준을 넘어선 오픈AI의 다음 타깃은 명확하다. 바로 막대한 자본이 오가는 영화 제작 및 게임 산업이다. 오픈AI는 소라 2.0 출시와 동시에 기업 및 크리에이터들이 자사의 편집 프로그램이나 게임 엔진에 소라 2.0을 직접 연동해 사용할 수 있도록 전용 API(응용프로그램 인터페이스)를 오픈했다.
상업 영화 스튜디오나 대형 게임사들은 이제 수백 명의 인력과 고가의 장비를 투입해 배경 CG를 덧입히는 대신, 소라 2.0 API를 호출해 단 몇 분 만에 원하는 화질의 배경 소스를 얻을 수 있게 됐다.
업계 관계자는 "영상 생성 AI가 프로덕션(제작) 단계의 비용을 획기적으로 절감시키는 도구로 격상되었다"며 "아이디어만 있다면 1인 크리에이터도 할리우드급 블록버스터 장면을 만들어낼 수 있는 시대가 열렸다"고 평가했다.

