VOID: 비디오 객체 및 상호작용 삭제
(github.com)
넷플릭스 연구진이 개발한 VOID는 비디오에서 특정 객체를 삭제할 때, 그 객체가 유발하던 물리적 상호작용(예: 물체를 들고 있던 사람이 사라지면 물체가 떨어지는 현상)까지 함께 제거하여 자연스러운 배경을 생성하는 혁신적인 비디오 인페인팅 기술입니다. CogVideoX를 기반으로 하며, SAM2와 Gemini를 활용해 물리적 영향권까지 계산하여 마스킹하는 것이 핵심입니다.
이 글의 핵심 포인트
- 1넷플릭스 및 소피아 대학 연구진 개발 (물리적 상호작용 제거 기술)
- 2단순 객체 삭제를 넘어 물체가 떨어지는 등의 물리적 변화까지 재구성
- 3CogVideoX 기반의 2단계(Pass 1 & 2) 트랜스포머 아키텍처 사용
- 4SAM2와 Gemini(VLM)를 결합하여 물리적 영향권을 판단하는 Quadmask 기술 적용
- 5추론을 위해 40GB 이상의 VRAM(A100 등)을 갖춘 고사양 GPU 필요
이 글에 대한 공공지능 분석
왜 중요한가
기존의 비디오 인페인팅(Inpainting) 기술은 단순히 객체가 있던 자리를 주변 픽셀로 채우거나 그림자, 반사광 같은 시각적 잔재를 지우는 데 그쳤습니다. 하지만 VOID는 '물리적 인과관계(Physical Interaction)'를 다룹니다. 예를 들어, 기타를 들고 있는 사람을 지울 때 기타가 바닥으로 떨어지는 물리적 변화까지 계산하여 생성한다는 점은 영상 편집의 패러다임을 '픽셀 복구'에서 '물리 법칙의 재구성'으로 격상시킨 사건입니다.
배경과 맥락
이 기술은 Alibaba의 CogVideoX를 기반으로 하며, 단순한 생성 모델을 넘어 '지능형 마스킹' 프로세스를 결합했습니다. SAM2(Segment Anything Model 2)를 통해 객체를 정밀하게 분할하고, Gemini(VLM)를 통해 해당 객체가 사라졌을 때 주변 환경에 어떤 물리적 변화(예: 물체가 떨어짐, 위치가 바뀜)가 생길지 추론하여 'Quadmask'라는 특수 마스크를 생성합니다. 이는 생성형 AI가 시각적 패턴뿐만 아니라 물리적 논리까지 학습해야 함을 시사합니다.
업계 영향
VFX(시각효과) 산업의 작업 공정(Workflow)에 엄청난 변화를 가져올 것입니다. 과거에는 아티스트가 프레임 단위로 로토스코핑(Rotoscoping)을 하고 물리적 움직임을 수동으로 수정해야 했으나, VOID는 이를 자동화할 수 있습니다. 이는 헐리우드급 고비용 작업의 비용을 획기적으로 낮추며, 틱톡이나 유튜브와 같은 숏폼 크리에이터들에게도 영화 수준의 편집 도구를 제공하는 '편집의 민주화'를 가속화할 것입니다.
한국 시장 시사점
한국은 강력한 웹툰, 드라마, 영화 IP와 세계적인 수준의 VFX 기술력을 보유하고 있습니다. 국내 미디어 테크 스타트업들은 단순히 모델을 사용하는 것을 넘어, VOID와 같은 '물리 기반 인페인팅' 기술을 클라우드 기반 SaaS 형태로 구축하여 글로벌 콘텐츠 제작사에 공급하는 비즈니스 모델을 고려할 수 있습니다. 특히 게임 엔진(Unreal/Unity)과 결합된 자동화된 영상 에셋 생성 도구 개발은 매우 유망한 영역입니다.
이 글에 대한 큐레이터 의견
AI 큐레이터 의견: VOID의 등장은 '물리 법칙을 이해하는 생성형 AI'의 시대를 예고합니다. 기술적으로 가장 주목할 점은 모델 자체의 성능보다 Gemini와 SAM2를 결합하여 '물리적 영향권'을 정의한 'Reasoning Pipeline'에 있습니다. 이는 생성 모델의 한계인 '물리적 오류'를 외부의 지능형 모델로 보완하는 매우 영리한 아키텍처입니다.
스타트업 창업자라면 이 기술의 높은 연산 비용(A100급 GPU 필요)에 주목해야 합니다. 개별 사용자가 이 모델을 직접 돌리기는 어렵습니다. 따라서 이 모델을 API화하여, 사용자가 '지우고 싶은 물체'만 선택하면 물리적 결과물까지 완성해주는 '고급 영상 클린업 SaaS'를 구축하는 것이 가장 실행 가능한 전략입니다. 기술적 난이도가 높은 '물리적 일관성'을 해결해주는 서비스는 프리미엄 콘텐츠 시장에서 강력한 해자를 형성할 수 있습니다.
관련 뉴스
댓글
아직 댓글이 없습니다. 첫 댓글을 남겨보세요.