Компания Netflix объявила о запуске своей первой открытой модели искусственного интеллекта VOID (Video Object and Interaction Deletion), предназначенной для удаления объектов из видеозаписей с последующим реалистичным восстановлением сцены. Разработка уже доступна для пользователей и разработчиков на платформах Hugging Face и GitHub по лицензии Apache 2.0.

Главной особенностью VOID является способность учитывать причинно-следственные связи внутри сцены. В отличие от традиционных инструментов, которые ограничиваются ретушью удалённого объекта и базовой коррекцией фона, новая модель анализирует физические взаимодействия и пересобирает сцену так, как если бы удалённого элемента изначально не существовало.
Ключевую роль в этом процессе играет технология quadmask — четырёхкомпонентная маска, которая охватывает не только сам объект, но и зоны его влияния. Это позволяет корректно обрабатывать ситуации, где удаляемый элемент взаимодействует с другими объектами — например, поддерживает их или изменяет их положение. Для более точного анализа используются мультимодальные возможности модели Gemini, а также система сегментации SAM2.
Практические примеры демонстрируют возможности технологии. В одном случае система преобразует сцену с лобовым столкновением автомобилей в видео с одним транспортным средством, корректируя траекторию движения и полностью устраняя последствия аварии — дым, обломки и огонь. В другом примере после удаления человека, прыгающего в бассейн, вода выглядит так, как будто никакого воздействия на неё не было.
С технической точки зрения VOID построена на базе видеодиффузионного трансформера CogVideoX-Fun с 5 миллиардами параметров, разработанного подразделением Alibaba. Обучение проводилось на синтетических видеоданных, созданных с использованием физически корректных симуляций в Blender (датасет HUMOTO) и движке Kubric от Google. Такой подход позволил сформировать эталонные пары видео «с объектом» и «без объекта» с корректной физикой взаимодействий.
Для обучения модели использовались вычислительные мощности на базе GPU A100 с объёмом памяти 80 ГБ, а для её запуска требуется видеокарта с не менее чем 40 ГБ видеопамяти, что ориентирует продукт преимущественно на профессиональное использование.
В ходе пользовательского тестирования VOID показала значительное преимущество над конкурентами: её выбрали 64,8% участников, тогда как ближайший аналог от Runway получил лишь 18,4%. Также модель сравнивалась с рядом решений, включая ProPainter, DiffuEraser и другие инструменты редактирования видео.
Важно отметить, что это первый случай, когда Netflix публикует ИИ-модель в открытом доступе. Помимо весов модели, компания предоставила полный инструментарий для работы: код, пайплайн генерации обучающих данных и интерфейс для редактирования масок.
Развитие подобных технологий может оказать заметное влияние на индустрию видеопроизводства и IPTV. Возможности по автоматическому редактированию сцен, устранению нежелательных объектов и постобработке контента открывают новые горизонты для создания и адаптации видеоматериалов, включая локализацию и персонализацию контента.