Netflix представил VOID — ИИ-модель для удаления объектов из видео с реконструкцией физики сцены

Новости технологий 06.04.2026

Компания Netflix объявила о запуске своей первой открытой модели искусственного интеллекта VOID (Video Object and Interaction Deletion), предназначенной для удаления объектов из видеозаписей с последующим реалистичным восстановлением сцены. Разработка уже доступна для пользователей и разработчиков на платформах Hugging Face и GitHub по лицензии Apache 2.0.

Netflix VOID ИИ модель удаление объектов из видео реконструкция сцены

Главной особенностью VOID является способность учитывать причинно-следственные связи внутри сцены. В отличие от традиционных инструментов, которые ограничиваются ретушью удалённого объекта и базовой коррекцией фона, новая модель анализирует физические взаимодействия и пересобирает сцену так, как если бы удалённого элемента изначально не существовало.

Ключевую роль в этом процессе играет технология quadmask — четырёхкомпонентная маска, которая охватывает не только сам объект, но и зоны его влияния. Это позволяет корректно обрабатывать ситуации, где удаляемый элемент взаимодействует с другими объектами — например, поддерживает их или изменяет их положение. Для более точного анализа используются мультимодальные возможности модели Gemini, а также система сегментации SAM2.

Практические примеры демонстрируют возможности технологии. В одном случае система преобразует сцену с лобовым столкновением автомобилей в видео с одним транспортным средством, корректируя траекторию движения и полностью устраняя последствия аварии — дым, обломки и огонь. В другом примере после удаления человека, прыгающего в бассейн, вода выглядит так, как будто никакого воздействия на неё не было.

С технической точки зрения VOID построена на базе видеодиффузионного трансформера CogVideoX-Fun с 5 миллиардами параметров, разработанного подразделением Alibaba. Обучение проводилось на синтетических видеоданных, созданных с использованием физически корректных симуляций в Blender (датасет HUMOTO) и движке Kubric от Google. Такой подход позволил сформировать эталонные пары видео «с объектом» и «без объекта» с корректной физикой взаимодействий.

Для обучения модели использовались вычислительные мощности на базе GPU A100 с объёмом памяти 80 ГБ, а для её запуска требуется видеокарта с не менее чем 40 ГБ видеопамяти, что ориентирует продукт преимущественно на профессиональное использование.

В ходе пользовательского тестирования VOID показала значительное преимущество над конкурентами: её выбрали 64,8% участников, тогда как ближайший аналог от Runway получил лишь 18,4%. Также модель сравнивалась с рядом решений, включая ProPainter, DiffuEraser и другие инструменты редактирования видео.

Важно отметить, что это первый случай, когда Netflix публикует ИИ-модель в открытом доступе. Помимо весов модели, компания предоставила полный инструментарий для работы: код, пайплайн генерации обучающих данных и интерфейс для редактирования масок.

Развитие подобных технологий может оказать заметное влияние на индустрию видеопроизводства и IPTV. Возможности по автоматическому редактированию сцен, устранению нежелательных объектов и постобработке контента открывают новые горизонты для создания и адаптации видеоматериалов, включая локализацию и персонализацию контента.

← Sharavoz TV добавил более ста новых фильмов... RU.TV запускает RU.TV Kids — детский телекан... →

Netflix Стриминговый сервис VOD iptv

← К списку новостей

Ирина Петрова

Кем написана эта новость

Следит за новостями рынка телевидения и технологий, чтобы первыми делиться важными изменениями. На сайте отвечает за раздел “Новости”, публикуя свежие анонсы, релизы и обновления провайдеров.