
С запуском новых систем для генерации видео наблюдается качественный рывок в этой области. Создатели активно экспериментируют с инструментами, а компании интегрируют их в маркетинговые и производственные процессы. При этом многие закрытые платформы собирают данные пользователей и наносят видимые или невидимые метки на ролики, что вызывает вопросы приватности и контроля.
В таких условиях открытые модели предлагают альтернативу: они дают больше контроля, позволяют запускать инференс локально и избегают централизованного сбора данных. В этой статье приведён обзор пяти заметных открытых моделей для генерации видео с техническими примечаниями и демо-материалами, которые помогают оценить их возможности.
Wan 2.2 представляет собой эволюцию диффузионной архитектуры с использованием подхода Mixture-of-Experts, при котором этапы шумоподавления распределяются между специализированными «экспертами». Команда также ввела эстетические метки (освещение, композиция, контраст, цветовой тон) для более управляемого «кинематографического» вида. По итогам тренировок модель получила заметное увеличение обучающей выборки и улучшения в движении, семантике и визуальной составляющей.
Модель Wan 2.2 позиционируется как одна из ведущих как среди открытых, так и закрытых систем. Для неё доступны реализации для задач «текст→видео» и «изображение→видео», а также примеры использования и демонстрации.
Hunyuan Video — крупная модель (~13 млрд параметров), обученная в пространственно-временном латентном пространстве с применением казуального 3D-автоэнкодера. Трансформер в ней использует архитектуру «двухпотоковая → однопотоковая»: текстовые и видео-токены сначала обрабатываются отдельно, а затем объединяются, а текстовый модуль основан на декодерной мультимодальной модели для лучшего следования инструкциям и передачи деталей. Экосистема вокруг модели включает код, веса, режимы вывода на одной и нескольких GPU, оптимизации для низкой точности и инструменты для бенчмаркинга.
Mochi 1 — модель объёмом около 10 млрд параметров на базе асимметричного диффузионного трансформера и специализированного асимметричного VAE. VAE сжимает видео в латент с высоким разрешением по пространству и сокращением по времени, что повышает визуальную ёмкость представления, при этом в качестве текстового энкодера используется крупная модель T5. Модель выпущена под лицензией Apache 2.0 и по предварительным оценкам демонстрирует высокую точность движения и хорошее следование промптам.
LTX Video — генератор «изображение→видео», построенный на основе диффузионного трансформера и оптимизированный для скорости. Он способен выдавать ролики с высокой частотой кадров (например, 30 fps при разрешении порядка 1216×704) быстрее реального времени и обучен на большой разнообразной коллекции данных для баланса между движением и качеством изображения. В комплект входят варианты моделей различного размера, квантованные сборки, апскейлеры по пространству и времени, а также готовые рабочие процессы для ускорения итераций.
CogVideoX-5B является более высокой по качеству версией относительно базовой 2B-модели и обычно запускается в формате bfloat16. Она генерирует короткие клипы (примерно 6 секунд) с фиксированным разрешением 720×480 и поддерживает длинные текстовые подсказки. Документация для модели описывает требования по видеопамяти для одно- и многопроцессорного вывода, типичные времена выполнения и влияние оптимизаций на память и скорость.
Если вам важен «кинематографический» внешний вид и вы хотите получить 720p при 24 fps на одном мощном GPU, стоит рассмотреть Wan 2.2 как основной вариант для таких задач. Он ориентирован на визуальную стилизацию и управляемость эстетики.
Для универсальных задач текст→видео и изображение→видео с сильной поддержкой движений и полного набора инструментов лучшим выбором будет крупная модель вроде Hunyuan Video. Она обеспечивает широкую совместимость с инфраструктурой инференса и оптимизациями для производительности.
Если приоритет — разрешённая и модифицируемая SOTA-превью-модель с современной архитектурой и акцентом на качество движения, стоит обратить внимание на Mochi 1. Она распространяется под либеральной лицензией и имеет исследовательскую дорожную карту.
Когда критична скорость и возможность оперативного редактирования изображение→видео с апскейлерами, LTX Video предлагает набор вариантов и рабочие процессы, заточенные под быстрые итерации и реалтайм-инференс. Это подходящий выбор для интерактивной работы и прототипирования.
Для компактных, эффективно работающих текст→видео решений с поддержкой квантования и оптимизаций по памяти подходит CogVideoX-5B, который хорошо показывает себя при генерации коротких клипов и при ограниченных ресурсах видеопамяти.
Abid Ali Awan — сертифицированный специалист по данным, который занимается разработкой моделей машинного обучения и созданием контента и технических публикаций. У него есть степень магистра в области управления технологиями и бакалавр в области телекоммуникационной инженерии. В своих работах он ориентируется на создание приложений ИИ, в том числе проектов на базе графовых нейронных сетей для поддержки студентов с психическими проблемами.


Комментариев