
Гонка за созданием видео с помощью ИИ достигла нового пика. В конце 2024 — начале 2025 годов на рынке появились две конкурентные модели, способные за считанные минуты генерировать реалистичные ролики со синхронизированным звуком: OpenAI Sora 2 и Google Veo 3.
Способность быстро производить правдоподобный видеоконтент меняет правила создания медиа и вызывает серьёзные опасения о том, насколько легко теперь будет подделывать реальность. Ожидаемый рост числа дипфейков — от примерно 500 тысяч в 2023 году до оценочно 8 миллионов к 2025 году — подчёркивает масштаб проблемы.
Sora 2 была представлена OpenAI 30 сентября 2025 года и была описана как «момент GPT-3.5 для видео». Модель акцентирована на создании коротких кинематографичных клипов с соблюдением физики и сохранением состояния объектов, а также на удобстве для социальных форматов.
В мобильном приложении Sora реализованы возможности по генерации роликов разной длительности и разрешения, синхронизации диалогов и эффектов, а также функция «камео», позволяющая вставлять в сцены загруженное изображение и голос пользователя после одноразовой верификации.
Запуск приложения привлёк массовое внимание: в первые дни количество установок росло десятками тысяч, а приложение быстро поднялось в чартах магазинов, что свидетельствует о высокой востребованности пользовательских инструментов генерации видео.
Veo 3 от Google был представлен на конференции I/O 20 мая 2025 года и одним из первых предложил нативную генерацию звука вместе с изображением, включая диалоги, фоновые шумы и эффекты, чтобы аудио соответствовало визуальному ряду.
Veo 3 ориентирован на более профессиональные сценарии: стандартная длина ролика составляет около восьми секунд с возможностью расширения до нескольких десятков секунд, в приложении Gemini доступно 720p, а через API — 1080p и более гибкие интеграции с инструментами редактирования.
В середине октября 2025 года Google выпустила обновлённую ветку Veo 3.1 с улучшениями звучания, более детальным управлением и повышенной стабильностью при конвертации изображений в видео. Обновление было направлено на усиление профессиональных возможностей платформы.
В сравнении обе системы демонстрируют высокий уровень фотореализма, но выделяются в разных областях. Sora 2 показала заметные улучшения в соблюдении физики и последовательности сцен, тогда как Veo 3 часто получают высокие оценки за кинополиранность и детализацию выражений лиц.
По части аудио Veo был среди первых с полноценной встроенной генерацией звука и часто признаётся более сильным для сложных нарративов. В то же время Sora начала автоматически добавлять музыку и атмосферные звуки и теперь также генерирует синхронизированную речь в рамках видео.
Обе платформы обычно требуют от двух до пяти минут на создание ролика, при этом Veo иногда работает немного быстрее, а Sora ценят за более быструю итерацию при тестировании многих вариантов.
При обработке текстовых указаний Veo чаще показывает лучшую точность и аккуратность в отображении надписей, тогда как Sora временами испытывает сложности с точным воспроизведением текста. Тем не менее обе модели лучше справляются с комплексными инструкциями, включая запреты на изменение отдельных элементов сцены.
Технические ограничения сохраняются: долгосрочная когерентность сюжета и точное воспроизведение сложных движений остаются проблемными — иногда возникают артефакты вроде «телепортации» объектов, смены одежды или резких перепадов освещения, что требует доработки на этапе постобработки.
Модель Sora сейчас распространяется по пригласительным и временно доступна бесплатно в ограниченных регионах, при этом ожидается введение платных опций и интеграция с платными подписками. В ряде стран доступна и платная про-версия с фиксированной месячной платой.
Veo 3 не является полностью бесплатным: у Google есть платные планы с поминутной тарификацией, включая режимы «fast» и «standard» с разной стоимостью за секунду и ограничениями по количеству генераций в сутки для базовых пакетов.
Развитие этих инструментов сопровождается серьёзными этическими и правовыми вызовами. Зафиксирован резкий рост случаев мошенничества с дипфейками, значительные финансовые убытки, а также случаи обхода защитных механизмов в короткие сроки после релизов моделей.
Исследования показывают, что обнаружение качественно сгенерированных видео остаётся сложной задачей для людей и автоматических систем: большая часть пользователей не способна надежно отличить дипфейк от оригинала, а специализированные детекторы теряют точность на реальных социальных данных.
Регуляторы начали реагировать: в мае 2025 года был принят закон, криминализирующий распространение несанкционированных интимных изображений, включая сгенерированные ИИ, и требующий удаления такого контента в установленные сроки. Ожидается, что в будущем могут появиться требования к меткам происхождения и водяным знакам для ИИ-контента.
По итогам тестов Sora 2 получает узкое преимущество за более плавные движения, лучшее соблюдение физических закономерностей и удобство для коротких социальных форматов. Veo 3 остаётся предпочтительным выбором для профессионалов, стремящихся к кинематографической точности и детализированной управляемости.
Для авторов короткого контента и социального видео Sora 2 предлагает гибкость, длинные по сравнению с конкурентами варианты длительности и встроенные опции персонализации. Для команд, работающих с рекламой или корпоративными интеграциями, Veo 3 обеспечивает более строгий контроль параметров и интеграцию с профессиональными инструментами.
Пространство генерации видео ИИ быстро развивается: появление новых обновлений и конкурентов может быстро изменить соотношение сил. Независимо от выбора, важной становится проверка происхождения материалов и внедрение механизмов маркировки, чтобы уменьшать риски злоупотреблений.


Комментариев