
Китайская компания Kuaishou представила третью версию своей модели для генерации видео — Kling 3.0, позиционируемую как конкурент Sora. Модель ориентирована на создание коротких кинематографических клипов и получила улучшенную синхронизацию аудио и более точный контроль за элементами сцены.
Разработчики описывают Kling 3.0 как систему, обученную на единой мультимодальной платформе, которая обрабатывает нативный ввод и вывод в разных форматах. Интеграция звука и механизмы контроля согласованности объектов и персонажей должны придавать сгенерированному контенту большую цельность и реализм.
Модель агрегирует несколько задач: преобразование текста, изображений и референсов в видео, добавление или удаление контента, а также редактирование и трансформацию существующих клипов. Длина роликов увеличена до 15 секунд, при этом разработчики заявляют о более гибком управлении кадрами и лучшем соблюдении заданных подсказок. Визуальная реалистичность улучшена: движения персонажей стали более выразительными и динамичными.
Функция Multi‑Shot автоматически анализирует сценарную подсказку, выявляет структуру сцен и типы планов, а затем предлагает композицию и ракурсы камеры. Система поддерживает шаблоны монтажа — от классического «план‑контрплан» в диалогах до параллельного повествования и озвучивания. По словам разработчиков, это упрощает получение кинематографичных фрагментов в один цикл генерации.
Kling 3.0 принимает несколько референс‑изображений и исходные видеозаписи в качестве элементов сцены. Модель фиксирует ключевые характеристики персонажей, объектов и окружения, сохраняя их неизменными при движении камеры и развитии сюжета.
Аудиокомпонент модели доработан: речь синхронизируется с движением лица точнее, а в диалоговых сценах пользователь может вручную указывать говорящего. Поддерживаемые языки расширены и включают китайский, английский, японский, корейский и испанский; также улучшена обработка диалектов и акцентов.
Команда обновила свою мультимодальную модель O1 до варианта Video 3.0 Omni. Пользователи могут загружать аудиозаписи длительностью от трёх секунд для извлечения голоса или записывать трёх‑восьмисекундные видео персонажа для фиксации его ключевых характеристик.
На фоне появления Kling 3.0 развивается конкуренция вокруг OpenAI Sora, представленного в феврале 2024 года и выпущенного в публичный доступ лишь в декабре того же года. Sora быстро привлёк внимание: iOS‑приложение установили более 100 тысяч раз в первый день, а число загрузок превысило миллион быстрее, чем у ChatGPT, но затем интерес снизился.
Снижение популярности объясняют рядом факторов: усилением конкуренции со стороны моделей Google и Meta, появлением новых решений от независимых стартапов, а также правовыми ограничениями. Услуга столкнулась с проблемами из‑за генерации роликов с узнаваемыми персонажами, что вынудило ужесточить правила; несмотря на достигнутое соглашение со студиями, скачивания не вернулись к прежним показателям. Кроме того, платформу затронула волна дипфейков отдельных публичных фигур, что усугубило репутационные риски.


Комментариев