Конкурент Sora осваивает сложное редактирование видео

Конкурент Sora осваивает сложное редактирование видео


98
20 поделились, 98 баллы

Китайская компания Kuaishou представила третью версию своей модели для генерации видео — Kling 3.0, позиционируемую как конкурент Sora. Модель ориентирована на создание коротких кинематографических клипов и получила улучшенную синхронизацию аудио и более точный контроль за элементами сцены.

Разработчики описывают Kling 3.0 как систему, обученную на единой мультимодальной платформе, которая обрабатывает нативный ввод и вывод в разных форматах. Интеграция звука и механизмы контроля согласованности объектов и персонажей должны придавать сгенерированному контенту большую цельность и реализм.

Модель агрегирует несколько задач: преобразование текста, изображений и референсов в видео, добавление или удаление контента, а также редактирование и трансформацию существующих клипов. Длина роликов увеличена до 15 секунд, при этом разработчики заявляют о более гибком управлении кадрами и лучшем соблюдении заданных подсказок. Визуальная реалистичность улучшена: движения персонажей стали более выразительными и динамичными.

Функция Multi‑Shot автоматически анализирует сценарную подсказку, выявляет структуру сцен и типы планов, а затем предлагает композицию и ракурсы камеры. Система поддерживает шаблоны монтажа — от классического «план‑контрплан» в диалогах до параллельного повествования и озвучивания. По словам разработчиков, это упрощает получение кинематографичных фрагментов в один цикл генерации.

Kling 3.0 принимает несколько референс‑изображений и исходные видеозаписи в качестве элементов сцены. Модель фиксирует ключевые характеристики персонажей, объектов и окружения, сохраняя их неизменными при движении камеры и развитии сюжета.

Аудиокомпонент модели доработан: речь синхронизируется с движением лица точнее, а в диалоговых сценах пользователь может вручную указывать говорящего. Поддерживаемые языки расширены и включают китайский, английский, японский, корейский и испанский; также улучшена обработка диалектов и акцентов.

Команда обновила свою мультимодальную модель O1 до варианта Video 3.0 Omni. Пользователи могут загружать аудиозаписи длительностью от трёх секунд для извлечения голоса или записывать трёх‑восьмисекундные видео персонажа для фиксации его ключевых характеристик.

На фоне появления Kling 3.0 развивается конкуренция вокруг OpenAI Sora, представленного в феврале 2024 года и выпущенного в публичный доступ лишь в декабре того же года. Sora быстро привлёк внимание: iOS‑приложение установили более 100 тысяч раз в первый день, а число загрузок превысило миллион быстрее, чем у ChatGPT, но затем интерес снизился.

Снижение популярности объясняют рядом факторов: усилением конкуренции со стороны моделей Google и Meta, появлением новых решений от независимых стартапов, а также правовыми ограничениями. Услуга столкнулась с проблемами из‑за генерации роликов с узнаваемыми персонажами, что вынудило ужесточить правила; несмотря на достигнутое соглашение со студиями, скачивания не вернулись к прежним показателям. Кроме того, платформу затронула волна дипфейков отдельных публичных фигур, что усугубило репутационные риски.


Понравилось? Поделитесь с друзьями!

98
20 поделились, 98 баллы

Какова ваша реакция?

Чего? Чего?
7
Чего?
Плачу Плачу
4
Плачу
Прикол Прикол
3
Прикол
Ого Ого
2
Ого
Злой Злой
1
Злой
Ржака Ржака
10
Ржака
Ух, ты! Ух, ты!
9
Ух, ты!
Ужас Ужас
7
Ужас
Супер Супер
4
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend