
Компания Kling AI объявила о переходе к «эре 3.0» с единой видеомоделью, которая пока недоступна широкой публике и демонстрируется ограниченной группе пользователей. В официальном анонсе говорится, что ранний доступ открыт выборочно; сообщение было опубликовано 31 января 2026 года.
На продуктовой стороне VIDEO 3.0 позиционируется как объединение возможностей предыдущих линий — VIDEO 2.6 и VIDEO 01 — в единую семью моделей. Главная цель — предоставить создателям больше контроля без необходимости собирать сложные конвейеры редактирования из нескольких инструментов.
Kling обещает более длинные одноразовые генерации: выходные клипы могут достигать до 15 секунд с гибким диапазоном от 3 до 15 секунд. Это, по словам компании, позволяет создавать более цельные нарративные эпизоды, а не склеивать короткие фрагменты вручную.
Ключевая функция — Multi‑Shot, представленная как рабочий процесс в стиле «AI Director» для сторибординга. Модель должна уметь интерпретировать покрытие сцены и шаблоны кадров по подсказке, автоматически подстраивая углы и композицию, от простых диалоговых планов до более сложных последовательностей.
Kling делает акцент на устойчивости образа — важном улучшении для преобразования изображений в видео и работы по образцу. Система умеет закреплять «ключевые элементы» персонажа или сцены, чтобы движение камеры и развитие сцены не вели к искажению внешности.
В решении предусмотрена поддержка многокадровых и видео‑референсов как «Элементов», то есть повторно используемых якорей персонажей или объектов, которые можно переносить в новые генерации для сохранения преемственности.
Аудио также заявлено как важный компонент релиза: VIDEO 3.0 расширяет нативный вывод звука и вводит ссылку на голос персонажа для уменьшения неоднозначности в сценах с несколькими действующими лицами. Компания указывает на поддержку нескольких языков, включая английский, китайский, японский, корейский и испанский.
Кроме звука, модель получает улучшенную генерацию читаемого текста — полезную для вывесок, субтитров и рекламных оформлений, где раньше часто возникали проблемы с разборчивостью букв и символов. Kling позиционирует это как шаг к использованию системы в коммерческой и маркетинговой продукции.
Вариант VIDEO 3.0 Omni ориентирован на работу с референсами: он должен повышать согласованность образов, точность выполнения подсказок и стабильность результатов по сравнению с прежними референсными моделями. «Элементы 3.0» расширяются за счёт включения видео‑референсов с визуальным и звуковым захватом для извлечения признаков внешности и голоса.
В сторибординговом потоке Kling предлагает более детальные настройки кадров: длительность, размер плана, перспективу, содержательное наполнение и движение камеры для каждого кадра. Это направлено на более плавные переходы и структурированные многокадровые последовательности, сокращая потребность в ручном монтаже.
С корпоративной точки зрения релиз описывается как архитектурный шаг — создание нативного фреймворка для многозадачного видеогенератора с кросс‑модальным моделированием аудио и системой референсов для смешивания и повторного использования персонажей. Ставка компании — пользователи хотят более длинные и цельные сцены с согласованными персонажами и интегрированным звуком при меньшем числе внешних шагов.
На данный момент доступ к новинке ограничен превью для выбранных пользователей; широкое распространение, по планам Kling, ожидается позже. В анонсе это представлено как дорожная карта к единой «видео‑операционной системе», объединяющей длинные генерации, Multi‑Shot сторибординг, стабильные референсы персонажей и интегрированное аудио.


Комментариев