
Китайская исследовательская команда Kling AI при поддержке компании Kuaishou представила «Video O1» — единый подход к созданию и редактированию видео, в котором генерация и постобработка объединены в одной архитектуре.
Проект ставит целью снизить фрагментацию рабочих процессов, характерную для отдельных инструментов, и вводит мультимодальный визуальный язык (MVL), позволяющий управлять пиксельными изменениями через естественный язык.
Вместо использования отдельных моделей для генерации и редактирования система объединяет создание, правку и расширение кадров в одном конвейере, что, по заявлению разработчиков, уменьшает необходимость переключения между специализированными инструментами.
Video O1 поддерживает преобразования «текст–видео», «изображение–видео» и задачи продления сцены без явной смены модели, обеспечивая сквозной поток операций внутри одной системы.
Ключевым элементом является MVL — слой взаимодействия, который совместно анализирует текстовые команды и визуальные сигналы, улучшая понимание пространных инструкций и сложных намерений пользователя.
Такой подход позволяет системе не только генерировать кадры, но и выполнять целевые правки — изменять отдельные объекты при сохранении окружающего контекста, что снижает накопление ошибок при переносе активов между разными моделями.
Некоторые аналитики сравнивают возможности Video O1 с подходами точного семантического редактирования, отмечая, что модель обеспечивает более детальное управление содержимым: от удаления прохожих до изменения погодных условий по простым текстовым запросам.
Разработчики позиционируют систему как замену трудоёмким операциям ручной ротоскопии, маскинга и ключевых кадров: пользователю достаточно задать инструкцию, и модель выполнит соответствующую визуальную корректировку.
Для поддержания временной согласованности в динамичных сценах в системе реализована технология «All‑in‑One Reference», которая фиксирует идентичность персонажей и объектов и снижает эффект мерцания или искажения идентичности между кадрами.
Релиз Video O1 совпал с серией анонсов от других игроков рынка, включая новые версии продуктов Runway, Tencent и ByteDance; Kling AI опубликовала внутренние бенчмарки, где заявила значительно более высокую эффективность в ряде задач по сравнению с конкурентами.
Однако представленные показатели основаны на внутренних тестах компании, тогда как конкурирующие решения от Tencent и ByteDance доступны с открытыми весами; для подтверждения заявленного преимущества потребуется независимая верификация в реальных производственных условиях.
Коммерческая модель продукта построена как закрытый SaaS: доступ к Video O1 предоставляется в «Pro Mode» на основе тарификации по вычислительной нагрузке — по информации разработчиков, стандартная генерация оценивается в 8 кредитов в секунду, а использование видеовходов — в 12 кредитов в секунду.
Бизнес‑подразделение Kling AI указывало на коммерческие результаты: в третьем квартале было заявлено о выручке в 300 миллионов юаней. Компания ориентируется на профессиональных медиапроизводителей и рассчитывает оправдать премиум‑цену единым инструментом для идейной работы, генерации и последующей доработки видео.


Вот это действительно топовая новость. Пойду посмотрю, что там