
SenseTime — одна из наиболее устоявшихся компаний в китайском секторе искусственного интеллекта, зародившаяся более десяти лет назад и пережившая несколько циклов технологических изменений.
Компания выросла из лаборатории Китайского университета Гонконга и была одним из первых игроков, коммерчески внедривших компьютерное зрение в промышленном масштабе. При этом работа в сегменте B2B часто требовала глубокой кастомизации и длительных циклов разработки.
Появление ChatGPT и других больших языковых моделей перестроило отрасль вокруг генеративного ИИ. Благодаря ранним инвестициям в вычислительную инфраструктуру SenseTime удалось получить новый импульс развития.
По годовому отчёту за 2024 год, генерирующий ИИ принёс компании 2,4 млрд юаней (примерно 336 млн долл. США) и вырос в доле выручки с 34,8% в 2023 году до 63,7% в 2024 году, став главным направлением бизнеса.
После трёх лет быстрого прогресса в области больших моделей возникает прагматичный вопрос: как ИИ выйдет в физический мир и станет практической силой, меняющей способы работы и жизни людей.
Этот вопрос лежит в основе следующей главы для SenseTime. В 2024—2025 годах в гонку за воплощённый интеллект вступила новая компания ACE Robotics, которую возглавил сооснователь и исполнительный директор SenseTime Ван Сяоган; он стал председателем ACE Robotics.
Ниже приведён сокращённый и отредактированный перевод интервью, объединённый для ясности.
По словам Вана, создание ACE Robotics продиктовано двумя задачами: промышленной масштабируемостью и сменой технологической парадигмы. Компания ставит целью разработку «мозга», понимающего законы физического мира, и создание интегрированных аппаратно‑программных продуктов для реального использования.
Отраслевой сдвиг уже заметен: компании, работающие в области воплощённого интеллекта, постепенно заключают крупные контракты и выводят роботов на промышленные объекты в таких городах, как Шэньчжэнь, Шанхай и Сучжоу. По данным за 2024 год, объём рынка воплощённого интеллекта в Китае превысил 800 млрд юаней (около 112 млрд долл. США), и на нём появилось множество стартапов.
Традиционный подход к воплощённому интеллекту имеет важный недостаток: многие решения ориентированы на конкретную форму робота и учат общую модель на данных, собранных с этого тела, что плохо обобщается на другие морфологии. Аналогично тому, как у людей и животных нет «одного мозга» для всех форм, роботы с разной конструкцией не делят универсальную модель.
ACE Robotics предлагает человеко‑ориентированную парадигму: сначала изучать, как люди взаимодействуют с физическим миром — как мы двигаемся, хватаем и манипулируем предметами. Для этого используются носимые датчики и камеры со стороны наблюдения, собирающие мультимодальные данные — зрение, тактильные сигналы и информацию о приложенных силах.
Эти мультимодальные данные подаются в модель мира, которая учится понимать физику и логику человеческого поведения. Зрелая модель мира способна даже подсказывать, как должна выглядеть аппаратная часть робота, чтобы его форма естественно соответствовала задаче и окружению.
Некоторые компании, включая крупные игроки, в последнее время смещают фокус на обучение с использованием камер первого лица. Однако такие подходы обычно фиксируют только визуальную информацию и не интегрируют ключевые каналы вроде силы, тактильных ощущений и трения, которые необходимы для полноценного взаимодействия с объектами.
Чтобы преодолеть этот пробел, команда профессора Лю Цзивея создала набор данных EgoLife, содержащий более 300 часов записи человеческой активности с камер первого и третьего лица. Модели, обученные на этом наборе, продемонстрировали способность решать более сложные задачи движений, в отличие от существующих датасетов с тривиальными действиями.
Визуальной информации часто недостаточно для контактных задач: роботу проще сымитировать движение без контакта, чем уверенно перемещать бутылку или закручивать винт. Поэтому интеграция тактильных и силовых данных считается критически важной для реальных манипуляций.
На практике ACE Robotics сотрудничает с партнёрами по аппаратной части и определяет стандарты дизайна. Например, в работе с квадрупедами традиционные камеры устанавливали слишком низко и узко, что мешало распознать светофор или пройти перекрёсток; совместно с производителем камер была разработана панорамная камера с обзором 360 градусов для решения этой проблемы.
Компания также решает инженерные задачи, важные для уличного и промышленного применения, такие как защита от воды, снижение вычислительных затрат и увеличение автономности батарей. Эти аспекты считаются ключевыми барьерами для массового внедрения роботов вне лабораторий.
Модель сотрудничества ACE строится вокруг сильной «мозговой» части — моделей, навигации и операционных возможностей. SenseTime развивала масштабные программные системы, а ACE использует инвестиции в производителей компонентов, чтобы выстраивать экосистему: совместная разработка аппаратуры при открытом слое модельного обеспечения и предоставлении базовых моделей и учебных ресурсов.
Накопленные системы сбора данных и жёсткие требования к безопасности, сформированные в проектах автономного вождения, также применимы для повышения надёжности роботов. Проверенные механизмы «циклов данных» ускоряют итерации и улучшение продуктов.
Tехническая платформа Kairos 3.0 включает три ключевых компонента: мультимодальное понимание и слияние данных, синтетическую сеть и предсказание поведения. Первый компонент объединяет изображения, видео, текст, позы камер, 3D‑траектории объектов и тактильные данные, что даёт модели понимание физики движения и взаимодействия.
Синтетическая сеть умеет генерировать видео, где роботы выполняют различные манипуляции, изменять типы роботов и вид окружения, что помогает моделям учиться на разнообразных сценариях. Модуль предсказания поведения позволяет системе прогнозировать следующий шаг робота после получения инструкции, замыкая цикл от восприятия к действию.
Человеко‑ориентированный подход повышает эффективность данных и обобщаемость моделей, поскольку в качестве среды используются реальные жилые и рабочие пространства людей, а не искусственно ограниченные условия. Включение эргономики, тактильности и информации о силах ускоряет обучение и даёт более реалистичные входные данные по сравнению с чисто машинно‑центричными методами.
Первое широкое применение ожидается в квадрупедах — «роботах‑собаках». Вместо простой дистанционной телеметрии такие роботы получат автономную навигацию и пространственное понимание. Интеграция навигационной технологии ACE позволит им работать в связке с платформой управления, выполнять команды карт, реагировать на мультимодальные и голосовые сигналы, а также обнаруживать людей в беде и аномалии на маршруте.
В связке с платформой визуального мониторинга эти роботы смогут распознавать конфликты, скопления мусора, свободно гуляющих животных или несанкционированные дроны и отправлять данные в центры управления в реальном времени. При поддержке облачной системы управления компания ожидает масштабируемого внедрения в инспекционные и мониторинговые задачи в течение одного‑двух лет.
В среднесрочной перспективе основным коммерческим направлением могут стать складская логистика и автоматизация сортировки и упаковки. В отличие от заводов, склады имеют более стабильные операционные шаблоны, а крупномасштабные данные об окружении позволяют моделям обобщать поведение на большое количество товарных позиций.
В долгосрочной перспективе целью остаются домашние роботы, где ключевым ограничением остаются вопросы безопасности при столкновениях и обращении с предметами. Некоторые компании уже собирают большие наборы планировок жилых помещений, чтобы подготовить модели к работе в домашних условиях.
Финансовая ситуация компании также влияет на стратегию: в первой половине 2025 года SenseTime зафиксировала чистый убыток в размере 1,162 млрд юаней (примерно 163 млн долл. США), что на 50% меньше по сравнению с тем же периодом прошлого года, при продолжающемся росте расходов на НИОКР. В таких условиях компания ищет более устойчивые и практические пути роста.
По оценке руководства, прорыв будет не в одном шаге к общей искусственной когнитивности, а в создании роботов, которые учатся повторно использовать навыки через взаимодействие с реальным миром и решать конкретные физические задачи.


Комментариев