SenseTime углубляет развитие воплощённого интеллекта совместно с ACE Robotics

SenseTime углубляет развитие воплощённого интеллекта совместно с ACE Robotics


127
23 поделились, 127 баллы

SenseTime — одна из наиболее устоявшихся компаний в китайском секторе искусственного интеллекта, зародившаяся более десяти лет назад и пережившая несколько циклов технологических изменений.

Компания выросла из лаборатории Китайского университета Гонконга и была одним из первых игроков, коммерчески внедривших компьютерное зрение в промышленном масштабе. При этом работа в сегменте B2B часто требовала глубокой кастомизации и длительных циклов разработки.

Появление ChatGPT и других больших языковых моделей перестроило отрасль вокруг генеративного ИИ. Благодаря ранним инвестициям в вычислительную инфраструктуру SenseTime удалось получить новый импульс развития.

По годовому отчёту за 2024 год, генерирующий ИИ принёс компании 2,4 млрд юаней (примерно 336 млн долл. США) и вырос в доле выручки с 34,8% в 2023 году до 63,7% в 2024 году, став главным направлением бизнеса.

После трёх лет быстрого прогресса в области больших моделей возникает прагматичный вопрос: как ИИ выйдет в физический мир и станет практической силой, меняющей способы работы и жизни людей.

Этот вопрос лежит в основе следующей главы для SenseTime. В 2024—2025 годах в гонку за воплощённый интеллект вступила новая компания ACE Robotics, которую возглавил сооснователь и исполнительный директор SenseTime Ван Сяоган; он стал председателем ACE Robotics.

Ниже приведён сокращённый и отредактированный перевод интервью, объединённый для ясности.

По словам Вана, создание ACE Robotics продиктовано двумя задачами: промышленной масштабируемостью и сменой технологической парадигмы. Компания ставит целью разработку «мозга», понимающего законы физического мира, и создание интегрированных аппаратно‑программных продуктов для реального использования.

Отраслевой сдвиг уже заметен: компании, работающие в области воплощённого интеллекта, постепенно заключают крупные контракты и выводят роботов на промышленные объекты в таких городах, как Шэньчжэнь, Шанхай и Сучжоу. По данным за 2024 год, объём рынка воплощённого интеллекта в Китае превысил 800 млрд юаней (около 112 млрд долл. США), и на нём появилось множество стартапов.

Традиционный подход к воплощённому интеллекту имеет важный недостаток: многие решения ориентированы на конкретную форму робота и учат общую модель на данных, собранных с этого тела, что плохо обобщается на другие морфологии. Аналогично тому, как у людей и животных нет «одного мозга» для всех форм, роботы с разной конструкцией не делят универсальную модель.

ACE Robotics предлагает человеко‑ориентированную парадигму: сначала изучать, как люди взаимодействуют с физическим миром — как мы двигаемся, хватаем и манипулируем предметами. Для этого используются носимые датчики и камеры со стороны наблюдения, собирающие мультимодальные данные — зрение, тактильные сигналы и информацию о приложенных силах.

Эти мультимодальные данные подаются в модель мира, которая учится понимать физику и логику человеческого поведения. Зрелая модель мира способна даже подсказывать, как должна выглядеть аппаратная часть робота, чтобы его форма естественно соответствовала задаче и окружению.

Некоторые компании, включая крупные игроки, в последнее время смещают фокус на обучение с использованием камер первого лица. Однако такие подходы обычно фиксируют только визуальную информацию и не интегрируют ключевые каналы вроде силы, тактильных ощущений и трения, которые необходимы для полноценного взаимодействия с объектами.

Чтобы преодолеть этот пробел, команда профессора Лю Цзивея создала набор данных EgoLife, содержащий более 300 часов записи человеческой активности с камер первого и третьего лица. Модели, обученные на этом наборе, продемонстрировали способность решать более сложные задачи движений, в отличие от существующих датасетов с тривиальными действиями.

Визуальной информации часто недостаточно для контактных задач: роботу проще сымитировать движение без контакта, чем уверенно перемещать бутылку или закручивать винт. Поэтому интеграция тактильных и силовых данных считается критически важной для реальных манипуляций.

На практике ACE Robotics сотрудничает с партнёрами по аппаратной части и определяет стандарты дизайна. Например, в работе с квадрупедами традиционные камеры устанавливали слишком низко и узко, что мешало распознать светофор или пройти перекрёсток; совместно с производителем камер была разработана панорамная камера с обзором 360 градусов для решения этой проблемы.

Компания также решает инженерные задачи, важные для уличного и промышленного применения, такие как защита от воды, снижение вычислительных затрат и увеличение автономности батарей. Эти аспекты считаются ключевыми барьерами для массового внедрения роботов вне лабораторий.

Модель сотрудничества ACE строится вокруг сильной «мозговой» части — моделей, навигации и операционных возможностей. SenseTime развивала масштабные программные системы, а ACE использует инвестиции в производителей компонентов, чтобы выстраивать экосистему: совместная разработка аппаратуры при открытом слое модельного обеспечения и предоставлении базовых моделей и учебных ресурсов.

Накопленные системы сбора данных и жёсткие требования к безопасности, сформированные в проектах автономного вождения, также применимы для повышения надёжности роботов. Проверенные механизмы «циклов данных» ускоряют итерации и улучшение продуктов.

Tехническая платформа Kairos 3.0 включает три ключевых компонента: мультимодальное понимание и слияние данных, синтетическую сеть и предсказание поведения. Первый компонент объединяет изображения, видео, текст, позы камер, 3D‑траектории объектов и тактильные данные, что даёт модели понимание физики движения и взаимодействия.

Синтетическая сеть умеет генерировать видео, где роботы выполняют различные манипуляции, изменять типы роботов и вид окружения, что помогает моделям учиться на разнообразных сценариях. Модуль предсказания поведения позволяет системе прогнозировать следующий шаг робота после получения инструкции, замыкая цикл от восприятия к действию.

Человеко‑ориентированный подход повышает эффективность данных и обобщаемость моделей, поскольку в качестве среды используются реальные жилые и рабочие пространства людей, а не искусственно ограниченные условия. Включение эргономики, тактильности и информации о силах ускоряет обучение и даёт более реалистичные входные данные по сравнению с чисто машинно‑центричными методами.

Первое широкое применение ожидается в квадрупедах — «роботах‑собаках». Вместо простой дистанционной телеметрии такие роботы получат автономную навигацию и пространственное понимание. Интеграция навигационной технологии ACE позволит им работать в связке с платформой управления, выполнять команды карт, реагировать на мультимодальные и голосовые сигналы, а также обнаруживать людей в беде и аномалии на маршруте.

В связке с платформой визуального мониторинга эти роботы смогут распознавать конфликты, скопления мусора, свободно гуляющих животных или несанкционированные дроны и отправлять данные в центры управления в реальном времени. При поддержке облачной системы управления компания ожидает масштабируемого внедрения в инспекционные и мониторинговые задачи в течение одного‑двух лет.

В среднесрочной перспективе основным коммерческим направлением могут стать складская логистика и автоматизация сортировки и упаковки. В отличие от заводов, склады имеют более стабильные операционные шаблоны, а крупномасштабные данные об окружении позволяют моделям обобщать поведение на большое количество товарных позиций.

В долгосрочной перспективе целью остаются домашние роботы, где ключевым ограничением остаются вопросы безопасности при столкновениях и обращении с предметами. Некоторые компании уже собирают большие наборы планировок жилых помещений, чтобы подготовить модели к работе в домашних условиях.

Финансовая ситуация компании также влияет на стратегию: в первой половине 2025 года SenseTime зафиксировала чистый убыток в размере 1,162 млрд юаней (примерно 163 млн долл. США), что на 50% меньше по сравнению с тем же периодом прошлого года, при продолжающемся росте расходов на НИОКР. В таких условиях компания ищет более устойчивые и практические пути роста.

По оценке руководства, прорыв будет не в одном шаге к общей искусственной когнитивности, а в создании роботов, которые учатся повторно использовать навыки через взаимодействие с реальным миром и решать конкретные физические задачи.


Понравилось? Поделитесь с друзьями!

127
23 поделились, 127 баллы

Какова ваша реакция?

Чего? Чего?
10
Чего?
Плачу Плачу
7
Плачу
Прикол Прикол
6
Прикол
Ого Ого
5
Ого
Злой Злой
4
Злой
Ржака Ржака
3
Ржака
Ух, ты! Ух, ты!
2
Ух, ты!
Ужас Ужас
10
Ужас
Супер Супер
7
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend