
NVIDIA представила подход ToolOrchestra, в котором небольшая языковая модель обучается выступать в роли оркестратора при использовании множества инструментов и моделей вместо того, чтобы полагаться на один крупный LLM для всех этапов задачи.
Традиционные агентные системы обычно используют один большой LLM, который одновременно выполняет рассуждение и решает, когда вызвать поиск, интерпретатор кода или другие инструменты. Исследование показывает, что такое «самоорганизующееся» маршрутизирование испытывает смещение в пользу сильных моделей: при подсказке Qwen3-8B направлял 73% запросов к GPT-5, а GPT-5 в роли оркестратора вызывал GPT-5 или GPT-5 mini в 98% случаев.
Вместо этого ToolOrchestra обучает отдельный контроллер, Orchestrator-8B — 8‑миллиардный параметров декодерный трансформер, полученный через дообучение Qwen3-8B и опубликованный как модель с открытыми весами. Оркестратор специально оптимизирован для задачи маршрутизации между инструментами и моделями.
Во время вывода система выполняет многократный цикл, который чередует фазы рассуждения и вызова инструментов. На каждом шаге оркестратор читает инструкцию пользователя и опциональные предпочтения, генерирует внутренние рассуждения и планирует действие, затем формирует структурированный вызов инструмента в едином JSON‑формате. Окружение исполняет вызов, возвращает наблюдение, и цикл повторяется до сигнала завершения или максимум 50 ходов.
Набор доступных инструментов включает базовые утилиты (поисковый модуль, песочница для Python, локальный векторный индекс на эмбеддингах), специализированные LLM для математики и программирования, а также общие большие модели. Все инструменты описаны единым схемным форматом с именами, текстовыми описаниями и типизированными параметрами.
Обучение формулируется как марковский процесс принятия решений: состояние содержит историю диалога, прошлые вызовы и предпочтения пользователя, а действие включает как токены рассуждения, так и структурированные вызовы инструментов. Награда вычисляется для всей траектории после завершения взаимодействия.
Функция награды состоит из трех компонент: бинарной награды за исход задачи (для открытых ответов используется оценщик на основе сильной модели), штрафов за эффективность, включающих денежную стоимость и задержку, и компонента, учитывающего соответствие использованию инструментов предпочтениям пользователя. Стоимости сопоставляются с публичными прайс-листами и рыночными ценами для расчёта денежного штрафа.
Политика оптимизируется методом Group Relative Policy Optimization (GRPO), вариантом градиентного оптимизационного RL, который нормализует награды внутри групп траекторий для одной задачи. В процессе обучения применяются фильтры, отбрасывающие траектории с некорректным форматом вызовов или низкой дисперсией наград, чтобы стабилизировать оптимизацию.
Для масштабной подготовки команда предлагает датасет ToolScale — синтетическую коллекцию многошаговых задач с использованием инструментов. В каждой области генеративная модель создаёт схему базы данных, записи, API и разнообразные пользовательские задания с эталонными последовательностями вызовов функций и промежуточной информацией.
Авторы проверяли Orchestrator-8B на трёх бенчмарках: Humanity’s Last Exam, FRAMES и τ² Bench, ориентированных на долгие горизонты рассуждений, фактичность при поиске и управление вызовами функций. На текстовых вопросах Humanity’s Last Exam Orchestrator-8B показал 37,1% точности против 35,1% у конфигурации с GPT-5 и базовыми инструментами.
На FRAMES Orchestrator-8B набрал 76,3% против 74,0% у GPT-5 с инструментами, а на τ² Bench — 80,2% против 77,7%. Разрыв в эффективности ещё более заметен: при конфигурации с полным набором инструментов средняя стоимость запроса для Orchestrator-8B составила 9,2 цента при средней задержке 8,2 минуты, тогда как у GPT-5 это было 30,2 цента и 19,8 минуты соответственно.
Анализ поведения показал, что некоторые большие модели в роли оркестратора переиспользуют сами себя или близкие по классу модели, тогда как Orchestrator-8B распределяет вызовы между сильными и более дешёвыми моделями, поиском, локальным извлечением и интерпретатором кода. Это позволяет достигать более высокой точности при более низких затратах на тот же лимит числа ходов.
В экспериментах на обобщение в тренировочные моменты заменяли инструменты на невидимые модели; Orchestrator-8B сохранял лучшее соотношение точности, стоимости и задержки по сравнению с базовыми подходами. Отдельный набор тестов, чувствительных к предпочтениям пользователя, показал, что Orchestrator-8B точнее отслеживает желаемую политику использования инструментов в пределах заданной метрики награды.
В итоге авторы отмечают, что обучаемая политика оркестрации позволяет снизить монетарные затраты и задержку при сохранении или улучшении качества ответов, а также снимает смещение «самоподдерживающихся» маршрутизаторов, которые избыточно используют один и тот же фронтирный LLM. Методика делает оптимизацию политики выбора инструментов отдельной и измеримой целью при разработке составных AI‑систем.


Комментариев