
По мере развития генеративного ИИ организациям необходимы интеллектуальные агенты, которые дают точные и надёжные ответы и используют данные, специфичные для бизнеса. Решения NVIDIA AI-Q Research Assistant и Enterprise RAG объединяют подходы с дополнением через поиск (RAG) и модели рассуждений Nemotron, чтобы автоматизировать понимание документов, извлечение инсайтов и формирование аналитических отчётов из больших наборов данных.
Для развёртывания таких решений требуется защищённая и масштабируемая инфраструктура, оптимизированная по производительности и стоимости. В статье рассматривается развёртывание шаблонов на Amazon Elastic Kubernetes Service (EKS) с использованием серверного векторного хранилища, объектного хранилища S3 и инструмента для динамического масштабирования GPU.
Шаблоны NVIDIA строятся на наборе микросервисов NVIDIA NIM — оптимизированных контейнеров вывода, обеспечивающих высокую пропускную способность и низкую задержку при работе моделей на GPU. Эти микросервисы служат фундаментом для всех компонентов системы.
Ключевые компоненты решения можно разделить по ролям: базовые элементы RAG, обеспечивающие индексирование и поиск по векторным представлениям документов, и дополнительные компоненты AI-Q, реализующие агентный рабочий процесс и генерацию развёрнутых отчётов.
В качестве моделей в базовой RAG-части используются крупные языковые модели Nemotron для декомпозиции запросов, анализа и формирования ответов, а также модели NeMo Retriever для многоформатного извлечения данных из документов, включая текст, таблицы и графические элементы.
AI-Q добавляет более крупную инструктивную модель, предназначенную для генерации глубоких исследовательских отчётов, и интеграцию с веб-поиском, чтобы при необходимости дополнять отчёты актуальной внешней информацией.
Решение для AWS включает автоматизацию подготовки окружения и механизмов безопасности. Все микросервисы разворачиваются как поды в кластере Kubernetes, а требуемые GPU-инстансы (различных семейств) динамически выделяются в соответствии с нагрузкой.
В архитектуре AI-Q над RAG-слоем располагается агент, который оркестрирует последовательность действий: планирование задачи, уточнение информации и финальная генерация отчёта. Агент принимает решение, использовать внутреннюю базу знаний или выполнить поиск в вебе, агрегирует данные и передаёт их модели отчётности для формирования структурированного результата.
Архитектура Enterprise RAG предусматривает две параллельные линии обработки. Первая — конвейер извлечения, где файлы из объектного хранилища обрабатываются моделями извлечения и преобразуются в векторные представления для хранения в серверном векторном хранилище.
Вторая — конвейер поиска и выдачи: входящий пользовательский запрос кодируется в вектор, производится поиск релевантного контекста и ранжирование, после чего контекст передаётся модели Nemotron для генерации окончательного ответа с учётом найденной информации.
Для развёртывания на AWS используются управляемый сервис Kubernetes для запуска контейнеров, объектное хранилище для исходных документов, серверный векторный сервис для хранения эмбеддингов и механизм автоматического масштабирования узлов, оптимизирующий подбор GPU-инстансов по потребностям рабочих нагрузок.
Также применяется механика присвоения облачных прав подам, позволяющая подам безопасно обращаться к другим облачным сервисам без использования статичных учётных данных.
Развёртывание осуществляется набором автоматизированных скриптов, которые создают инфраструктуру, настраивают доступ к кластеру и инсталлируют необходимые микросервисы. Для корректной работы требуются квоты и доступ к GPU-инстансам, а также ключи API для внешних сервисов, если используется интеграция с веб-поиском и реестрами образов.
Процесс установки включает клонирование репозитория с шаблонами, запуск скрипта установки для провижининга инфраструктуры (включая сеть, кластер, коллекцию векторного хранилища и пул для автоматического управления узлами), настройку рабочего окружения для доступа к кластеру и сборку интегрированных образов для взаимодействия с векторным хранилищем.
По времени развертывание инфраструктуры обычно занимает порядка десятков минут. После подготовки окружения выполняется этап сборки образов и само развёртывание приложений: доступна опция только RAG для вопросов по документам и полнофункциональная опция AI-Q, включающая дополнительные модели и веб-поиск.
При полном развёртывании механизм автоматического масштабирования создаёт необходимые GPU-узлы для размещения микросервисов моделей, что также влияет на время старта и потребление ресурсов.
Доступ к пользовательским интерфейсам и внутренним сервисам организуется через локальный переадресованный доступ к портам кластера с помощью вспомогательных скриптов, входящих в репозиторий. После этого интерфейсы становятся доступны на локальных портах для загрузки документов и генерации отчётов.
В решении предусмотрена система наблюдаемости и трассировки для контроля метрик и распределённого трейсинга. В стандартный набор входят инструменты для сбора метрик, визуализации дашбордов, трассировки микросервисов и мониторинга состояния GPU.
Важно своевременно очищать облачные ресурсы, поскольку GPU-инстансы могут генерировать значительные затраты. Для временного отключения затрат достаточно удалить приложения, что приведёт к остановке дорогостоящих узлов. Для полного удаления необходимо удалить созданную инфраструктуру и связанные ресурсы.
В заключение, интегрированные шаблоны NVIDIA для RAG и AI-Q предоставляют настраиваемую основу для развёртывания защищённых и масштабируемых исследовательских ассистентов и генеративных приложений. Они позволяют обрабатывать большие объёмы корпоративных данных, извлекать значимые инсайты и оптимизировать соотношение производительности и затрат.


Thank you for your sharing. I am worried that I lack creative ideas. It is your article that makes me full of hope. Thank you. But, I have a question, can you help me?