Разработка и запуск безопасных AI-агентов на основе данных

Разработка и запуск безопасных AI-агентов на основе данных


107
21 поделиться, 107 баллы

По мере развития генеративного ИИ организациям необходимы интеллектуальные агенты, которые дают точные и надёжные ответы и используют данные, специфичные для бизнеса. Решения NVIDIA AI-Q Research Assistant и Enterprise RAG объединяют подходы с дополнением через поиск (RAG) и модели рассуждений Nemotron, чтобы автоматизировать понимание документов, извлечение инсайтов и формирование аналитических отчётов из больших наборов данных.

Для развёртывания таких решений требуется защищённая и масштабируемая инфраструктура, оптимизированная по производительности и стоимости. В статье рассматривается развёртывание шаблонов на Amazon Elastic Kubernetes Service (EKS) с использованием серверного векторного хранилища, объектного хранилища S3 и инструмента для динамического масштабирования GPU.

Шаблоны NVIDIA строятся на наборе микросервисов NVIDIA NIM — оптимизированных контейнеров вывода, обеспечивающих высокую пропускную способность и низкую задержку при работе моделей на GPU. Эти микросервисы служат фундаментом для всех компонентов системы.

Ключевые компоненты решения можно разделить по ролям: базовые элементы RAG, обеспечивающие индексирование и поиск по векторным представлениям документов, и дополнительные компоненты AI-Q, реализующие агентный рабочий процесс и генерацию развёрнутых отчётов.

В качестве моделей в базовой RAG-части используются крупные языковые модели Nemotron для декомпозиции запросов, анализа и формирования ответов, а также модели NeMo Retriever для многоформатного извлечения данных из документов, включая текст, таблицы и графические элементы.

AI-Q добавляет более крупную инструктивную модель, предназначенную для генерации глубоких исследовательских отчётов, и интеграцию с веб-поиском, чтобы при необходимости дополнять отчёты актуальной внешней информацией.

Решение для AWS включает автоматизацию подготовки окружения и механизмов безопасности. Все микросервисы разворачиваются как поды в кластере Kubernetes, а требуемые GPU-инстансы (различных семейств) динамически выделяются в соответствии с нагрузкой.

В архитектуре AI-Q над RAG-слоем располагается агент, который оркестрирует последовательность действий: планирование задачи, уточнение информации и финальная генерация отчёта. Агент принимает решение, использовать внутреннюю базу знаний или выполнить поиск в вебе, агрегирует данные и передаёт их модели отчётности для формирования структурированного результата.

Архитектура Enterprise RAG предусматривает две параллельные линии обработки. Первая — конвейер извлечения, где файлы из объектного хранилища обрабатываются моделями извлечения и преобразуются в векторные представления для хранения в серверном векторном хранилище.

Вторая — конвейер поиска и выдачи: входящий пользовательский запрос кодируется в вектор, производится поиск релевантного контекста и ранжирование, после чего контекст передаётся модели Nemotron для генерации окончательного ответа с учётом найденной информации.

Для развёртывания на AWS используются управляемый сервис Kubernetes для запуска контейнеров, объектное хранилище для исходных документов, серверный векторный сервис для хранения эмбеддингов и механизм автоматического масштабирования узлов, оптимизирующий подбор GPU-инстансов по потребностям рабочих нагрузок.

Также применяется механика присвоения облачных прав подам, позволяющая подам безопасно обращаться к другим облачным сервисам без использования статичных учётных данных.

Развёртывание осуществляется набором автоматизированных скриптов, которые создают инфраструктуру, настраивают доступ к кластеру и инсталлируют необходимые микросервисы. Для корректной работы требуются квоты и доступ к GPU-инстансам, а также ключи API для внешних сервисов, если используется интеграция с веб-поиском и реестрами образов.

Процесс установки включает клонирование репозитория с шаблонами, запуск скрипта установки для провижининга инфраструктуры (включая сеть, кластер, коллекцию векторного хранилища и пул для автоматического управления узлами), настройку рабочего окружения для доступа к кластеру и сборку интегрированных образов для взаимодействия с векторным хранилищем.

По времени развертывание инфраструктуры обычно занимает порядка десятков минут. После подготовки окружения выполняется этап сборки образов и само развёртывание приложений: доступна опция только RAG для вопросов по документам и полнофункциональная опция AI-Q, включающая дополнительные модели и веб-поиск.

При полном развёртывании механизм автоматического масштабирования создаёт необходимые GPU-узлы для размещения микросервисов моделей, что также влияет на время старта и потребление ресурсов.

Доступ к пользовательским интерфейсам и внутренним сервисам организуется через локальный переадресованный доступ к портам кластера с помощью вспомогательных скриптов, входящих в репозиторий. После этого интерфейсы становятся доступны на локальных портах для загрузки документов и генерации отчётов.

В решении предусмотрена система наблюдаемости и трассировки для контроля метрик и распределённого трейсинга. В стандартный набор входят инструменты для сбора метрик, визуализации дашбордов, трассировки микросервисов и мониторинга состояния GPU.

Важно своевременно очищать облачные ресурсы, поскольку GPU-инстансы могут генерировать значительные затраты. Для временного отключения затрат достаточно удалить приложения, что приведёт к остановке дорогостоящих узлов. Для полного удаления необходимо удалить созданную инфраструктуру и связанные ресурсы.

В заключение, интегрированные шаблоны NVIDIA для RAG и AI-Q предоставляют настраиваемую основу для развёртывания защищённых и масштабируемых исследовательских ассистентов и генеративных приложений. Они позволяют обрабатывать большие объёмы корпоративных данных, извлекать значимые инсайты и оптимизировать соотношение производительности и затрат.


Понравилось? Поделитесь с друзьями!

107
21 поделиться, 107 баллы

Какова ваша реакция?

Чего? Чего?
10
Чего?
Плачу Плачу
7
Плачу
Прикол Прикол
6
Прикол
Ого Ого
5
Ого
Злой Злой
4
Злой
Ржака Ржака
3
Ржака
Ух, ты! Ух, ты!
2
Ух, ты!
Ужас Ужас
10
Ужас
Супер Супер
7
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

  1. Thank you for your sharing. I am worried that I lack creative ideas. It is your article that makes me full of hope. Thank you. But, I have a question, can you help me?

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend