
NVIDIA представила C-RADIOv4 — агрегативный визуальный бэкенд, который дистиллирует три сильные «teacher»-модели (SigLIP2-g-384, DINOv3-7B и SAM3) в единый ViT‑стиль энкодер. Модель эволюционирует из линий AM-RADIO и RADIOv2.5, сохраняя сопоставимые вычислительные затраты и улучшая качество плотных предсказаний, устойчивость к разрешению и совместимость с SAM3.
Основная идея проста: вместо выбора между моделью «vision‑language», самообучаемой плотной моделью и сегментационной архитектурой, C-RADIOv4 стремится одновременно аппроксимировать все три подхода одним бэкендом. Это даёт единый энкодер, пригодный для широкого круга задач.
Семейство RADIO использует метод «agglomerative distillation», при котором студент обучается согласовывать плотные карты признаков и итоговые токены нескольких гетерогенных учителей. Ранние версии объединяли DFN CLIP, DINOv2 и SAM и уже поддерживали мультиразрешённое обучение, но страдали от «mode switching» — качественного изменения представлений при смене разрешения.
В C-RADIOv4 состав учителей обновлён: SigLIP2-g-384 усиливает выравнивание изображение‑текст, DINOv3-7B даёт качественные самообучаемые плотные признаки, а SAM3 приносит признаки, ориентированные на сегментацию, и совместимость с SAM3‑декодером. Студент обучается так, чтобы его плотные признаки совпадали с DINOv3 и SAM3, а итоговые токены — с SigLIP2 и DINOv3, что поддерживает классификацию, извлечение и сегментацию.
C-RADIOv4 применяет стохастическое мультиразрешённое обучение с выборкой входных размеров из двух групп: низкие разрешения и высокие. SigLIP2 нативно работает на 384 пикселях; его признаки апсемплируют в три раза с помощью FeatSharp для согласования с 1152‑пиксельными признаками SAM3. SAM3 тренируется с мозаичной аугментацией при размере 1152×1152.
Такая схема сглаживает кривую производительности по разрешению и улучшает поведение на низких разрешениях. На примере ADE20k при линейном probing версия C-RADIOv4‑H показывает около 55.20 mIoU при 512 px, 57.02 mIoU при 1024 px и 57.72 mIoU при 1536 px. Тенденция масштабирования близка к DINOv3‑7B при примерно на порядок меньшем числе параметров.
Чтобы не перенимать артефакты учителей, C-RADIOv4 вводит два механизма сдвигово‑эквивариантных потерь. В shift‑equivariant dense loss учитель и студент видят независимо сдвинутые кропы, признаки выравнивают по сдвигу, и потеря учитывает только перекрывающиеся позиции, что препятствует запоминанию фиксированных шумов. Аналогично, shift‑equivariant MESA применяет регуляризацию между онлайн‑сетью и её EMA‑копией с разными кропами и выравниванием по сдвигу, а также применяется DAMP — умножительная зашумляющая инъекция в веса для повышения устойчивости.
Для балансировки вклада разных учителей C-RADIOv4 заменяет простую косинусную потерю сводным критерием с нормировкой по угловой дисперсии. Простая косинусная мера давала слишком большой вес учителям с большей угловой дисперсией, из-за чего DINOv3 мог доминировать над SigLIP2. Измеренные дисперсии в работе указывают примерно 0.694 для SigLIP2-g-384 и около 2.12–2.19 для вариантов DINOv3; нормировка по этим значениям уравнивает их вклад и сохраняет как выравнивание текст‑изображение, так и плотную семантику.
По задачам классификации и плотного предсказания C-RADIOv4‑H достигает примерно 83.09% top‑1 в zero‑shot на ImageNet‑1k и превосходит или сопоставим с RADIOv2.5‑H и C-RADIOv3‑H на разных разрешениях, с пиком около 1024 px. В k‑NN‑классификации модель улучшает результаты относительно предыдущих версий и сравнима с DINOv3 при более высоких разрешениях. На плотных бенчмарках (ADE20k, PASCAL VOC, NAVI, SPair) C-RADIOv4‑H и вариант SO400M опережают ранние RADIO‑модели и близки по качеству к DINOv3‑7B; типичные значения для C-RADIOv4‑H указаны как ADE20k 55.20 mIoU, VOC 87.24 mIoU, NAVI 63.44 и SPair 60.57.
В Probe3d (включая глубину и нормали поверхности) C-RADIOv4‑H демонстрирует лучшие результаты по NAVI и SPair в семействе RADIO, тогда как метрики глубины и поверхностей близки к C-RADIOv3‑H с небольшими вариациями. Это отражает намеренный компромисс между универсальностью и специализированным качеством по разным трекам задач.
C-RADIOv4 разработан как drop‑in замена для Perception Encoder в SAM3; декодер и механизмы памяти SAM3 остаются без изменений. Для развёртывания есть ViTDet‑режим, где большинство трансформерных блоков используют оконное внимание, а часть — глобальное; поддерживаемые размеры окон варьируются, что позволяет настроить компромисс между скоростью и полнотой внимания. На A100 версия SO400M с окнами до 12 токенов работает быстрее, чем энкодер SAM3 ViT‑L+, а вариант Huge с окном 8 близок по задержке, что делает C-RADIOv4 практичным для высокоразрешённых плотных задач, где полное глобальное внимание слишком дорого.
Ключевые выводы: C-RADIOv4 объединяет SigLIP2‑g‑384, DINOv3‑7B и SAM3 в единый ViT‑энкодер, пригодный для классификации, извлечения, плотных предсказаний и сегментации. Стохастическое мультиразрешённое обучение и FeatSharp‑апсемплинг стабилизируют поведение по разрешению и отслеживают масштабирование DINOv3 при меньшей сложности. Сдвигово‑эквивариантные потери и MESA уменьшают копирование артефактов учителей, а нормировка по угловой дисперсии уравновешивает вклад разных учителей. Модель совместима с SAM3, предлагает ViTDet‑режим для ускорённого инференса на больших изображениях и выпущена под NVIDIA Open Model License.


Комментариев