Anthropic тестирует Claude Neptune — новую модель ИИ с усиленной безопасностью

Anthropic тестирует Claude Neptune — новую модель ИИ с усиленной безопасностью


126
23 поделились, 126 баллы

 

Компания Anthropic готовится к выпуску новой модели искусственного интеллекта под кодовым названием Claude Neptune. В настоящее время модель проходит внутреннее тестирование безопасности на платформе Anthropic Workbench. Эти испытания, известные как «Red Team», продлятся до 18 мая и направлены на оценку устойчивости модели к попыткам взлома, особенно в отношении системы конституционных классификаторов, лежащей в основе протоколов безопасности Anthropic.

Проведение таких тщательных проверок свидетельствует о том, что Claude Neptune, вероятно, представляет собой более продвинутую и мощную систему, требующую детальной предварительной оценки. Выделение отдельного цикла Red Team и тестирование обхода конституции указывают на возможный значительный скачок в развитии модели, выходящий за рамки постепенных улучшений.

Ожидается, что новая модель принесет пользу разработчикам, исследователям и корпоративным пользователям, которые полагаются на Claude для безопасного и высокопроизводительного решения задач, особенно в таких областях, как генерация кода и технические исследования. Однако пока остается неопределенность относительно того, станет ли Neptune новой ступенью в семействе Claude или усовершенствованной версией существующих моделей, таких как Claude Sonnet или Opus.

С точки зрения компании, это событие происходит в момент, когда Anthropic, по мнению некоторых аналитиков, отстает от OpenAI и Google по скорости внедрения новых функций и публичных анонсов. Тем не менее, компания продолжает выделяться благодаря акценту на безопасность при проектировании и кодировании, сохраняя репутацию стабильности и надежности.

Своевременный выпуск Claude Neptune в конце мая или начале июня позволит модели конкурировать с предстоящими релизами, такими как предполагаемый GPT-5 от OpenAI и Gemini Ultra от Google, которые, как ожидается, объединят мультимодальные и агентские возможности.

Появление новой модели было обнаружено через журналы рабочего пространства, указывающие на внутренние процессы тестирования. Хотя Neptune пока недоступен для широкой публики, его текущая фаза обычно предшествует выпуску в течение нескольких недель. Учитывая стратегическую направленность Anthropic на коммерческую безопасность и внедрение исследований, Neptune может также включать изменения на уровне архитектуры или корректировки политики в том, как модели применяют конституционные принципы ИИ на практике.

Ранее компания Anthropic уже сталкивалась с вызовами в области безопасности своих моделей. Например, в феврале 2025 года исследователи за шесть дней обошли все уровни защиты модели Claude 3.5, что вновь подняло вопрос надежности систем безопасности в искусственном интеллекте. В ответ на это Anthropic усовершенствовала свою систему безопасности, разработав классификатор, который блокирует более 95% попыток манипуляции. Однако даже такие достижения не могут полностью устранить риски, что подчеркивает важность постоянного совершенствования механизмов защиты в новых моделях, таких как Claude Neptune.

Таким образом, предстоящий выпуск Claude Neptune представляет собой значительный шаг вперед для Anthropic, демонстрируя стремление компании к повышению безопасности и производительности своих моделей искусственного интеллекта.


Понравилось? Поделитесь с друзьями!

126
23 поделились, 126 баллы

Какова ваша реакция?

Чего? Чего?
5
Чего?
Плачу Плачу
2
Плачу
Прикол Прикол
1
Прикол
Ого Ого
10
Ого
Злой Злой
9
Злой
Ржака Ржака
8
Ржака
Ух, ты! Ух, ты!
7
Ух, ты!
Ужас Ужас
5
Ужас
Супер Супер
2
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Выберите формат
Пост
Форматированный текст с вставками и визуальными элементами
Опрос
Голосование для принятия решений или определения мнений
Изображение
Фото или GIF
Видео
Вставки с YouTube, Vimeo или Vine
Аудио
Вставки с SoundCloud или Mixcloud
Мем
Загружайте свои изображения для создания собственных мемов
Send this to a friend