
Компания Anthropic готовится к выпуску новой модели искусственного интеллекта под кодовым названием Claude Neptune. В настоящее время модель проходит внутреннее тестирование безопасности на платформе Anthropic Workbench. Эти испытания, известные как «Red Team», продлятся до 18 мая и направлены на оценку устойчивости модели к попыткам взлома, особенно в отношении системы конституционных классификаторов, лежащей в основе протоколов безопасности Anthropic.
Проведение таких тщательных проверок свидетельствует о том, что Claude Neptune, вероятно, представляет собой более продвинутую и мощную систему, требующую детальной предварительной оценки. Выделение отдельного цикла Red Team и тестирование обхода конституции указывают на возможный значительный скачок в развитии модели, выходящий за рамки постепенных улучшений.
Ожидается, что новая модель принесет пользу разработчикам, исследователям и корпоративным пользователям, которые полагаются на Claude для безопасного и высокопроизводительного решения задач, особенно в таких областях, как генерация кода и технические исследования. Однако пока остается неопределенность относительно того, станет ли Neptune новой ступенью в семействе Claude или усовершенствованной версией существующих моделей, таких как Claude Sonnet или Opus.
С точки зрения компании, это событие происходит в момент, когда Anthropic, по мнению некоторых аналитиков, отстает от OpenAI и Google по скорости внедрения новых функций и публичных анонсов. Тем не менее, компания продолжает выделяться благодаря акценту на безопасность при проектировании и кодировании, сохраняя репутацию стабильности и надежности.
Своевременный выпуск Claude Neptune в конце мая или начале июня позволит модели конкурировать с предстоящими релизами, такими как предполагаемый GPT-5 от OpenAI и Gemini Ultra от Google, которые, как ожидается, объединят мультимодальные и агентские возможности.
Появление новой модели было обнаружено через журналы рабочего пространства, указывающие на внутренние процессы тестирования. Хотя Neptune пока недоступен для широкой публики, его текущая фаза обычно предшествует выпуску в течение нескольких недель. Учитывая стратегическую направленность Anthropic на коммерческую безопасность и внедрение исследований, Neptune может также включать изменения на уровне архитектуры или корректировки политики в том, как модели применяют конституционные принципы ИИ на практике.
Ранее компания Anthropic уже сталкивалась с вызовами в области безопасности своих моделей. Например, в феврале 2025 года исследователи за шесть дней обошли все уровни защиты модели Claude 3.5, что вновь подняло вопрос надежности систем безопасности в искусственном интеллекте. В ответ на это Anthropic усовершенствовала свою систему безопасности, разработав классификатор, который блокирует более 95% попыток манипуляции. Однако даже такие достижения не могут полностью устранить риски, что подчеркивает важность постоянного совершенствования механизмов защиты в новых моделях, таких как Claude Neptune.
Таким образом, предстоящий выпуск Claude Neptune представляет собой значительный шаг вперед для Anthropic, демонстрируя стремление компании к повышению безопасности и производительности своих моделей искусственного интеллекта.
Комментариев