Anthropic тестирует Claude Neptune — новую модель ИИ с усиленной безопасностью

Anthropic тестирует Claude Neptune — новую модель ИИ с усиленной безопасностью


126
23 shares, 126 points

 

Компания Anthropic готовится к выпуску новой модели искусственного интеллекта под кодовым названием Claude Neptune. В настоящее время модель проходит внутреннее тестирование безопасности на платформе Anthropic Workbench. Эти испытания, известные как «Red Team», продлятся до 18 мая и направлены на оценку устойчивости модели к попыткам взлома, особенно в отношении системы конституционных классификаторов, лежащей в основе протоколов безопасности Anthropic.

Проведение таких тщательных проверок свидетельствует о том, что Claude Neptune, вероятно, представляет собой более продвинутую и мощную систему, требующую детальной предварительной оценки. Выделение отдельного цикла Red Team и тестирование обхода конституции указывают на возможный значительный скачок в развитии модели, выходящий за рамки постепенных улучшений.

Ожидается, что новая модель принесет пользу разработчикам, исследователям и корпоративным пользователям, которые полагаются на Claude для безопасного и высокопроизводительного решения задач, особенно в таких областях, как генерация кода и технические исследования. Однако пока остается неопределенность относительно того, станет ли Neptune новой ступенью в семействе Claude или усовершенствованной версией существующих моделей, таких как Claude Sonnet или Opus.

С точки зрения компании, это событие происходит в момент, когда Anthropic, по мнению некоторых аналитиков, отстает от OpenAI и Google по скорости внедрения новых функций и публичных анонсов. Тем не менее, компания продолжает выделяться благодаря акценту на безопасность при проектировании и кодировании, сохраняя репутацию стабильности и надежности.

Своевременный выпуск Claude Neptune в конце мая или начале июня позволит модели конкурировать с предстоящими релизами, такими как предполагаемый GPT-5 от OpenAI и Gemini Ultra от Google, которые, как ожидается, объединят мультимодальные и агентские возможности.

Появление новой модели было обнаружено через журналы рабочего пространства, указывающие на внутренние процессы тестирования. Хотя Neptune пока недоступен для широкой публики, его текущая фаза обычно предшествует выпуску в течение нескольких недель. Учитывая стратегическую направленность Anthropic на коммерческую безопасность и внедрение исследований, Neptune может также включать изменения на уровне архитектуры или корректировки политики в том, как модели применяют конституционные принципы ИИ на практике.

Ранее компания Anthropic уже сталкивалась с вызовами в области безопасности своих моделей. Например, в феврале 2025 года исследователи за шесть дней обошли все уровни защиты модели Claude 3.5, что вновь подняло вопрос надежности систем безопасности в искусственном интеллекте. В ответ на это Anthropic усовершенствовала свою систему безопасности, разработав классификатор, который блокирует более 95% попыток манипуляции. Однако даже такие достижения не могут полностью устранить риски, что подчеркивает важность постоянного совершенствования механизмов защиты в новых моделях, таких как Claude Neptune.

Таким образом, предстоящий выпуск Claude Neptune представляет собой значительный шаг вперед для Anthropic, демонстрируя стремление компании к повышению безопасности и производительности своих моделей искусственного интеллекта.


Понравилось? Поделитесь с друзьями!

126
23 shares, 126 points

Какова ваша реакция?

Чего? Чего?
5
Чего?
Плачу Плачу
2
Плачу
Прикол Прикол
1
Прикол
Ого Ого
10
Ого
Злой Злой
9
Злой
Ржака Ржака
8
Ржака
Ух, ты! Ух, ты!
7
Ух, ты!
Ужас Ужас
5
Ужас
Супер Супер
2
Супер
Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.

Комментариев

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Викторина по мелочам
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format
Send this to a friend