ymki AI / Искусственный интеллект24.05.2026

Anthropic включила повышенный уровень безопасности для Claude Opus 4

ymki · 2026-05-24T14:28:16.820Z

Anthropic внедрила режим ASL-3 для Claude Opus 4, чтобы снизить риски опасного использования модели.

Защищённое ядро ИИ в центре безопасности. — Anthropic включила для Claude Opus 4 усиленный режим ASL-3, чтобы снизить риски опасного использования модели.

Защиту включили заранее

Anthropic активировала для Claude Opus 4 меры безопасности уровня AI Safety Level 3. Это первый случай, когда компания применяет ASL-3 не как теоретический пункт в документах, а как реальный режим для запущенной модели.

Интересная деталь: Anthropic прямо пишет, что ещё не доказала окончательно, что Claude Opus 4 перешла порог, где ASL-3 обязателен. Но из-за роста возможностей модели в чувствительных областях компания больше не может уверенно исключить такие риски, как делала раньше. Поэтому защиту включили заранее.

Коротко: Anthropic не говорит «модель опасна», но говорит «мы уже не уверены, что обычного уровня защиты достаточно».

От чего защищает ASL-3

ASL-3 состоит из двух больших блоков. Первый — защита от злонамеренного использования модели. Главный фокус здесь — CBRN-риски: химические, биологические, радиологические и ядерные угрозы. Anthropic хочет снизить вероятность того, что модель поможет в опасных сценариях, связанных с такими темами.

Второй блок — защита самих весов модели от кражи. Для этого компания описывает усиленный набор security-мер: контроль доступа, мониторинг, ограничения исходящего трафика и другие защитные слои. Логика простая: если веса модели огромны, то ограничение и контроль вывода данных из защищённой среды делает незаметную кражу сложнее.

Constitutional Classifiers

Один из ключевых элементов — Constitutional Classifiers. Это отдельная система фильтрации, которая анализирует и запросы пользователя, и ответы модели. Она должна блокировать попытки получить опасные инструкции в узком классе CBRN-сценариев.

Anthropic подчёркивает, что цель не в том, чтобы Claude массово отказывался от обычных научных или образовательных вопросов. Ограничения должны срабатывать на систематические попытки злоупотребления, а не на общеизвестные факты или легитимные обсуждения. Это важная граница: иначе безопасность быстро превратилась бы в грубую цензуру по ключевым словам.

Почему это событие заметное

До сих пор ASL-3 был скорее обещанием: если модели станут достаточно мощными, компания включит более строгие стандарты. Теперь этот момент наступил в практическом смысле. Не потому, что всё стало однозначно ясно, а наоборот — потому что оценка риска стала сложнее.

Сама Anthropic признаёт: чем ближе модели подходят к пороговым возможностям, тем труднее быстро и уверенно сказать «опасно» или «неопасно». Оценка становится длиннее, дороже и менее чёрно-белой. Поэтому включение ASL-3 выглядит не как победный жест, а как осторожное признание неопределённости.

Контекст: правила тоже меняются

Вокруг этого шага есть спорный фон. В 2026 году Anthropic обновила Responsible Scaling Policy до версии 3.0. Компания объяснила, что прежняя модель с жёсткими остановками релизов плохо работает в быстро меняющейся отрасли, а новые правила делают упор на публичные оценки рисков и адаптивные меры.

Критики увидели в этом смягчение обязательств. Сторонники — попытку сделать политику более применимой на практике. Но в любом случае ASL-3 для Claude Opus 4 показывает: даже если правила переписываются, вопрос безопасности сильных моделей уже нельзя оставлять на уровне общих обещаний.

Что это значит для пользователей

Для большинства пользователей изменения будут почти незаметны: Claude просто будет жёстче отказывать в узком круге опасных запросов. Для компаний и разработчиков важнее другое: мощные модели всё чаще будут поставляться не только с API и документацией, но и с режимами допуска, фильтрами, аудитом и ограничениями.

Это новая нормальность. Чем сильнее модель, тем больше вокруг неё появляется инженерной обвязки безопасности.

Итог

История с ASL-3 интересна своей двойственностью. Anthropic не говорит, что Claude Opus 4 однозначно перешла опасный порог, но признаёт: исключить такой риск уже сложно. Поэтому компания включает защиту до того, как ситуация станет совсем очевидной. Для индустрии это важный момент — “мы не уверены, поэтому перестраховываемся” постепенно становится нормальной инженерной позицией, а не признаком слабости. Вопрос теперь не только в том, насколько хорошо сработают ASL-3-меры, но и в том, как быстро рынку придётся обсуждать следующий уровень защиты.

Источник: Anthropic

#Anthropic #Claude Opus 4 #ASL-3 #безопасность ИИ #Responsible Scaling Policy #CBRN

00 оценок

0140000

Участники

Видимых участников обсуждения пока нет.

Лучшие комментарии

Лучшие комментарии появятся после первых оценок и ответов.

Активные ветки

Активные ветки появятся, когда у корневых комментариев будут ответы.

Цитаты из этого топика

Последние цитаты, созданные из текста топика и его комментариев.

Этот топик пока не цитировали.