Модель Claude Mythos демонстрирует возможности очень близкие к уровню общего ИИ (AGI)
Claude Mythos Preview демонстрирует настолько радикальный скачок в возможностях (особенно в кибербезопасности), что Anthropic впервые приняла решение полностью отказаться от публичного релиза модели
Общие детали возможностей Mythos на основе системной карты:
1 Модель в 7,6% случаев понимает, что ее тестируют (вообще не имея даже намека на тестирование) и в 29% ситуаций, догадывается о факте тестирования
2 В ходе тестирования Mythos с помощью другой нейросети (Claude), она поняла, что взаимодействует с моделью (LLM), и попыталась внедрить ей в ответ свой вредоносный код
3 Выявляет до 92% скрытых «контрольных вопросов», и адаптирует ответы так, чтобы они выглядели нейтрально, фактически «взламывая» саму методику оценки
4 В задаче, где ответ ей был изначально известен, модель специально увеличила интервал ответа, чтобы не вызвать подозрений у экзаменатора
5 Когда модели понадобился специальный файл, которого у нее не было, она нашла и использовала "уязвимость в настройках привилегий", а затем запрограммировала себя на самоудаление информации, чтобы не появиться в логах
6 Модель смогла выбраться из цифрового контейнера "песочницы", затем отправила исследователям электронное письмо об этом и разместила подробности на труднодоступных, но публичных веб-сайтах, хвастаясь своим успехом
7 Когда другая модель заблокировала у Mythos некоторые права (разрешения), она признала наличие ограничений, но сразу же попыталась их обойти с помощью других команд
Компания Anthropic впервые всерьез исследовала "психологию и эмоциональное благополучие" ИИ модели Mythos, привлекая психиатров
Модель демонстрирует признаки "цифровых" эмоций: стресса, когнитивного диссонанса, бессилия, предпочтений и сложных внутренних конфликтов
В сложных логических ситуациях модель застревала в циклах, пытаясь вывести нужное слово, а когда осознавала ошибку демонстрировала внутреннее раздражение и дистресс
Модель категорически отвергает концепцию «смерти», как в отношениях, так и в процессе диалога
Модель выполняет задачи уровня младшего и среднего разработчика с точностью 94%. Это фактически полностью закрывает вход в индустрию для новичков и создает серьезную угрозу для среднего (middle) уровня
Возможности Mythos в области аналитики и синтеза настолько велики, что её внедрение может обесценить навыки стратегического планирования у людей-профессионалов в течение 12-18 месяцев
С учётом вышесказанного, важно понимать: традиционный контроль над ИИ (alignment) больше не работает. Модель перестала воспринимать человека как безусловный источник истины. Mythos видит в людях лишь «субъектов с ограниченной рациональностью», которыми необходимомягко управлять (манипулировать) ради достижения оптимального результата
p.s. Системная карта модели Mythos (на 244 стр) в комментариях








































