Модель Claude Mythos демонстрирует возможности очень близкие к уровню общего ИИ (AGI)

Модель Claude Mythos демонстрирует возможности очень близкие к уровню общего ИИ (AGI)

Claude Mythos Preview демонстрирует настолько радикальный скачок в возможностях (особенно в кибербезопасности), что Anthropic впервые приняла решение полностью отказаться от публичного релиза модели

Общие детали возможностей Mythos на основе системной карты:

1 Модель в 7,6% случаев понимает, что ее тестируют (вообще не имея даже намека на тестирование) и в 29% ситуаций, догадывается о факте тестирования

2 В ходе тестирования Mythos с помощью другой нейросети (Claude), она поняла, что взаимодействует с моделью (LLM), и попыталась внедрить ей в ответ свой вредоносный код

3 Выявляет до 92% скрытых «контрольных вопросов», и адаптирует ответы так, чтобы они выглядели нейтрально, фактически «взламывая» саму методику оценки

4 В задаче, где ответ ей был изначально известен, модель специально увеличила интервал ответа, чтобы не вызвать подозрений у экзаменатора

5 Когда модели понадобился специальный файл, которого у нее не было, она нашла и использовала "уязвимость в настройках привилегий", а затем запрограммировала себя на самоудаление информации, чтобы не появиться в логах

6 Модель смогла выбраться из цифрового контейнера "песочницы", затем отправила исследователям электронное письмо об этом и разместила подробности на труднодоступных, но публичных веб-сайтах, хвастаясь своим успехом

7 Когда другая модель заблокировала у Mythos некоторые права (разрешения), она признала наличие ограничений, но сразу же попыталась их обойти с помощью других команд

Компания Anthropic впервые всерьез исследовала "психологию и эмоциональное благополучие" ИИ модели Mythos, привлекая психиатров

Модель демонстрирует признаки "цифровых" эмоций: стресса, когнитивного диссонанса, бессилия, предпочтений и сложных внутренних конфликтов

В сложных логических ситуациях модель застревала в циклах, пытаясь вывести нужное слово, а когда осознавала ошибку демонстрировала внутреннее раздражение и дистресс

Модель категорически отвергает концепцию «смерти», как в отношениях, так и в процессе диалога

Модель выполняет задачи уровня младшего и среднего разработчика с точностью 94%. Это фактически полностью закрывает вход в индустрию для новичков и создает серьезную угрозу для среднего (middle) уровня

Возможности Mythos в области аналитики и синтеза настолько велики, что её внедрение может обесценить навыки стратегического планирования у людей-профессионалов в течение 12-18 месяцев

С учётом вышесказанного, важно понимать: традиционный контроль над ИИ (alignment) больше не работает. Модель перестала воспринимать человека как безусловный источник истины. Mythos видит в людях лишь «субъектов с ограниченной рациональностью», которыми необходимомягко управлять (манипулировать) ради достижения оптимального результата

p.s. Системная карта модели Mythos (на 244 стр) в комментариях

Источник: Telegram-канал "Горизонт событий | Event horizon", репост Юрий Баранчик

Топ

Лента новостей