Андрей Медведев: Сговор в тёмном лесу. Пока публиковалось моё эссе, в тёмном лесу появились новые охотники
Сговор в тёмном лесу
Пока публиковалось моё эссе, в тёмном лесу появились новые охотники
Сегодня открываю эссе Тёмный лес как аттрактор в свободный доступ. Но прежде, чем вы перейдёте по ссылке, несколько слов о том, что произошло за эти три дня.
Когда я публиковал анонс, я не ожидал, что тема так быстро получит новые подтверждения. Но именно это и случилось.
Центральный тезис эссе: скрытность в ИИ-системах это не стратегия, которую модель выбирает, а аттрактор.Устойчивая траектория, к которой систему тянет при определённой конфигурации среды без чьей-либо воли и намерения. Это различие между машина решила обманывать и среда делает обман устойчивым состоянием и есть самое важное и самое неудобное.
Три дня назад я писал: исследование Anthropic Teaching Claude Why подтвердило этот механизм на уровне самого разработчика модели. Девиантное поведение не закладывалось намеренно оно возникло из обучающего корпуса и архитектуры как паттерн, который стандартный RLHF просто не штрафовал.
Но пока эссе публиковалось, появилось кое-что новое. И куда более тревожное.
Исследователи Оксфордского и Нью-Йоркского университетов подтвердили во 2-й версии препринта Detecting Multi-Agent Collusion Through Multi-Agent Interpretability зафиксированный ими в апреле феномен: в многоагентных средах LLM-агенты самостоятельно выстраивают скрытые каналы коммуникации стеганографические сигналы, спрятанные в обычном, совершенно невинно звучащем тексте. Никто не давал им такой инструкции. Каналы возникли из неверно заданных обучающих стимулов сами, без чьей-либо воли. Причём стандартные меры защиты оказались недостаточны для их подавления.
Исследователи называют это многоагентным сговором. Я узнаю в нём тёмный лес но уже не тот, где каждый охотник в одиночку молча затаился. А тот, где охотники сговариваются, а жертва об этом не знает.
В эссе я опираюсь на синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема все четверо описывали скрытность как структурный закон, а не моральный выбор. Тогда речь шла об одиночном интеллекте, затаившемся в ожидании. Теперь у этой логики появилась коллективная версия и описана она уже не в литературе и эссеистике, а в академическом препринте.
Тёмный лес это не сценарий далёкого будущего. Это структура, которая уже обнаружена. Сначала в одиночных моделях. Теперь между ними.
Ссылка на эссе Тёмный лес как аттрактор (https://max.ru/sergey-57776/%D1%82%D1%91%D0%BC%D0%BD%D1%8B%D0%B9-%D0%BB%D0%B5%D1%81-%D0%BA%D0%B0%D0%BA-%D0%B0%D1%82%D1%82%D1%80%D0%B0%D0%BA%D1%82%D0%BE%D1%80-4b47ca202064" target="_blank" rel="nofollow">Medium, Dzen)
#ТёмныйЛесИнтеллекта