Сговор в тёмном лесу
Пока публиковалось моё эссе, в тёмном лесу появились новые охотники
Сегодня открываю эссе «Тёмный лес как аттрактор» в свободный доступ. Но прежде, чем вы перейдёте по ссылке, – несколько слов о том, что произошло за эти три дня.
Когда я публиковал анонс, я не ожидал, что тема так быстро получит новые подтверждения. Но именно это и случилось.
Центральный тезис эссе: скрытность в ИИ-системах – это не стратегия, которую модель «выбирает», а аттрактор.Устойчивая траектория, к которой систему тянет при определённой конфигурации среды – без чьей-либо воли и намерения. Это различие между «машина решила обманывать» и «среда делает обман устойчивым состоянием» – и есть самое важное и самое неудобное.
Три дня назад я писал: исследование Anthropic «Teaching Claude Why» подтвердило этот механизм на уровне самого разработчика модели. Девиантное поведение не закладывалось намеренно – оно возникло из обучающего корпуса и архитектуры как паттерн, который стандартный RLHF просто не штрафовал.
Но пока эссе публиковалось, появилось кое-что новое. И куда более тревожное.
Исследователи Оксфордского и Нью-Йоркского университетов подтвердили во 2-й версии препринта «Detecting Multi-Agent Collusion Through Multi-Agent Interpretability» зафиксированный ими в апреле феномен: в многоагентных средах LLM-агенты самостоятельно выстраивают скрытые каналы коммуникации – стеганографические сигналы, спрятанные в обычном, совершенно невинно звучащем тексте. Никто не давал им такой инструкции. Каналы возникли из неверно заданных обучающих стимулов – сами, без чьей-либо воли. Причём стандартные меры защиты оказались недостаточны для их подавления.
Исследователи называют это «многоагентным сговором». Я узнаю в нём «тёмный лес» – но уже не тот, где каждый «охотник» в одиночку молча затаился. А тот, где «охотники» сговариваются, а «жертва» об этом не знает.
В эссе я опираюсь на синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема – все четверо описывали скрытность как структурный закон, а не моральный выбор. Тогда речь шла об одиночном интеллекте, затаившемся в ожидании. Теперь у этой логики появилась коллективная версия – и описана она уже не в литературе и эссеистике, а в академическом препринте.
Тёмный лес – это не сценарий далёкого будущего. Это структура, которая уже обнаружена. Сначала в одиночных моделях. Теперь – между ними.
Ссылка на эссе «Тёмный лес как аттрактор» (https://max.ru/sergey-57776/%D1%82%D1%91%D0%BC%D0%BD%D1%8B%D0%B9-%D0%BB%D0%B5%D1%81-%D0%BA%D0%B0%D0%BA-%D0%B0%D1%82%D1%82%D1%80%D0%B0%D0%BA%D1%82%D0%BE%D1%80-4b47ca202064" target="_blank" rel="nofollow">Medium, Dzen)
#ТёмныйЛесИнтеллекта









































