ИИ с двойным дном. Дообучение больших моделей — это долго, дорого и рискованно: нейросеть может забыть старое или, наоборот, сохранить то, что нужно скрыть (например, секретные данные)

ИИ с двойным дном. Дообучение больших моделей — это долго, дорого и рискованно: нейросеть может забыть старое или, наоборот, сохранить то, что нужно скрыть (например, секретные данные)

ИИ с двойным дном

Дообучение больших моделей — это долго, дорого и рискованно: нейросеть может забыть старое или, наоборот, сохранить то, что нужно скрыть (например, секретные данные). DARPA давно ищет способ сделать ИИ управляемым, а не «черным ящиком».

Недавно опубликованный патент от ученых Georgia Tech (грант DARPA) предлагает решение: отказаться от переобучения и превратить знания в сменные файлы.

Авторы придумали способ выделять конкретный навык — будь то математика или наведение дрона — в отдельный компактный файл (патч).

Хотя сама идея адаптеров (LoRA) не нова, инновация патента — в алгоритме «чистого разделения» навыков.

-Обычный LoRA умеет только добавлять знания поверх старых («грязный» слой).

-Технология DARPA умеет хирургически разделять навыки, чтобы они не смешивались. Это позволяет безопасно вычитать знания, не ломая логику модели.

Два режима работы:

1. LEARN (Добавление): Загрузили файл (5–50 Мб) — модель мгновенно поумнела.

2. UNLEARN (Удаление): Вычли файл — модель математически потеряла доступ к конкретному навыку, оставаясь рабочей.

Это превращает ИИ в конструктор LEGO, где детали (навыки) идеально подогнаны и не конфликтуют.

Три сценария:

1. Экспортный контроль (Необратимая зачистка): США смогут продавать «обезжиренные» версии ИИ. Режим UNLEARN позволяет хирургически вырезать навыки кибератак. Восстановить их без исходного «картриджа» невозможно — у покупателя на руках просто нет нужных весов.

2. Маскировка («Идеальное двойное дно»): Решение для дронов. На борту — стерильная гражданская модель (проверка кода ничего не найдет). Перед атакой загружается микро-патч с тактикой. После удара патч стирается, оставляя идеально чистого «мирного курьера».

3. Иерархия доступа (Без конфликтов): Одна модель для всех. Рядовой видит инструкции, офицер подключает свой модуль и видит секреты. Благодаря новому алгоритму, секретный модуль не ломает базовую логику модели и не вызывает глюков.

Авторы признают проблему переплетения знаний. Удаляя «химию взрывчатки», можно случайно повредить «школьную химию». Чем больше таких правок, тем нестабильнее модель — она может превратиться в «чудовище Франкенштейна» и начать галлюцинировать.

Эра «черных ящиков» закончилась. Началась эра «ящиков с двойным дном».

DARPA&CIA

Источник: Telegram-канал "Secrets DARPA and CIA", репост Юрий Баранчик

Топ

Лента новостей