Архитектурные ограничения современных LLMs

Архитектурные ограничения современных LLMs

Не существует сейчас более важной темы, чем эта – весь прироста капитальных расходов в реальном мире за два года в полной мере обеспечен бигтехами, весь прирост избыточной капитализации уже на 53 трлн обеспечен бигтехами, весь медийный шум концентрируется вокруг бигтехов, являющиеся главным провайдером ИИ-хайпа.

Основные надежды на технологическую революцию, на прирост производительности и все эти утопичные сюжета «ИИ спасет мир» снова вокруг бигтхехов и ключевых стартапов в области ИИ.

Больше параметров, больше данных, больше дата-центров: если верить маркетинговым слайдам, где-то на горизонте уже мерцает «универсальный интеллект», который вырастет сам собой, стоит лишь добавить ещё пару десятков миллиардов транзисторов и несколько терраватт-часов электричества.

И это не лирическое отступление – это буквальная интерпретация. Их заклинило в области веры в «scaling law», когда эффект масштабирования якобы сделает модели особо умными буквально с экстраординарными способностями, которые в свою очередь всех сделают сказочно богатыми и счастливыми.

В августе я делал серию постов по архитектурным ограничениям, где многое пересекается с позицией Яна Лекуна. В отличие от меня, Лекун корифей и основатель современных LLMs, поэтому его позиция особо интересна (далее гибрид с собственными интерпретациями, т.к. язык Лекуна сложен для понимания).

Современные LLMs, в которые вкладывают буквально триллионы, в своей основе остаются предиктивными генераторами токенов. Это впечатляюще в плане плавности и разнообразия ответов, но фундамент ограничений заложен прямо в архитектуру:

Существующие нейросети – великолепные машины предсказания паттернов.

Они виртуозно симулируют мышление в генерации текста, умеют генерировать повторяющиеся картинки по вшитым шаблонам, помогать с кодом и справляться с множеством задач, которые ещё недавно считались творческими.

Однако, LLMs фундаментально ограничены, как модели мира и как планирующие агенты, что значительно сужает области эффективного применения.

Им не хватает архитектурных механизмов для построения устойчивых, абстрактных, конфигурируемых представлений о реальности, что отсекает их от возможности проведения R&D и управления бизнес-процессами (они никогда не смогут стать результативными и надежными менеджерами, управляющими).

Масштабирование в рамках прежних архитектур не снимет этих ограничений.

Добавление параметров и данных улучшает качество интерполяции, но не добавляет по-настоящему новых когнитивных способностей, т.е. не приводит к пониманию модели мира, всех взаимосвязей и противоречий.

LLMs запоминают и интерполируют огромный набор наблюдённых паттернов, но не выделяют явной структуры мира, из которой можно выводить новые правила.

LLM не думает в привычном смысле, а продолжает (точнее предсказывает) последовательность токенов.

Такой подход прекрасно подходит для статичной задачи: классификация, перевод, конспектирование, генерация гипотез в схожем конфигурационном паттерне, но это плохо аппроксимируется на реальный мир, где:

• Необходимо выстраивать динамическое равновесие в условиях изменяющихся экзогенных факторов

• Корреляции и взаимосвязи не статичны – устойчивость связи сейчас может быть деконструирована в будущем

• Цели меняются от ситуации к ситуации;

• LLM должна уметь ставить подзадачи и производить многофакторную декомпозицию

• Нужны механизмы выбора между альтернативными, но достоверными сценариями будущего для полноценного моделирования.

Все современные LLMs обучаются на истории того, как кто-то ранее описал прошлое (механизм предвзятости), но не способны самостоятельно синтезировать собственный опыт.

Это информационное обеднение принципиально менее пригодно для построения физической, причинной модели мира.

Реальный мир устроен как непрерывная динамика объектов, сил и ограничений, а не как поток токенов с заранее вшитой корреляционной зависимостью.

Попробую к вечеру доосмыслить концептуальные зарисовки Лекуна, синхронизировав со своими.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей