Тупиковая ветвь эволюции
Дженсена Хуанга можно понять – он промоутирует вычислительные кластеры, с которых зарабатывает сотни миллиардов, разогрев капитализацию свыше 4 трлн. В его картине мира вычислительные кластеры нужны всем и каждому в неограниченных количествах и всегда.
В представлении многих промоутеров ИИ (ключевые фигуры текущих ИИ вендоров) экспансия ИИ только начинается, а я же выскажу абсолютно непопулярную точку зрения – в рамках нынешней парадигмы экспоненциальное развитие ИИ УЖЕ ЗАКОНЧЕНО!
У меня есть ультимативные аргументы.
Каждая ветвь эволюции современных LLMs дается со все большим трудом при незначительном росте производительности и эффективности.
Это стало понятно с провальной GPT-4.5 Orion и это подтвердил релиз GPT-5 (сейчас лучшая и самая мощная модель, но от OpenAI ожидали прорыва, которого не произошло).
Существуют известные ограничения:
Технологические и ресурсные ограничения связаны прежде всего с вычислительными ресурсами и оборудованием: увеличение количества параметров модели или объёма обучающих данных требует экспоненциально большего количества графических процессоров, оперативной памяти и электроэнергии.
Ограничения набора данных проявляются в доступности качественных данных. Лидеры индустрии уже использовали почти все легкодоступные текстовые данные сети. Дальнейшее улучшение требует либо дорогостоящей лицензии на закрытые дата-сеты, либо генерации синтетических данных – но последнее пока не привело к прорыву.
Сохранение закона масштабирования больше не гарантировано, а актуализируется принцип убывающей отдачи. Достигнут предел или потолок эффективности.
Грубо говоря, каждый условный процентный пункт прироста интегральной производительности стоит все больше денег и ресурсов. Если всего три года назад производительность росла экспоненциально при незначительных расходах, сейчас полностью противоположный баланс – незначительные улучшения стоят сотен миллиардов долларов, которые невозможно монетизировать.
Проблема заключается в фундаментальных ограничениях архитектуры современных LLMs.
Все современные флагманские модели (ChatGPT, Claude, Gemini, Grok и другие) построены на архитектуре трансформеров, которая прекрасно подходит для анализа текста и обучения на огромных массивах данных, но имеет встроенные слабые места.
Фундаментальная невозможность расширения контекстного окна.
Основная причина ограниченности контекстного окна кроется в сердце архитектуры трансформера — механизме самовнимания (self-attention). Для определения связей между элементами последовательности модель должна вычислить «оценку внимания» для каждой пары токенов. Это приводит к тому, что вычислительные и ресурсные затраты растут квадратично по отношению к длине последовательности.
Проще говоря, удвоение длины контекста в четыре раза увеличивает объем необходимых вычислений и памяти. Этот экспоненциальный рост создает жесткий физический и финансовый барьер: в какой-то момент дальнейшее расширение окна становится непомерно дорогим и медленным.
При расширении контекстного окна в 100 раз с 10 тыс до 1 млн токенов требуется в 10000 (10 тыс) раз больше вычислительных ресурсов. Архитектура транформеров в свой основе чудовищно неэффективна.
Кроме того, такие модели работают в режиме пакетной обработки, не имея постоянной долгосрочной памяти: вся память ограничена контекстным окном одной сессии. Это затрудняет поддержание знаний или навыков за пределами короткого диалога без полного переразвития модели, что исключает накопление опыта и «прививания навыков» и корректных инструкций LLM.
Есть различные алгоритмы оптимизации удержания широкого контекстного окна (не буду вдаваться в математику), но тут всплывает другая проблема.
Помимо вычислительных ограничений, есть и проблемы стабильности и качества при расширении контекста – архитектурные ограничения, затрудняющие эффективное воспроизведение информации на всей ширене контекстного окна.
Даже если игнорировать стоимость, простое увеличение размера окна не гарантирует повышения качества работы модели.
Продолжение следует.