Фундаментальные ограничения современных LLMs
Интересное интервью Ильи Суцкевера (бывшего главного инженера OpenAI, а ныне основателя Safe Superintelligence). Это его первое публичное выступление с декабря 2024, но учитывая, что он является архитектором современного ядра LLM, его взгляд ценен.
Идеи Ильи практически полностью пересекаются с моими концепциями, высказанными в нескольких циклах материалов по ИИ в этом году, поэтому перескажу, по сути, собственные идеи словами Ильи, но с более научным обрамлением.
Главный тезис Ильи заключается в том, что период с 2012 по 2020 годы был «эпохой исследований», которая сменилась «эпохой масштабирования» (2020–2025), когда доминировал простой рецепт:
больше данных + больше вычислений = лучше результат.
Дополню от себя: это выражается в экспоненциальном росте капитальных расходов, достигающих 400 млрд в 2025 среди бигтехов США и зеркалировании выручки у производителей оборудования для развертывания ИИ.
•Предел данных: предварительное обучение (pre-training) упирается в конечность доступных данных. Простое увеличение масштаба модели больше не дает прежнего качественного скачка.
•Смена парадигмы: если раньше вопрос «на каких данных учить?» не стоял (ответ был «на всех»), то теперь, особенно в RL (обучении с подкреплением), отбор данных и создание среды становятся критическими задачами.
•Возврат к исследованиям: индустрия снова входит в фазу, где прогресс зависит не столько от размера кластера, сколько от новых идей и алгоритмов.
Чрезвычайно неэффективное использование вычислительных мощностей:
Современная архитектура трансформеров (Илья входил в число ключевых инженеров, которые преобразовали прототип архитектуры в текущую конфигурацию LLMs) была создана в 2017 на всего двух чипах в эквиваленте Blackwell, сейчас ИИ фабрики требуют миллионов чипов.
Современные модели, несмотря на огромные объемы обучения, обобщают знания значительно хуже людей – им требуются миллионы и миллиарды примеров, чтобы совершать элементарные операции, где у людей уходят часы (10 часов практики, чтобы научиться водить машину у человека на базовом уровни и десятки тысяч часов обучающих видео у моделей).
Pre-training – это статистическая проекция мира, созданная людьми. Модель не учится на реальности, она учится на текстовой проекции реальности, созданной людьми. Pre-training дает широту знаний, но не дает глубины физического понимания причинно-следственных связей. Поэтому модели галлюцинируют – у них нет «заземления» в реальности, только в статистике слов.
Чрезвычайная узконаправленность – LLMs демонстрируют выдающиеся результаты в формализованных и натреннированных задачах, но небольшое отклонение в сторону – модель сразу рассыпается, эффективность снижается (человек способен обеспечивать более эффективный трансфер опыта из одной дисциплины в другую, а LLM – нет).
Имитация компетентности – компании «надрачивают» бенчмарки, чтобы казаться сильнее, создавая инфоповоды (подтверждает мои опасения), бенчмарки больше не показательны. Это создает иллюзию интеллекта, которая рассыпается при смене контекста. «Ум» в тестах не всегда транслируется в надежность в реальных задачах.
Нет функции ценности по интерпретации Ильи. Для LLMs нужно дойти до конца итерации, чтобы оценить результат, тогда как человек за счет интуиций и композиции эмоций может заранее понимать неправильный путь решения.
Например, чувство дискомфорта или неуверенности возникает до завершения задачи, позволяя корректировать путь.
Если модель думала 100 или 1000 шагов и в конце ошиблась, весь этот вычислительный путь часто отбрасывается или маркируется как негативный, где огромная энергия тратится впустую, а человек намного раньше (в процессе решения) понимает ошибочность пути.
LLM могут генерировать правдоподобный текст, но не обладают внутренней «интуицией» о правильности направления рассуждений, пока не получат внешний фидбек.
Основное концептуальное ядро в интервью – уже уперлись в потолок, дальнейшее масштабирование неэффективно, необходимо снова возвращаться к алгоритмам. Продолжение следует…







































