Понимание сильных и слабых сторон LLMs позволит не только использовать их более эффективно в личных и бизнес проектах, но и понимать уязвимость невероятного пузыря, не имеющих аналогов в истории человечества (около 52...

2 декабря 2025, 19:13

Понимание сильных и слабых сторон LLMs позволит не только использовать их более эффективно в личных и бизнес проектах, но и понимать уязвимость невероятного пузыря, не имеющих аналогов в истории человечества (около 52 избыточной мировой капитализации на ИИ хайпе и до 0.5 трлн инвестиций в год от мировых компаний в реальной экономике).

Оглушительный хайп вокруг ИИ во многом связан с попыткой проекцией сверхъестественных свойств, но эти LLMs имеют массу ограничений. Я выпустил очень много материалов, но даже в них рассмотрел лишь часть.

Начну с самого важного и принципиального.

Фундаментальная неспособность к инновациям. Любая инновация (новая идея, альтернативная гипотеза, концептуальный или технологический прорыв) - это статистическая аномалия (выброс), а архитектура LLM в своем ядре заточена эти выбросы сглаживать и/или игнорировать (зависит от пресетов и настроек моделей).

LLM обучается минимизировать ошибку (Loss Function) на огромном массиве данных, она математически штрафуется за любые отклонения от нормального распределения. Веса модели - это усредненный слепок коллективного разума (и глупости).

LLM архитектурна не способна к инновациям, это семантический блендер. Если в обучающие данные положить стейк (научные факты), торт (художественную литературу) и гнилые овощи (форумный спам, интернет дебаты), на выходе вы получите однородную, легко усваиваемую питательную массу без вкуса и текстуры. В этом важно то, что выделить обратно стейк невозможно, из этого следует

Качество данных определяет все. Это не архитектурный баг, а обучающее несовершенство. В своей основе LLM выстраивают вектор распределения на статической интерполяции, где наиболее часто встречающиеся семантические конструкции имеют больший вес. Другими словами, чем чаше в обучении встречается некоторое утверждение, тем он более истинное для LLMs (архитектурная уязвимость), но в обучении эксабайты медиа срачей и скама (обучающее несовершенство) всегда будут доминировать над очень ограниченной выборкой качественной научной, технической или художественной литературой.

Для решения этой проблемы есть множество механизмов, но они хороши в теории, а не на практике.

Data Up-sampling, когда в корпусе данных датасеты делятся на домены (энциклопедии, научная литература, база кода, интернет статьи, форумный троллинг и т.д), где приоритет отдают качественным публикациям и надежным источникам.

Это хорошо в теории, на практике нет надежных механизмов сепарации эксабайт (в 1 миллион раз больше, чем терабайт), в итоге происходит смешение данных и доминирование токсичной информации, которой на многие порядки выше, чем качественной.

Фильтрация на основе классификаторов с автоматической классификацией через специально натреннированную нейросеть (модель-цензор) для отсеивания откровенного скама, но не существует механизмов отсечения семантически качественных материалов, но концептуально пустых (здесь должен быть человек эксперт, но на практике весь отбор данных почти полностью автоматический).

Дедупликация когда через специальные алгоритмы сжимаются миллионы репостов одного и того же скама в единичный экземпляр для устранения переполнения стэка данных дубликатами. Если этого не делать, уникальная научная статья будет иметь нулевой вес в сравнении с эксабайтами медиа скама.

Теория от практики отличается. Нет надежного механизма агрегации и сепарации качественных источников от некачественных, когда речь идет об обработке сотен эксабайт данных.

Как решение, брать за основу архитектуру модели с небольшим количеством параметров на 8-10 млрд и целенаправленно обучать на специализированных доменах (например, медицина, химия, физика, программирование и т.д.). На выходе получится скорее очень сухое, скучное справочное бюро без возможности междисциплинарного взаимодействия и полноценного размышления.

Универсальные модели (в открытом доступе) страдают заражением токсичными данными и искаженной картиной мира не только из-за ошибок развесовки и несовершенства алгоритма, но и по причине ошибочной сепарации данных и изначально некачественных источников.

Больше новостей на Spbnews78.ru