Понимание сильных и слабых сторон LLMs позволит не только использовать их более эффективно в личных и бизнес проектах, но и понимать уязвимость невероятного пузыря, не имеющих аналогов в истории человечества (около 52...

Понимание сильных и слабых сторон LLMs позволит не только использовать их более эффективно в личных и бизнес проектах, но и понимать уязвимость невероятного пузыря, не имеющих аналогов в истории человечества (около 52 избыточной мировой капитализации на ИИ хайпе и до 0.5 трлн инвестиций в год от мировых компаний в реальной экономике).

Оглушительный хайп вокруг ИИ во многом связан с попыткой проекцией сверхъестественных свойств, но эти LLMs имеют массу ограничений. Я выпустил очень много материалов, но даже в них рассмотрел лишь часть.

Начну с самого важного и принципиального.

Фундаментальная неспособность к инновациям. Любая инновация (новая идея, альтернативная гипотеза, концептуальный или технологический прорыв) - это статистическая аномалия (выброс), а архитектура LLM в своем ядре заточена эти выбросы сглаживать и/или игнорировать (зависит от пресетов и настроек моделей).

LLM обучается минимизировать ошибку (Loss Function) на огромном массиве данных, она математически штрафуется за любые отклонения от «нормального» распределения. Веса модели - это усредненный слепок коллективного разума (и глупости).

LLM архитектурна не способна к инновациям, это семантический блендер. Если в обучающие данные положить стейк (научные факты), торт (художественную литературу) и гнилые овощи (форумный спам, интернет дебаты), на выходе вы получите однородную, легко усваиваемую питательную массу без вкуса и текстуры. В этом важно то, что выделить обратно стейк невозможно, из этого следует …

Качество данных определяет все. Это не архитектурный баг, а обучающее несовершенство. В своей основе LLM выстраивают вектор распределения на статической интерполяции, где наиболее часто встречающиеся семантические конструкции имеют больший вес. Другими словами, чем чаше в обучении встречается некоторое утверждение, тем он более истинное для LLMs (архитектурная уязвимость), но в обучении эксабайты медиа срачей и скама (обучающее несовершенство) всегда будут доминировать над очень ограниченной выборкой качественной научной, технической или художественной литературой.

Для решения этой проблемы есть множество механизмов, но они хороши в теории, а не на практике.

Data Up-sampling, когда в корпусе данных датасеты делятся на домены (энциклопедии, научная литература, база кода, интернет статьи, форумный троллинг и т.д), где приоритет отдают качественным публикациям и надежным источникам.

Это хорошо в теории, на практике нет надежных механизмов сепарации эксабайт (в 1 миллион раз больше, чем терабайт), в итоге происходит смешение данных и доминирование токсичной информации, которой на многие порядки выше, чем качественной.

Фильтрация на основе классификаторов с автоматической классификацией через специально натреннированную нейросеть (модель-цензор) для отсеивания откровенного скама, но не существует механизмов отсечения семантически качественных материалов, но концептуально пустых (здесь должен быть человек – эксперт, но на практике весь отбор данных почти полностью автоматический).

Дедупликация – когда через специальные алгоритмы сжимаются миллионы репостов одного и того же скама в единичный экземпляр для устранения переполнения стэка данных дубликатами. Если этого не делать, уникальная научная статья будет иметь нулевой вес в сравнении с эксабайтами медиа скама.

Теория от практики отличается. Нет надежного механизма агрегации и сепарации качественных источников от некачественных, когда речь идет об обработке сотен эксабайт данных.

Как решение, брать за основу архитектуру модели с небольшим количеством параметров на 8-10 млрд и целенаправленно обучать на специализированных доменах (например, медицина, химия, физика, программирование и т.д.). На выходе получится скорее очень сухое, скучное справочное бюро без возможности междисциплинарного взаимодействия и полноценного размышления.

Универсальные модели (в открытом доступе) страдают «заражением» токсичными данными и искаженной «картиной мира» не только из-за ошибок развесовки и несовершенства алгоритма, но и по причине ошибочной сепарации данных и изначально некачественных источников.

Источник: Telegram-канал "Spydell_finance"

Топ

Лента новостей