Почему неустранимы галлюцинации LLMs?
Галлюцинации в LLM неустранимы (в рамках текущей авторегрессионной архитектуры трансформеров), потому что они являются не «багом» (ошибкой), а неотъемлемой «фичей» (свойством) работы вероятностного генератора.
Галлюцинации – это фундаментальная, архитектурная основа LLMs, их можно снизить, но нельзя устранить.
Галлюцинация возникает тогда, когда неверная последовательность токенов имеет высокую статистическую вероятность (например, из-за похожести на другие тексты). Модель не может «остановиться и проверить», потому что у неё нет модуля верификации и самокоррекции, есть только модуль генерации.
В фазе предварительного обучения (pre-training) для LLMs формируется машинная «картина мира» через компрессию, сжатие экзабайт данных различной модальности в гигабайты или терабайты весов (параметров).
Невозможно восстановить исходный сигнал без потерь, если коэффициент сжатия составляет 100:1 или 1000:1.
Когда вы спрашиваете точный факт, модель не достает его из базы данных (её нет). Она пытается реконструировать (аппроксимировать) информацию из размытых слепков весов.
Галлюцинация - это артефакт реконструкции
. Как JPEG добавляет «шум» на краях объектов, так и LLM добавляет вымышленные детали там, где информация в весах «размыта» или недостаточно представлена. Устранить это можно только отказавшись от сжатия, но тогда модель перестанет быть генеративной.
Механизм, позволяющий модели галлюцинировать, – это тот же самый механизм, который позволяет ей быть креативной и обобщать.
Если из LLMs изъять «механизм бредогенерации», LLMs превратится в справочное бюро без возможности контекстного развертывания.
Не существует лимита галлюцинаций, LLMs никогда не остановится в потоке бреда, т.к. нет механизма обратной связи. Человек проверяет или расщепляет свои галлюцинации и заблуждения об объективную реальность через обратную связь с окружающей действительностью, через органы чувств и физический опыт.
LLM не имеет выхода в реальность. Для неё «реальность» — это то, что статистически вероятно в тексте. У неё нет внешнего референса для заземления и верификатора, чтобы сверить свой прогноз.
Точность генерации LLMs тем выше, чем выше экспозиция данных в обучающей выборке. Другими словами, чем чаще представлен факт, процесс или событие в обучающих данных (популярные факты, которые повторяются миллиарды раз: «Небо чаще всего голубое, а не красное», «2+2=4» и т.д.)
Но как только запрос касается редких знаний (специфический научный факт, малоизвестные события, альтернативный взгляд на события, биографии малоизвестного человека и т.д.), плотность данных падает.
• В этой зоне модель начинает заполнять пробелы наиболее вероятными шаблонами.
• Поскольку архитектура требует выдать ответ (complete the sequence), она вынуждена выдумать правдоподобное завершение, вместо того чтобы сказать «я не знаю» (если её специально жестко не натренировали на отказ, что тоже не всегда работает).
В LLMs относительно достоверно то, что имеет наибольшее представление в обучающих данных, но по мере снижения плотности данных – растут галлюцинации.
Репликация мусора и конфликт распределения данных. Изначально LLMs обучались на человеческих данных, которые в своей основе далеки от концептуальной чистоты, нашпигованные заблуждениями, ложными утверждениями и идиотизмом, где сам человек часто не может определить реальность от вымысла.
Запрет на «отказ от ответа». Почти все модели в посткалибровке обучаются быть полезными, поэтому «отрицательный ответ или отказ от ответа» не вознаграждается, что приводит к генерации ответа даже там, где ответа быть не может (LLM не может эффективно отказывать, т.к «сама не знает, что она не знает»).
Снижение галлюцинаций происходит либо на этапе RLHF, где инженерами вручную и очень избирательно устанавливаются «правильные» веса и факты, либо в процессе обращения к внешним источникам (интернет, базы данных, внешние источники данных, внешние верификаторы).







































