Критерий истинности в LLMs
Важнейшая тема, которую несколько раз затрагивал, но не раскрывал подробно, буду устранять пробел в повествовании.
LLM - генератор токенов на статистическом распределении, т.е. «критерием истинности» в LLM является наиболее вероятный вектор распределения
, где истина для машины – это не более, чем статистически доминирующий паттерн.
Критерий истинности для LLMs и критерий истинности для людей – это две разные сущности, которые часто не совпадают, хотя в большинстве случаев коррелируют.
В каждый момент времени для генерации очередного токена архитектура нейросетей выстроена таким образом, что всегда ищется вектор распределения, который статистически наиболее ожидаем в данном контексте через динамическую балансировку вероятностями.
Это означает, что контекст имеет значение, а из этого вытекает, что изначально неверный, ошибочный путь (ранее сформированная последовательность токенов) непрерывно экстраполируется в будущем (но об этом в других материалах), наследуя ошибки из-за отсутствия встроенного механизма самокоррекции.
Говоря математически, «Истина» в LLM – это математический оптимум функции вероятности в конкретном локальном контексте.
Для нейросети «правильный» ответ – это не тот, который соответствует физической реальности, а тот, который обладает наименьшей перплексией (наименьший статистическим выбросом) и наибольшим весом в финальном векторе распределения.
LLM – это машина, оптимизирующая когерентность (связность), а не соответствие фактам. Связи с реальностью в этом нет, есть только связь с накопленной статистикой прошлых текстов.
Как перевести на человеческий язык?
Если набор токенов «Париж» имеет вероятность 0.99 после выражения «Столица Франции — ...», это для модели абсолютная истина, но, если модуль обучать на контексте средневековья, где Земля – плоская, Солнце вращается вокруг Земли и еще сотни примеров антинаучных заблуждений, для LLM – истиной будет то, что Земля – плоская.
Это означает, что для LLMs правдой будет то, что встречается чаще всего. Соответственно, любой популярный нарратив в сети воспринимается, как истина вне зависимости от степени достоверности.
Из этого напрямую вытекает, что LLM усредняет и обобщает нарративы, а не ищет истину. Понятие «истина» математически не вшито в архитектуру LLMs
Чтобы добавить вариативность ответов, имитируя творчество и креатив, в архитектуру LLMs встроен цифровой шум в виде параметра Temperature, создавая искусственный вектор распределения, но не меняя фундаментального принципа.
Архитектурно (почти все LLMs построены по единому принципу) LLMs оптимизированы генерировать текст, который выглядит правильным для человека, нравится человеку, пытаясь вызвать положительный фидбэк.
• Популярные заблуждения (мифы, городские легенды, упрощения) часто имеют очень стройную, повторяющуюся структуру повествования.
• Сложная научная истина часто контринтуитивна, редко встречается и требует специфической терминологии.
Для исправления встроенного бага в систему существует концепция постобучения в виде RLHF (Reinforcement Learning from Human Feedback), т.е. обучение с учителем/подкреплением.
Иногда в процессе RLHF инженеры вручную правят популярные заблуждения и теории заговора к контринтуитивной и неприятной истине (с человеческой точки зрения).
Однако, зачастую, RLHF не учит модель новым фактам, а учит модель скрывать или приоритизировать уже имеющиеся знания в зависимости от того, что считается «хорошим» ответом по версии разработчиков. LLMs – по сути, тонкая настройка (fine-tuning) уже сформированной нейронной структуры.
RLHF учит, что можно говорить, а что нельзя и главное – как говорить (тональность, структура повествования, форматирование ответа, глубина раскрытия и т.д.), где навешиваются фильтры безопасности, цензуры, полезности. Именно на этот этапе LLMs учат «угождать» клиентам и быть полезным в задачах.
В процессе RLHF модель часто учится, что «хороший ответ» — это тот, который подтверждает убеждения пользователя, а не тот, который является объективной истиной.






































