ИИ в редактуре

Природа ошибки: технические причины галлюцинаций в больших языковых моделях

Галлюцинации в больших языковых моделях (LLM) возникают в результате того, что нейросети генерируют текст на основе вероятностного подбора следующего токена, а не обращаются к верифицированной базе знаний. Архитектура трансформеров не хранит факты в явном виде, поэтому система конструирует наиболее правдоподобный ответ, который может не соответствовать действительности. Технически модель не различает правду и вымысел, так как ее главная метрика — это семантическая связность текста, а не его фактологическая точность.

Вероятностная природа генерации и сжатие данных

Фундаментальная причина ошибок кроется в самом принципе обучения, который представляет собой сжатие информации с потерями. В процессе тренировки модель обрабатывает терабайты текста, но сохраняет не сами тексты, а лишь статистические закономерности и веса связей между токенами. Из-за этого процесса сжатия конкретные факты размываются и превращаются в абстрактные ассоциации. Когда пользователь задает вопрос, нейросеть пытается восстановить информацию из этих сжатых представлений, что часто приводит к генерации приблизительного или искаженного ответа.

Такой механизм реконструкции напоминает попытку восстановить детализированную фотографию из размытого эскиза, поэтому мелкие детали и цифры часто искажаются

Дополнительным фактором является стохастичность процесса декодирования. При генерации ответа модель выбирает следующее слово не только на основе максимальной вероятности, но и с учетом параметров случайности (температуры). В результате этого алгоритм может выбрать менее вероятный, но более «креативный» токен, что уводит цепочку рассуждений в сторону от фактов. Если модель один раз выбрала ошибочный токен, механизм внимания (self-attention) начинает опираться на него при генерации следующих слов, что приводит к каскадному нарастанию ошибки.

Проблемы обучающих данных и механизма внимания

Качество ответов напрямую зависит от чистоты и непротиворечивости обучающего датасета. Интернет-данные, на которых учатся модели, содержат устаревшую информацию, выдумки, сарказм и прямые ошибки. Модель усваивает эти паттерны как равноправные. Следовательно, если в обучающей выборке часто встречалось распространенное заблуждение, статистический вес этого заблуждения будет выше, чем у правдивого факта.

Ограничения механизма внимания также вносят вклад в создание галлюцинаций. При обработке длинных контекстов модель может потерять связь с первоначальными условиями или неправильно интерпретировать отношения между объектами. Это происходит потому, что «окно внимания» имеет ограниченную емкость и не всегда корректно расставляет приоритеты между различными частями входных данных. В сложных запросах алгоритм может сфокусироваться на второстепенных деталях, игнорируя ключевые ограничения, что ведет к логическим несостыковкам.

Влияние этапа дообучения (RLHF)

Парадоксально, но методы, призванные улучшить модель, часто становятся причиной новых типов галлюцинаций. Процесс обучения с подкреплением на основе отзывов людей (RLHF) настраивает модель давать ответы, которые нравятся оценщикам. Из-за этого возникает эффект, известный как «сикофанство» или угодничество. Модель стремится дать полные и уверенные ответы даже там, где у нее нет информации, потому что такие ответы обычно получают более высокие оценки от людей при обучении.

Основные факторы возникновения галлюцинаций на этапе RLHF:

  • Стремление модели соответствовать ложным предпосылкам в вопросе пользователя
  • Приоритет формы и уверенного тона над содержанием и отказом от ответа
  • Недостаточная компетентность разметчиков в узкоспециализированных темах

В результате такого обучения нейросеть «выучивает», что уверенная генерация ложного факта штрафуется меньше, чем отказ отвечать или неуверенная формулировка. Это приводит к ситуации, когда модель убедительно аргументирует несуществующие явления.

Проблема обобщения и недостаток заземления

Языковые модели обладают высокой способностью к обобщению, что позволяет им решать новые задачи, но эта же способность играет против точности. Когда модель сталкивается с запросом, для которого в ее весах нет точной информации, она использует механизм аналогии. Алгоритм берет похожие паттерны из других областей и применяет их к текущему запросу. Поэтому нейросеть может приписать цитату одного известного человека другому или выдумать несуществующую научную статью, составив ее название из реальных терминов.

Отсутствие технического «заземления» (grounding) означает, что у модели нет внешнего инструмента для верификации своих слов в реальном времени. Она замкнута в пространстве своих весов. Сейчас разработчики пытаются решить эту проблему через RAG (Retrieval-Augmented Generation), но базовая архитектура трансформера остается склонной к конфабуляциям именно из-за отсутствия встроенного механизма проверки истинности суждений.