Галлюцинации нейросетей: что это и как минимизировать

В 2023 году в федеральном суде Манхэттена развернулась показательная история, ставшая предостережением для эпохи генеративного искусственного интеллекта. В деле Mata v. Avianca, Inc. двое нью-йоркских юристов, Стивен Шварц и Питер ЛоДука, представили суду юридическую записку, содержащую ссылки на шесть несуществующих судебных дел. Эти прецеденты, укомплектованные вымышленными цитатами и сфабрикованными решениями, были полностью сгенерированы чат-ботом ChatGPT. Судья, налагая на юристов и их фирму штраф, отметил, что использование ИИ само по себе не является «по своей сути неправомерным», однако юристы обязанны обеспечивать точность своих документов. Этот случай ярко иллюстрирует одну из самых серьезных проблем современных больших языковых моделей (LLM): их способность генерировать уверенную, правдоподобную, но абсолютно ложную информацию.
Определение терминологии
В области искусственного интеллекта галлюцинация определяется как ответ, сгенерированный моделью ИИ, который содержит ложную, вводящую в заблуждение или бессмысленную информацию, представленную как факт. Этот термин является метафорой, заимствованной из психологии, однако между ними есть ключевое различие. Человеческие галлюцинации связаны с ложным восприятием, в то время как галлюцинации ИИ относятся к ошибочно сконструированным ответам, что ближе к понятию «конфабуляция».
Интересно, что сам термин претерпел семантический сдвиг. В начале 2000-х годов в области компьютерного зрения он использовался с положительной коннотацией для описания процесса добавления правдоподобных деталей к изображениям (например, «галлюцинация лица»). Однако в конце 2010-х его значение изменилось, и он стал обозначать фактически неверные результаты в задачах обработки естественного языка. Широкое распространение термин получил после запуска ChatGPT в 2022 году, когда миллионы пользователей столкнулись со склонностью чат-ботов уверенно выдумывать факты.
Таксономия галлюцинаций
Чтобы обеспечить четкую аналитическую основу, необходимо классифицировать различные типы галлюцинаций. Это важно, поскольку разные виды ошибок имеют разные первопричины и требуют различных стратегий для их устранения. Например, галлюцинация, противоречащая исходному тексту, может быть решена улучшением механизмов внимания модели, в то время как выдумка совершенно новой информации указывает на более глубокую проблему отсутствия «заземления» и может потребовать таких решений, как генерация с дополненным поиском (RAG).
Таксономия галлюцинаций ИИ
Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!
| Категория | Тип | Определение | Пример |
| Привязка к источнику | Внутренняя галлюцинация (Intrinsic) | Сгенерированный вывод противоречит предоставленной исходной информации или контексту. | Источник: «Отчет гласит, что проект был завершен в 2023 году». Резюме ИИ: «Проект завершился в 2022 году». |
| Внешняя галлюцинация (Extrinsic) | Сгенерированный вывод содержит информацию, которую невозможно проверить на основе исходного текста; по сути, выдумываются новые «факты». | Источник: «Мария Кюри была физиком и химиком». Биография от ИИ: «Мария Кюри была физиком, химиком и выдающейся скрипачкой». | |
| Фактическая корректность | Фактологическая галлюцинация (Factuality) | Сгенерированный вывод содержит утверждение, которое не соответствует действительности с точки зрения знаний о реальном мире. | «Альберт Эйнштейн выиграл золотую медаль по фехтованию на Олимпийских играх». |
| Следование инструкциям | Галлюцинация неверности (Faithfulness) | Сгенерированный вывод не соответствует инструкциям пользователя или логическим ограничениям запроса. | Запрос: «Переведи «hello» на французский». Ответ ИИ: «»Hello» — это распространенное приветствие в английском языке». |
| Логическая несогласованность | Вывод содержит внутренние противоречия или не следует логической последовательности. | «Ответ — 5. Шаг 1: 2+2=4. Шаг 2: 4+2=5». |
Фундаментальная проблема галлюцинаций возникает из-за несоответствия между целью проектирования LLM и ожиданиями пользователя. Большие языковые модели по своей архитектуре являются сложными инструментами автодополнения или «симуляторами токенов», предназначенными для предсказания следующего наиболее статистически вероятного слова в последовательности на основе закономерностей в их обучающих данных. Они оптимизированы для лингвистической связности, а не для фактической точности. Пользователи, однако, часто взаимодействуют с ними как с системами извлечения знаний, что приводит к опасному разрыву между воспринимаемыми и реальными возможностями. Таким образом, галлюцинация — это не «сбой» модели, а ее работа в точном соответствии с ее устройством. Ошибка кроется в нашем антропоморфизме и ожиданиях.
Генезис фактических отклонений
В этой главе представлен глубокий технический анализ коренных причин галлюцинаций, разделяя проблему на составные части: данные, архитектура и вероятностная природа моделей.
Дилемма данных: фундамент ошибочных знаний
Качество LLM неразрывно связано с обучающими данными. Если данные неполные, предвзятые, устаревшие или содержат фактические ошибки, модель унаследует и воспроизведет эти недостатки. Например, обучение на данных, смещенных в сторону одной демографической группы, может привести к предвзятым и неточным ответам на запросы о других группах. Огромный объем данных, необходимый для обучения, делает всестороннюю проверку человеком невозможной. Кроме того, LLM обучаются на статическом срезе данных, что означает, что их знания устаревают в момент завершения обучения, заставляя их уверенно излагать устаревшие факты. Противоречивая или неверная информация в обучающих данных может создавать внутренние конфликты, и как только модель генерирует первоначальную ошибку, она может продолжать последовательно создавать неверный контент, чтобы поддерживать согласованность со своей собственной ложью — так называемый «эффект снежного кома».
Архитектурные и алгоритмические ограничения
Одной из распространенных проблем машинного обучения является переобучение (overfitting), когда модель слишком хорошо запоминает обучающие данные, включая их шум и случайные флуктуации. Это мешает ей обобщать знания на новые, невиданные данные и может привести к применению неуместных выученных паттернов, что и вызывает галлюцинации.
Архитектура трансформера, лежащая в основе большинства современных LLM, имеет «механизм внимания» с фиксированным окном контекста. В длинных диалогах или при обработке больших документов модель может «забыть» информацию из начала ввода, что приводит к несогласованности и противоречиям. Кроме того, LLM генерируют текст последовательно, токен за токеном (слово или часть слова), и каждый новый токен зависит от уже сгенерированной последовательности. Этот процесс не имеет механизма для исправления ранее сгенерированных частей ответа. Таким образом, ранняя, незначительная вероятностная ошибка может каскадом нарастать и усиливаться, приводя к полностью сфабрикованному, но внутренне согласованному повествованию.
Вероятностная природа генерации
Это центральный механизм работы LLM. Они не «знают» и не «понимают» факты. Они вычисляют вероятность следующего токена, учитывая предыдущие. Сгаллюцинированный факт — это просто последовательность токенов, которая является статистически правдоподобной на основе обучающих данных, даже если она не имеет под собой фактической основы. Случайность или «креативность» вывода можно контролировать с помощью параметра, называемого температурой. Высокая температура увеличивает вероятность выбора менее вероятных токенов, способствуя творчеству, но также значительно повышая риск галлюцинаций. Низкая температура делает вывод более детерминированным и сфокусированным, но он может стать повторяющимся.
Отсутствие заземления
LLM лишены связи с реальным миром. У них нет прямого опыта, они не могут получать доступ к информации в реальном времени и не обладают встроенным механизмом для проверки правдивости генерируемых ими утверждений по внешним, авторитетным источникам. Весь их «мир» — это статистические закономерности в их обучающих данных. Именно поэтому они могут выдумывать URL-адреса или ссылаться на несуществующие источники.
Причины галлюцинаций не являются независимыми, а существуют в самоподдерживающемся цикле. Пробелы в обучающих данных заставляют модель больше полагаться на вероятностную генерацию, чтобы «заполнить пробелы». Этот процесс не ограничен каким-либо заземлением в реальном мире, а архитектурная неспособность модели к самокоррекции означает, что любая первоначальная выдумка закрепляется и развивается. Это создает петлю обратной связи, в которой пробел в данных вызывает правдоподобное, но необоснованное предположение, которое затем закрепляется и расширяется архитектурой модели.
Примеры ИИ галлюцинаций
Примеры галлюцинаций нейросетей в реальном мире, три громких инцидента, которые демонстрируют юридические, профессиональные и финансовые риски.
Корпоративная ответственность: прецедент с чат-ботом Air Canada
В 2022 году клиент Air Canada, Джейк Моффат, получил от чат-бота на сайте авиакомпании неверную информацию о том, что он может подать заявку на скидку по тарифу для поездки в связи с тяжелой утратой задним числом. Фактическая политика компании требовала предварительного бронирования по этому тарифу. Air Canada отказала в возврате средств и в суде выдвинула «примечательный» аргумент, что чат-бот является «отдельным юридическим лицом, ответственным за свои собственные действия», и что компания не несет ответственности за его ответы.
Трибунал по гражданским спорам Британской Колумбии однозначно отверг эту защиту, заявив: «Для Air Canada должно быть очевидно, что она несет ответственность за всю информацию на своем веб-сайте», независимо от того, исходит ли она со статической страницы или от чат-бота. Авиакомпанию обязали выплатить возмещение и компенсацию. Это решение является знаковым событием, которое пробивает «корпоративную вуаль» для агентов ИИ. Оно устанавливает юридический прецедент, согласно которому компании не могут рассматривать свои системы ИИ как автономные третьи стороны для уклонения от ответственности. Это решение фактически кодифицирует принцип «подотчетности ИИ», делая организации напрямую ответственными за действия и результаты развернутого ими ИИ.
Профессиональная халатность: инцидент Mata v. Avianca, Inc.
Как уже упоминалось, юристы Стивен Шварц и Питер ЛоДука представили суду записку со ссылками на несуществующие судебные дела, сгенерированные ChatGPT. Критической ошибкой юристов была не только первоначальная оплошность, но и их упорная защита вымышленных дел после того, как суд усомнился в их подлинности. Шварц даже «спросил» у ChatGPT, реальны ли эти дела, и бот заверил его, что да. Судья оштрафовал юристов и их фирму на 5000 долларов, заявив, что они «отказались от своих обязанностей». Он уточнил, что проблема заключалась не в использовании ИИ, а в неспособности профессионалов проверить его результаты.
Этот случай показывает, что генеративный ИИ становится непреднамеренным тестом на профессиональную компетентность и добросовестность. Инструмент не заменяет необходимость в экспертных знаниях; он усиливает последствия их отсутствия. Неспособность юристов распознать бессмысленные юридические цитаты и их наивное доверие к самопроверке ИИ продемонстрировали фундаментальное непонимание как юридического процесса, так и технологии, которую они использовали.
Влияние на рынок: запуск Google Bard
В феврале 2023 года в рекламном ролике чат-боту Google Bard задали вопрос о космическом телескопе Джеймса Уэбба (JWST). Он неверно заявил, что JWST сделал «самые первые снимки» экзопланеты. На самом деле, первые изображения экзопланеты были получены Очень большим телескопом Европейской южной обсерватории в 2004 году.
Эта единственная фактическая ошибка, усиленная громким запуском, вызвала массовую потерю доверия инвесторов. Акции материнской компании Alphabet упали более чем на 7%, что привело к потере рыночной стоимости примерно на 100 миллиардов долларов. Инцидент с Bard демонстрирует, что в конкурентной среде генеративного ИИ рыночная стоимость напрямую связана с воспринимаемой надежностью. Финансовые рынки оценивают не только технологические возможности, но и риски репутационного ущерба от галлюцинаций. Потеря 100 миллиардов долларов была связана не просто с одним неверным фактом; это была плата за поспешный выход на рынок без достаточной строгости, что указывало на отставание Google от конкурентов в плане надежности.
Минимизация галлюцинаций

Управление данными и инженерия запросов
Первая линия защиты — это улучшение исходного материала. Это включает обучение моделей на разнообразных, сбалансированных, хорошо структурированных и высококачественных данных, которые регулярно обновляются и очищаются от предвзятости и ошибок. Кроме того, качество ввода пользователя может значительно влиять на качество вывода. Стратегии инженерии запросов включают:
- Четкие и структурированные запросы: Использование шаблонов и избегание двусмысленности направляет модель к более точному ответу.
- Запросы по цепочке мыслей (Chain-of-Thought, CoT): Инструкция модели «думать шаг за шагом» и объяснять свои рассуждения перед тем, как дать окончательный ответ. Это заставляет модель следовать более логическому процессу и облегчает выявление ошибок.
Архитектурное вмешательство: генерация с дополненным поиском (RAG) — это архитектура, которая расширяет возможности LLM, подключая ее к внешней, авторитетной базе знаний. Вместо того чтобы полагаться исключительно на свои статические обучающие данные, модель может извлекать актуальную, обновленную информацию, чтобы «заземлить» свой ответ на проверяемых фактах.
Технический процесс выглядит следующим образом:
- Индексация: Документы из доверенной базы знаний (например, внутренняя вики компании) преобразуются в числовые представления (эмбеддинги) и хранятся в специализированной векторной базе данных.
- Поиск: Когда пользователь отправляет запрос, система сначала преобразует его в эмбеддинг и использует для поиска наиболее релевантных фрагментов документов в векторной базе данных.
- Генерация: Извлеченный текст затем объединяется с исходным запросом пользователя и подается в LLM. Модели дается инструкция сгенерировать ответ, основываясь преимущественно на предоставленном контексте.
Тем не менее, RAG не является панацеей. Система все еще может галлюцинировать, если механизм поиска извлекает нерелевантные документы или если модель-генератор неверно синтезирует информацию из нескольких источников.
Согласование с человеческими ценностями: обучение с подкреплением на основе отзывов людей (RLHF) — это метод обучения, используемый для тонкой настройки предварительно обученной модели с целью лучшего согласования ее результатов со сложными, субъективными человеческими предпочтениями, такими как полезность, безвредность и фактическая точность.
Процесс состоит из четырех шагов:
- Предварительное обучение: Начинается с мощной, предварительно обученной LLM.
- Контролируемая тонкая настройка (SFT): Небольшой, высококачественный набор данных с парами «запрос-ответ», созданный людьми-аннотаторами, используется для обучения модели желаемому формату и стилю ответов.
- Обучение модели вознаграждения: Людям-аннотаторам показывают несколько ответов на один и тот же запрос и просят ранжировать их от лучшего к худшему. Эти данные сравнения используются для обучения отдельной «модели вознаграждения», которая учится предсказывать, какие ответы предпочтут люди.
- Обучение с подкреплением: Исходная LLM донастраивается с использованием обучения с подкреплением. Политика LLM обновляется таким образом, чтобы генерировать ответы, которые максимизируют оценку, выставляемую моделью вознаграждения.
RLHF доказал свою высокую эффективность. Модель InstructGPT от OpenAI, обученная с помощью RLHF, значительно превзошла по предпочтениям людей-аннотаторов гораздо более крупную базовую модель GPT-3, продемонстрировав, что этот процесс согласования может быть более ценным, чем простое увеличение размера модели.
Проверка после генерации
Для критически важных приложений (например, в медицине, юриспруденции, финансах) человеческий надзор остается последним и незаменимым рубежом защиты. Эксперт-человек должен проверять результаты ИИ перед их использованием для принятия решений. Кроме того, разрабатываются автоматизированные методы, такие как Цепочка верификации (Chain of Verification, CoVe), где модель сначала генерирует базовый ответ, затем создает серию проверочных вопросов для проверки собственных утверждений, независимо отвечает на них и, наконец, выдает исправленный, проверенный ответ.
Сравнение методов минимизации галлюцинаций
| Метод | Сложность реализации | Основные затраты | Эффективность | Наиболее подходит для |
| Инженерия запросов | Низкая | Время пользователя/разработчика | Умеренная (повышает согласованность) | Чат-боты общего назначения, генерация контента, начальное прототипирование. |
| RAG | Высокая | Инфраструктура (векторная БД), курирование данных | Высокая (снижает внешние галлюцинации) | Корпоративные боты знаний, поддержка клиентов, системы, требующие актуальной информации. |
| RLHF | Очень высокая | Разметка данных людьми, вычислительные ресурсы | Очень высокая (согласует модель с фактичностью) | Разработка фундаментальных моделей, флагманские публичные ИИ-продукты. |
| Проверка после генерации | Средняя-высокая | Вычислительные ресурсы, вызовы API | Высокая (действует как страховочная сетка) | Суммаризация новостей, исследовательские ассистенты, извлечение информации с высокими ставками. |
Навигация в ландшафте вероятностной истины
Галлюцинации — это не дефект, который нужно устранить, а неотъемлемая характеристика вероятностных языковых моделей, которой необходимо активно управлять. Единого «решения» не существует; надежность достигается за счет многоуровневой, эшелонированной стратегии, охватывающей качество данных, архитектуру модели, передовые методы обучения и строгую проверку.
При этом стоит признать, что контролируемые галлюцинации находят полезное применение в творческих областях, таких как искусство, дизайн и игры, где они могут генерировать новые и оригинальные идеи. Это переосмысливает галлюцинации как свойство, которое можно усиливать или ослаблять в зависимости от того, что важнее для конкретного приложения — фактическая точность или креативность.
По мере того как ИИ все глубже интегрируется в общество, спрос на проверяемые, надежные и подотчетные системы будет только расти. Текущие исследования в области таких методов, как RAG, RLHF и автоматизированная верификация, — это не просто академический интерес, а критически важный фактор для безопасного и ответственного развертывания искусственного интеллекта. Будущее ИИ определяется не только его возможностями, но и его надежностью.
Больше инструкций, реальных кейсов и примеров из практики по AI для бизнеса, работы и жизни в Telegram-канале, подпишитесь!