Новые критерии оценки: как мы проверяли качество RAG-системы вместе с Claude Code

Почему оценка RAG не просто тест

Оценивание Retrieval-Augmented Generation (RAG) - задача сложная и многогранная. Мы с командой Claude Code поняли, что стандартные метрики вроде точности или ROUGE лишь частично отражают реальное поведение системы: важно учитывать не только соответствие ответа фактам, но и уместность источников, способность модели объяснить свои выборы и устойчивость к ошибкам в базе знаний.

Поэтому мы подошли к делу комплексно, собрав набор критериев, отражающих практические требования к RAG в реальных приложениях.

Первым шагом стало формальное определение целей: для каких пользовательских задач предназначена система, какие типы запросов она будет обрабатывать и каков допустимый уровень риска при генерации неверной информации.

Это помогло выделить ключевые аспекты оценки: релевантность извлечённых документов, корректность объединённого ответа, прозрачность и предсказуемость модели. Мы также приняли во внимание требования к времени отклика и вычислительным ресурсам, поскольку это напрямую влияет на пригодность решения для боевой эксплуатации.

Методика: от создания набора тестов до анализа ошибок

Мы сформировали разнообразный тестовый корпус, включающий фактические вопросы, сложные многозвенные запросы и сценарии с вводящими в заблуждение данными.

Для каждого кейса отмечались исходные документы, ожидаемый ответ и допустимые варианты формулировки. При этом часть задач специально проектировалась так, чтобы провоцировать "галлюцинации" позволило понять, при каких условиях модель склонна придумывать факты.

Каждая итерация тестирования сопровождалась тщательным разбором ошибок: мы классифицировали промахи по типам - неверный выбор источника, неправильная агрегация фактов, неточности в выводах, искажения смысла.

Это дало возможность не только улучшать конфигурацию ранжировщика и параметры извлечения, но и корректировать этапы пред- и постобработки: фильтрацию нерелевантных фрагментов, верификацию фактов и формирование более аккуратных подсказок для генератора.

Качественные и количественные метрики

Чтобы оценка была объективной, мы комбинировали автоматические метрики и человеческую экспертизу.

Автоматические показатели включали релевантность (precision/recall для извлечённых документов), фактическую точность ответов и измерения языкового качества. Параллельно профессиональные рецензенты оценивали полезность, ясность и доверие к ответу, а также проверяли корректность ссылок на источники.

Комбинация этих подходов позволила выловить случаи, где метрики высоки, но реальные пользователи остаются недовольны. Также мы ввели метрику "контекстная целесообразность": насколько ответ согласуется с предоставленными документами и не выходит за рамки доступной информации.

Это особенно важно для приложений, где критична ответственность модели: в таких сценариях лучше отказать в ответе или указать неопределённость, чем выдать уверенное, но ошибочное заключение.

Инструменты и практика внедрения

В процессе мы использовали несколько инструментов для мониторинга и анализа: системы логирования запросов и ответов, платформы для аннотирования и согласования оценок рецензентов, а также автоматические пайплайны для регрессионного тестирования после каждой правки.

Эти инструменты помогли отслеживать качество по ключевым показателям во времени и быстро реагировать на регрессии.

Наконец, важным выводом стала необходимость непрерывной оценки в продакшене: поведение RAG меняется с ростом и обновлением корпусной базы, а также с изменением пользовательских запросов.

Поэтому мы настроили регулярные замеры, выборочные A/B-тесты и процессы для оперативной донастройки, что позволило удерживать прогнозируемое и безопасное поведение системы в долгосрочной перспективе.

Чему мы научились и что советуем другим

Опыт работы с Claude Code показал: оценка RAG постоянный цикл из тестирования, анализа ошибок и улучшений. Универсальной метрики не существует, поэтому разумнее сочетать автоматические измерения с человеческой оценкой и вводить специфику в зависимости от задач.

Также важно проектировать тесты, которые отражают реальные пользовательские сценарии, и отслеживать модели в боевой среде.

Рекомендации для команд, строящих RAG-системы: чётко определить цели и требования, составить разнообразный тестовый корпус, интегрировать процессы анализа ошибок и обеспечить непрерывный мониторинг в продакшене. Это приносит не только лучшее качество ответов, но и повышенное доверие пользователей - ключевой ресурс для внедрения таких систем в критичных приложениях.