system/monitor/dialog-testing/CLAUDE.md

Dialog Testing

Версия: 1.0.0
Дата: 2026-01-02
Тип: Тестирование


НАЗНАЧЕНИЕ

Сбор статистики для калибровки 2-стадийного протокола диалога:
- Стадия 1: Понимание (ЧТО хочет пользователь)
- Стадия 2: Решение (КАК это сделать)


СТРУКТУРА

dialog-testing/
├── CLAUDE.md           ← Этот файл
├── config.yaml         ← Настройки (пороги, логирование)
├── test-prompt.md      ← Инструкция для --append-system-prompt
├── log.yaml            ← Лог всех диалогов
└── stats.py            ← Анализ статистики (TODO)

ЗАПУСК ТЕСТОВОГО РЕЖИМА

start

→ выбрать "t" (ТЕСТ Архитектор)

Или напрямую:

claude --append-system-prompt-file \
  /opt/claude-workspace/system/monitor/dialog-testing/test-prompt.md \
  "режим архитектор тестовый"

КОМАНДЫ В СЕССИИ

Команда Действие
порог1 XX Установить порог понимания (0-100)
порог2 XX Установить порог решения (0-100)
пороги Показать текущие значения
пороги сброс Вернуть к 60/60

ЛОГИРОВАНИЕ

Формат записи в log.yaml

dialogs:
  - id: 1
    timestamp: "2026-01-02 15:30:00"
    query: "текст запроса"

    stage1_understanding:
      interpretations:
        - probability: 95%
          text: "краткое описание"
          details:
            action: "что делаю"
            object:  чем работаю"
            command: "команда"
            level: "L1/L2/L3/L4"
      max_probability: 95%
      threshold: 60%
      passed: true
      user_response: "да"
      correct: true

    stage2_solution:
      solutions:
        - name: "вариант А"
          probability: 80%
      max_probability: 80%
      threshold: 60%
      passed: true
      user_choice: 1
      correct: true

    result: "success"

ЦЕЛЬ ТЕСТИРОВАНИЯ

После 50-100 диалогов:

  1. Калибровка порогов:
    - При каком пороге stage1 понимание было точным?
    - При каком пороге stage2 не было лишних вопросов?

  2. Анализ точности:
    - Насколько точны мои оценки вероятности?
    - Какие факторы чаще всего снижают уверенность?

  3. Оптимизация весов:
    - Правильные ли веса для расчёта stage2? (качество 40%, простота 20%, безопасность 30%, контекст 10%)


СЛЕДУЮЩИЕ ШАГИ

  1. Собрать 50-100 диалогов в режиме Архитектор
  2. Создать stats.py для анализа
  3. Найти оптимальные пороги
  4. Перенести на Проектор
  5. Внедрить в CLAUDE.md как стандарт

Версия: 1.0.0