Dialog Testing

Версия: 1.0.0
Дата: 2026-01-02
Тип: Тестирование

НАЗНАЧЕНИЕ

Сбор статистики для калибровки 2-стадийного протокола диалога:
- Стадия 1: Понимание (ЧТО хочет пользователь)
- Стадия 2: Решение (КАК это сделать)

СТРУКТУРА

dialog-testing/
├── CLAUDE.md           ← Этот файл
├── config.yaml         ← Настройки (пороги, логирование)
├── test-prompt.md      ← Инструкция для --append-system-prompt
├── log.yaml            ← Лог всех диалогов
└── stats.py            ← Анализ статистики (TODO)

ЗАПУСК ТЕСТОВОГО РЕЖИМА

start

→ выбрать "t" (ТЕСТ Архитектор)

Или напрямую:

claude --append-system-prompt-file \
  /opt/claude-workspace/system/monitor/dialog-testing/test-prompt.md \
  "режим архитектор тестовый"

КОМАНДЫ В СЕССИИ

Команда	Действие
`порог1 XX`	Установить порог понимания (0-100)
`порог2 XX`	Установить порог решения (0-100)
`пороги`	Показать текущие значения
`пороги сброс`	Вернуть к 60/60

ЛОГИРОВАНИЕ

Формат записи в log.yaml

dialogs:
  - id: 1
    timestamp: "2026-01-02 15:30:00"
    query: "текст запроса"

    stage1_understanding:
      interpretations:
        - probability: 95%
          text: "краткое описание"
          details:
            action: "что делаю"
            object: "с чем работаю"
            command: "команда"
            level: "L1/L2/L3/L4"
      max_probability: 95%
      threshold: 60%
      passed: true
      user_response: "да"
      correct: true

    stage2_solution:
      solutions:
        - name: "вариант А"
          probability: 80%
      max_probability: 80%
      threshold: 60%
      passed: true
      user_choice: 1
      correct: true

    result: "success"

ЦЕЛЬ ТЕСТИРОВАНИЯ

После 50-100 диалогов:

Калибровка порогов:
- При каком пороге stage1 понимание было точным?
- При каком пороге stage2 не было лишних вопросов?
Анализ точности:
- Насколько точны мои оценки вероятности?
- Какие факторы чаще всего снижают уверенность?
Оптимизация весов:
- Правильные ли веса для расчёта stage2? (качество 40%, простота 20%, безопасность 30%, контекст 10%)

СЛЕДУЮЩИЕ ШАГИ

Собрать 50-100 диалогов в режиме Архитектор
Создать stats.py для анализа
Найти оптимальные пороги
Перенести на Проектор
Внедрить в CLAUDE.md как стандарт

Версия: 1.0.0