Версия: 1.0.0
Дата: 2026-01-02
Тип: Тестирование
Сбор статистики для калибровки 2-стадийного протокола диалога:
- Стадия 1: Понимание (ЧТО хочет пользователь)
- Стадия 2: Решение (КАК это сделать)
dialog-testing/
├── CLAUDE.md ← Этот файл
├── config.yaml ← Настройки (пороги, логирование)
├── test-prompt.md ← Инструкция для --append-system-prompt
├── log.yaml ← Лог всех диалогов
└── stats.py ← Анализ статистики (TODO)
start
→ выбрать "t" (ТЕСТ Архитектор)
Или напрямую:
claude --append-system-prompt-file \
/opt/claude-workspace/system/monitor/dialog-testing/test-prompt.md \
"режим архитектор тестовый"
| Команда | Действие |
|---|---|
порог1 XX |
Установить порог понимания (0-100) |
порог2 XX |
Установить порог решения (0-100) |
пороги |
Показать текущие значения |
пороги сброс |
Вернуть к 60/60 |
dialogs:
- id: 1
timestamp: "2026-01-02 15:30:00"
query: "текст запроса"
stage1_understanding:
interpretations:
- probability: 95%
text: "краткое описание"
details:
action: "что делаю"
object: "с чем работаю"
command: "команда"
level: "L1/L2/L3/L4"
max_probability: 95%
threshold: 60%
passed: true
user_response: "да"
correct: true
stage2_solution:
solutions:
- name: "вариант А"
probability: 80%
max_probability: 80%
threshold: 60%
passed: true
user_choice: 1
correct: true
result: "success"
После 50-100 диалогов:
Калибровка порогов:
- При каком пороге stage1 понимание было точным?
- При каком пороге stage2 не было лишних вопросов?
Анализ точности:
- Насколько точны мои оценки вероятности?
- Какие факторы чаще всего снижают уверенность?
Оптимизация весов:
- Правильные ли веса для расчёта stage2? (качество 40%, простота 20%, безопасность 30%, контекст 10%)
stats.py для анализаВерсия: 1.0.0