Версия: 1.0.0
Дата: 2026-03-25
Полное руководство по развёртыванию локального AI-ассистента
на базе Qwen2.5 + Ollama + Open WebUI.
Локальная замена ChatGPT/Claude которая:
- Работает без интернета
- Хранит все данные у тебя
- Стоит 0р в месяц (после покупки железа)
- Запускает модели от 7B до 70B+
| # | Файл | Содержимое |
|---|---|---|
| 1 | 01_THEORY.md | Как работает LLM изнутри — матрицы, слои, токены |
| 2 | 02_ARCHITECTURE.md | Схема стека, что между чем, потоки данных |
| 3 | 03_INSTALL.md | Установка шаг за шагом с командами |
| 4 | 04_CODE.md | Весь код с подробными пояснениями |
| 5 | 05_TESTS.md | Тесты каждого слоя с объяснениями |
# 1. Установить Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 2. Скачать модель
ollama pull qwen2.5:14b
# 3. Запустить интерфейс
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui
Открыть: http://localhost:3000
git clone .../local-ai /opt/local-ai
cd /opt/local-ai
bash install.sh
bash tests/run_tests.sh
local-ai/
├── README.md ← этот файл
├── install.sh ← установка всего
├── docker-compose.yml ← все сервисы
├── config/
│ ├── system_prompt.txt ← личность модели
│ └── models.yaml ← список моделей и роутинг
├── router/
│ ├── Dockerfile
│ ├── requirements.txt
│ ├── router.py ← умный роутер запросов
│ └── tools.py ← инструменты агента
├── memory/
│ └── memory.py ← долгая память (ChromaDB)
└── tests/
├── test_stack.py ← тесты всего стека
└── run_tests.sh ← запуск тестов
| Сервис | Порт | Назначение |
|---|---|---|
| Open WebUI | 3000 | Интерфейс пользователя |
| AI Router | 8000 | API роутер (выбор модели) |
| Ollama | 11434 | Движок инференса |
| ChromaDB | 8001 | Векторная база (память/RAG) |
| Компонент | Минимум | Рекомендуется |
|---|---|---|
| RAM | 8GB | 32GB+ |
| Диск | 20GB | 100GB+ |
| CPU | x86_64 | AVX2 (Haswell+) |
| OS | Ubuntu 22.04 | Ubuntu 24.04 |
| Docker | 20.x | latest |