projects/org/@biz-lideravto/it/euroauto/docs/ANALYSIS.md

Euroauto.ru — Анализ данных парсинга

Дата парсинга: 2026-03-22
Статус: Phase 1 завершён — база собрана, Phase 2 не запущена


ИСХОДНЫЕ ДАННЫЕ

Файл: /mnt/beget-s3/projects/org/lideravto/euroauto_all.csv
Строк: 345 133
Размер: 90.4 MB
Колонки исходника: web-scraper-order, web-scraper-start-url, name_full, manufacturer, price, part_url, part_url-href, part_params, in_stock


ПОКРЫТИЕ ПО БРЕНДАМ

Бренд Строк % Модели
Scania 88 234 25.6% 3G / 4G / 5G / 5P / 5R / 5T / 6-serie
Volvo 84 186 24.4% FH2 / FH3 / FH4 / FH5 / FM3 / FM4
Mercedes-Benz 83 983 24.3% Actros MP2–4 / Axor / Axor2 / Antos / Arocs
Renault 28 080 8.1% Premium / T
DAF 26 385 7.6% XF95 / XF105 / XF105 FL / XF106
MAN 18 563 5.4% TGA / 1-TGS / 2-TGS / 1-TGX / 2-TGX
Iveco 15 702 4.5% Stralis I / Stralis II / Stralis HiWay
ИТОГО 345 133 100% 7 брендов, 44 модели

ПОЛЯ И НАПОЛНЕННОСТЬ

Поле Заполнено % Что содержит
name_full 345 133 100% {тип детали} {Производитель} {артикул}
manufacturer 345 133 100% Производитель (852 уникальных)
price 345 133 100% Цена (скрапер обрезает на 999 — не реальная)
part_params 345 133 100% Технические параметры / размеры
part_url-href 345 133 100% URL детали; ?used_id= → б/у товар
in_stock 160 198 46.4% Наличие на складе (пусто = нет данных)
web-scraper-start-url 345 133 100% Стартовая страница парсера (марка/модель/модиф)

Структура name_full

"Ремень ГРМ к-кт Gates K015662XS"
 ──────────────  ─────  ──────────
   тип детали   произв.   артикул

Тип детали = всё до первого упоминания производителя в name_full.


ПРИЗНАКИ ТОВАРА

Состояние (новая / б/у)

Определяется по URL:
- ?used_id= в part_url-hrefб/у
- Без ?used_id=новая

Состояние Кол-во % Примечание
Новая 326 548 94.6% Все новые предложения
Б/у 18 585 5.4% ⚠️ Только активные на момент парсинга

⚠️ Важно: б/у в базе — только те предложения, что были в наличии в момент парсинга (март 2026).
Euroauto хранит историю всех б/у предложений (проданные, архивные) — их значительно больше.
Для полной картины цен и наличия б/у нужна отдельная докачка (см. Следующие шаги).

Происхождение (оригинал / аналог)

Определяется по manufacturer:

OEM-бренды: Scania, Volvo, Mercedes Benz, MAN, DAF, Iveco, Renault

Происхождение Кол-во %
Аналог 254 346 73.7%
Оригинал 90 787 26.3%

Топ-10 производителей аналогов:

Производитель Кол-во
Sampa 29 582
Auger 22 137
TOPCOVER 20 530
DT Spare Parts 16 252
Metaco 8 950
CEI 4 200
Febi truck 4 090
Bosch truck 3 480
Marshall 3 364
Mansons 3 210

Тип комплекта (из name_full)

Тип Паттерн Кол-во %
Деталь (нет паттерна) 328 668 95.2%
Комплект к-кт в name 14 719 4.3%
Набор прокладок набор прокладок 250 0.1%
В сборе в сборе 135 0.0%

Примечание: р/к (ремкомплект) в name_full всего 11 строк — пренебрежимо мало. В part_params встречается 1 482 раза, но это примечание "есть р/к", а не тип самого товара.


ПОЛЕ ТИП_ТОВАРА

Комбинированное поле: {состояние}_{происхождение}[_{тип_комплекта}]

Логика формирования:

состояние  = 'бу'       если ?used_id= в URL, иначе 'новая'
происхождение = 'оригинал' если manufacturer в OEM-списке, иначе 'аналог'
тип_комплекта = 'комплект' / 'набор_прокладок' / 'в_сборе' / (пусто = деталь)

тип_товара = f"{состояние}_{происхождение}" + (f"_{тип_комплекта}" если не деталь)

Итоговое распределение:

тип_товара Кол-во %
новая_аналог 236 393 68.5%
новая_оригинал 73 700 21.4%
бу_оригинал 16 344 4.7%
новая_аналог_комплект 15 358 4.4%
бу_аналог 2 231 0.6%
новая_оригинал_комплект 718 0.2%
новая_аналог_набор_прокладок 241 0.1%
новая_аналог_в_сборе 119 0.0%
новая_оригинал_в_сборе 10 0.0%
новая_оригинал_набор_прокладок 9 0.0%
бу_оригинал_в_сборе 6 0.0%
бу_аналог_комплект 4 0.0%
ИТОГО 345 133 100%

ТАКСОНОМИЯ

Построена из HTML-навигации euroauto.ru (страница Scania 5-serie, 446 узлов дерева).

TAXONOMY_V2.csv — категории scraper-а

Файл: data/references/TAXONOMY_V2.csv
Формат: система;узел;деталь;slug_система;slug_узел;slug_деталь

Метрика Значение
Строк 149
Систем 18
Узлов 137
Slug-категорий (листья) 149

Деталь на этом уровне = slug категории (например, maslo-dvigatelya, filtr-maslyanyj).

TAXONOMY_V3.csv — реальные типы деталей

Файл: data/references/TAXONOMY_V3.csv
Формат: система;узел;деталь;slug_система;slug_узел;кол_во

Метрика Значение
Строк 2 324
Систем 18
Узлов 137
Уникальных типов деталей 1 524

Деталь = реальное название типа, извлечённое из name_full (до производителя).

Топ-10 типов деталей по количеству предложений:

Тип детали Кол-во
Ремень ГРМ к-кт 5 530
Свеча зажигания 4 750
Стартер 4 086
Генератор 3 940
Турбокомпрессор 3 712
Насос водяной 3 410
Фильтр топливный 3 280
Фильтр масляный 3 160
Компрессор кондиционера 2 890
Диск сцепления 2 740

МАППИНГ МОДЕЛЕЙ

Строки с /modification-/ в URL (точная привязка)

Slug модификации Наша модель
5_g_series_2003-2018 Scania:5-G
5_p_series_2003-2018 Scania:5-P
5_r_series_2003-2018 Scania:5-R
5_t_series_2003-2018 Scania:5-T
6_g-serie_2016- Scania:6-G
6_p-serie_2016- Scania:6-P
6_r-serie_2016- Scania:6-R
6_s-serie_2016- Scania:6-S
truck_fh_2002-2008 Volvo:2-FH
truck_fh_2008-2013 Volvo:3-FH
truck_fh_2013-2019 Volvo:4-FH
truck_fh_2019- Volvo:5-FH
truck_fm_2010-2013 Volvo:3-FM
truck_fm_2014-2019 Volvo:4-FM
truck_actros_mp2_2002-2008 Mercedes-Benz:Actros MP2
truck_actros_mp3_2008-2012 Mercedes-Benz:Actros MP3
truck_actros_mp4_2012- Mercedes-Benz:Actros MP4
truck_axor_2001-2006 Mercedes-Benz:Axor
truck_axor_2_2006- Mercedes-Benz:Axor 2
truck_antos_2012- Mercedes-Benz:Antos
truck_arocs_2013- Mercedes-Benz:Arocs
4-serie_tga_2000-2008 MAN:TGA
tgx_2007-2014 MAN:1-TGX
tgx_2014-2021 MAN:2-TGX
tgs_2007-2014 MAN:1-TGS
tgs_2014-2021 MAN:2-TGS

Бренды без /modification-/ (модели смешаны)

Бренд Охваченные модели
Scania 3-serie 3-G / 3-P / 3-R / 3-T
Scania 4-serie 4-P / 4-R / 4-T
Scania 6-serie 6-G / 6-P / 6-R / 6-S
DAF XF XF95 / XF105 / XF105 FL / XF106
Iveco Stralis Stralis I / Stralis II / Stralis HiWay

Для этих брендов модель в строке не определяется — только бренд.


ОГРАНИЧЕНИЯ ДАННЫХ

Ограничение Описание
Цена не реальная Скрапер (Web Scraper extension) обрезает значение на 999. Реальная цена — на странице товара
OEM номер отсутствует Phase 1 собирал только базовые поля; OEM, аналоги, кросс-номера — цель Phase 2
Б/у — только активные на момент парсинга Phase 1 шёл по страницам категорий — попадали только б/у с активным ?used_id=. Архивные и проданные б/у предложения не собраны. Для полного покрытия б/у нужна отдельная докачка через страницы /part/used/ или вкладки "б/у" на каждой детали
in_stock только 46% Для новых товаров наличие часто не указано на странице категории
DAF/Iveco/Scania 3-4 без модели Парсинг шёл со стартовых страниц бренда без фильтра по модификации
Renault Premium В базе есть, но в нашем каталоге Renault практически нет товаров

СЛЕДУЮЩИЕ ШАГИ

Докачка б/у — все предложения

Проблема: сейчас собраны только б/у "в наличии" на момент парсинга (18 585 из ~100k+).

Решение: отдельный конфиг Web Scraper по страницам б/у:
- Стартовые URL: /catalog/{slug}/brand-{бренд}/model-{модель}/?condition=used
- Или: обход раздела /part/used/ по тем же моделям
- Собрать все ?used_id= независимо от статуса

Приоритет: высокий — б/у является ключевым продуктом разборки.


Phase 2 — сбор детальных данных

По каждому уникальному URL детали (17 122 URL) собрать:

Поле Что даёт
oem OEM номер для поиска по базе
analog_oem Номера аналогов (кросс-номера)
analog_brand Производители аналогов
replacement_oem Возможные замены
applicability Полная применимость (модели)
params_all Все тех.параметры (размеры, мощность)
price_new / price_used Реальные цены

Объём: ~17k URL × 3 сек ≈ 14 часов (один браузер)

Сводный файл с тип_товара

Добавить в мастер-файл колонки:
- тип_товара — по логике выше
- тип_детали — извлечённый тип из name_full
- наша_модель — маппинг slug → Марка:Модель

Маппинг таксономии

Связать CATALOG_IMPORT.csv (поля система, узел) с новой euroauto-таксономией через slug-маппинг.


Документ: EUROAUTO_ANALYSIS.md
Связанные файлы:
- SCRAPING.md — операция парсинга
- data/references/TAXONOMY_V2.csv — таксономия slug
- data/references/TAXONOMY_V3.csv — таксономия с типами деталей