Дата парсинга: 2026-03-22
Статус: Phase 1 завершён — база собрана, Phase 2 не запущена
Файл: /mnt/beget-s3/projects/org/lideravto/euroauto_all.csv
Строк: 345 133
Размер: 90.4 MB
Колонки исходника: web-scraper-order, web-scraper-start-url, name_full, manufacturer, price, part_url, part_url-href, part_params, in_stock
| Бренд | Строк | % | Модели |
|---|---|---|---|
| Scania | 88 234 | 25.6% | 3G / 4G / 5G / 5P / 5R / 5T / 6-serie |
| Volvo | 84 186 | 24.4% | FH2 / FH3 / FH4 / FH5 / FM3 / FM4 |
| Mercedes-Benz | 83 983 | 24.3% | Actros MP2–4 / Axor / Axor2 / Antos / Arocs |
| Renault | 28 080 | 8.1% | Premium / T |
| DAF | 26 385 | 7.6% | XF95 / XF105 / XF105 FL / XF106 |
| MAN | 18 563 | 5.4% | TGA / 1-TGS / 2-TGS / 1-TGX / 2-TGX |
| Iveco | 15 702 | 4.5% | Stralis I / Stralis II / Stralis HiWay |
| ИТОГО | 345 133 | 100% | 7 брендов, 44 модели |
| Поле | Заполнено | % | Что содержит |
|---|---|---|---|
name_full |
345 133 | 100% | {тип детали} {Производитель} {артикул} |
manufacturer |
345 133 | 100% | Производитель (852 уникальных) |
price |
345 133 | 100% | Цена (скрапер обрезает на 999 — не реальная) |
part_params |
345 133 | 100% | Технические параметры / размеры |
part_url-href |
345 133 | 100% | URL детали; ?used_id= → б/у товар |
in_stock |
160 198 | 46.4% | Наличие на складе (пусто = нет данных) |
web-scraper-start-url |
345 133 | 100% | Стартовая страница парсера (марка/модель/модиф) |
"Ремень ГРМ к-кт Gates K015662XS"
────────────── ───── ──────────
тип детали произв. артикул
Тип детали = всё до первого упоминания производителя в name_full.
Определяется по URL:
- ?used_id= в part_url-href → б/у
- Без ?used_id= → новая
| Состояние | Кол-во | % | Примечание |
|---|---|---|---|
| Новая | 326 548 | 94.6% | Все новые предложения |
| Б/у | 18 585 | 5.4% | ⚠️ Только активные на момент парсинга |
⚠️ Важно: б/у в базе — только те предложения, что были в наличии в момент парсинга (март 2026).
Euroauto хранит историю всех б/у предложений (проданные, архивные) — их значительно больше.
Для полной картины цен и наличия б/у нужна отдельная докачка (см. Следующие шаги).
Определяется по manufacturer:
OEM-бренды: Scania, Volvo, Mercedes Benz, MAN, DAF, Iveco, Renault
| Происхождение | Кол-во | % |
|---|---|---|
| Аналог | 254 346 | 73.7% |
| Оригинал | 90 787 | 26.3% |
Топ-10 производителей аналогов:
| Производитель | Кол-во |
|---|---|
| Sampa | 29 582 |
| Auger | 22 137 |
| TOPCOVER | 20 530 |
| DT Spare Parts | 16 252 |
| Metaco | 8 950 |
| CEI | 4 200 |
| Febi truck | 4 090 |
| Bosch truck | 3 480 |
| Marshall | 3 364 |
| Mansons | 3 210 |
| Тип | Паттерн | Кол-во | % |
|---|---|---|---|
| Деталь | (нет паттерна) | 328 668 | 95.2% |
| Комплект | к-кт в name |
14 719 | 4.3% |
| Набор прокладок | набор прокладок |
250 | 0.1% |
| В сборе | в сборе |
135 | 0.0% |
Примечание:
р/к(ремкомплект) в name_full всего 11 строк — пренебрежимо мало. Вpart_paramsвстречается 1 482 раза, но это примечание "есть р/к", а не тип самого товара.
Комбинированное поле: {состояние}_{происхождение}[_{тип_комплекта}]
Логика формирования:
состояние = 'бу' если ?used_id= в URL, иначе 'новая'
происхождение = 'оригинал' если manufacturer в OEM-списке, иначе 'аналог'
тип_комплекта = 'комплект' / 'набор_прокладок' / 'в_сборе' / (пусто = деталь)
тип_товара = f"{состояние}_{происхождение}" + (f"_{тип_комплекта}" если не деталь)
Итоговое распределение:
| тип_товара | Кол-во | % |
|---|---|---|
новая_аналог |
236 393 | 68.5% |
новая_оригинал |
73 700 | 21.4% |
бу_оригинал |
16 344 | 4.7% |
новая_аналог_комплект |
15 358 | 4.4% |
бу_аналог |
2 231 | 0.6% |
новая_оригинал_комплект |
718 | 0.2% |
новая_аналог_набор_прокладок |
241 | 0.1% |
новая_аналог_в_сборе |
119 | 0.0% |
новая_оригинал_в_сборе |
10 | 0.0% |
новая_оригинал_набор_прокладок |
9 | 0.0% |
бу_оригинал_в_сборе |
6 | 0.0% |
бу_аналог_комплект |
4 | 0.0% |
| ИТОГО | 345 133 | 100% |
Построена из HTML-навигации euroauto.ru (страница Scania 5-serie, 446 узлов дерева).
Файл: data/references/TAXONOMY_V2.csv
Формат: система;узел;деталь;slug_система;slug_узел;slug_деталь
| Метрика | Значение |
|---|---|
| Строк | 149 |
| Систем | 18 |
| Узлов | 137 |
| Slug-категорий (листья) | 149 |
Деталь на этом уровне = slug категории (например, maslo-dvigatelya, filtr-maslyanyj).
Файл: data/references/TAXONOMY_V3.csv
Формат: система;узел;деталь;slug_система;slug_узел;кол_во
| Метрика | Значение |
|---|---|
| Строк | 2 324 |
| Систем | 18 |
| Узлов | 137 |
| Уникальных типов деталей | 1 524 |
Деталь = реальное название типа, извлечённое из name_full (до производителя).
Топ-10 типов деталей по количеству предложений:
| Тип детали | Кол-во |
|---|---|
| Ремень ГРМ к-кт | 5 530 |
| Свеча зажигания | 4 750 |
| Стартер | 4 086 |
| Генератор | 3 940 |
| Турбокомпрессор | 3 712 |
| Насос водяной | 3 410 |
| Фильтр топливный | 3 280 |
| Фильтр масляный | 3 160 |
| Компрессор кондиционера | 2 890 |
| Диск сцепления | 2 740 |
| Slug модификации | Наша модель |
|---|---|
5_g_series_2003-2018 |
Scania:5-G |
5_p_series_2003-2018 |
Scania:5-P |
5_r_series_2003-2018 |
Scania:5-R |
5_t_series_2003-2018 |
Scania:5-T |
6_g-serie_2016- |
Scania:6-G |
6_p-serie_2016- |
Scania:6-P |
6_r-serie_2016- |
Scania:6-R |
6_s-serie_2016- |
Scania:6-S |
truck_fh_2002-2008 |
Volvo:2-FH |
truck_fh_2008-2013 |
Volvo:3-FH |
truck_fh_2013-2019 |
Volvo:4-FH |
truck_fh_2019- |
Volvo:5-FH |
truck_fm_2010-2013 |
Volvo:3-FM |
truck_fm_2014-2019 |
Volvo:4-FM |
truck_actros_mp2_2002-2008 |
Mercedes-Benz:Actros MP2 |
truck_actros_mp3_2008-2012 |
Mercedes-Benz:Actros MP3 |
truck_actros_mp4_2012- |
Mercedes-Benz:Actros MP4 |
truck_axor_2001-2006 |
Mercedes-Benz:Axor |
truck_axor_2_2006- |
Mercedes-Benz:Axor 2 |
truck_antos_2012- |
Mercedes-Benz:Antos |
truck_arocs_2013- |
Mercedes-Benz:Arocs |
4-serie_tga_2000-2008 |
MAN:TGA |
tgx_2007-2014 |
MAN:1-TGX |
tgx_2014-2021 |
MAN:2-TGX |
tgs_2007-2014 |
MAN:1-TGS |
tgs_2014-2021 |
MAN:2-TGS |
| Бренд | Охваченные модели |
|---|---|
| Scania 3-serie | 3-G / 3-P / 3-R / 3-T |
| Scania 4-serie | 4-P / 4-R / 4-T |
| Scania 6-serie | 6-G / 6-P / 6-R / 6-S |
| DAF XF | XF95 / XF105 / XF105 FL / XF106 |
| Iveco Stralis | Stralis I / Stralis II / Stralis HiWay |
Для этих брендов модель в строке не определяется — только бренд.
| Ограничение | Описание |
|---|---|
| Цена не реальная | Скрапер (Web Scraper extension) обрезает значение на 999. Реальная цена — на странице товара |
| OEM номер отсутствует | Phase 1 собирал только базовые поля; OEM, аналоги, кросс-номера — цель Phase 2 |
| Б/у — только активные на момент парсинга | Phase 1 шёл по страницам категорий — попадали только б/у с активным ?used_id=. Архивные и проданные б/у предложения не собраны. Для полного покрытия б/у нужна отдельная докачка через страницы /part/used/ или вкладки "б/у" на каждой детали |
| in_stock только 46% | Для новых товаров наличие часто не указано на странице категории |
| DAF/Iveco/Scania 3-4 без модели | Парсинг шёл со стартовых страниц бренда без фильтра по модификации |
| Renault Premium | В базе есть, но в нашем каталоге Renault практически нет товаров |
Проблема: сейчас собраны только б/у "в наличии" на момент парсинга (18 585 из ~100k+).
Решение: отдельный конфиг Web Scraper по страницам б/у:
- Стартовые URL: /catalog/{slug}/brand-{бренд}/model-{модель}/?condition=used
- Или: обход раздела /part/used/ по тем же моделям
- Собрать все ?used_id= независимо от статуса
Приоритет: высокий — б/у является ключевым продуктом разборки.
По каждому уникальному URL детали (17 122 URL) собрать:
| Поле | Что даёт |
|---|---|
oem |
OEM номер для поиска по базе |
analog_oem |
Номера аналогов (кросс-номера) |
analog_brand |
Производители аналогов |
replacement_oem |
Возможные замены |
applicability |
Полная применимость (модели) |
params_all |
Все тех.параметры (размеры, мощность) |
price_new / price_used |
Реальные цены |
Объём: ~17k URL × 3 сек ≈ 14 часов (один браузер)
Добавить в мастер-файл колонки:
- тип_товара — по логике выше
- тип_детали — извлечённый тип из name_full
- наша_модель — маппинг slug → Марка:Модель
Связать CATALOG_IMPORT.csv (поля система, узел) с новой euroauto-таксономией через slug-маппинг.
Документ: EUROAUTO_ANALYSIS.md
Связанные файлы:
- SCRAPING.md — операция парсинга
- data/references/TAXONOMY_V2.csv — таксономия slug
- data/references/TAXONOMY_V3.csv — таксономия с типами деталей