Дата: 2026-01-02
Статус: Исследование (актуально для Q1 2026)
Master Data Management (MDM) — это дисциплина управления критическими справочными данными организации через технологии, инструменты и процессы.
Мастер-данные (master data) — это основополагающие, неперемещаемые данные, которые определяют сущности и их отношения в бизнесе:
| Тип | Примеры | Характеристики |
|---|---|---|
| Customer | Клиенты, контакты, компании | Используется всеми системами CRM, ERP, маркетинг |
| Product | Товары, SKU, материалы | Управление каталогом, ценообразование |
| Supplier | Поставщики, контрагенты | Закупки, управление отношениями |
| Location | Филиалы, склады, точки доставки | Логистика, распределение |
| Employee | Сотрудники, организационная структура | HR, управление доступом |
| Asset | Основные средства, оборудование | Учёт, техническое обслуживание |
| Finance | Счета, центры затрат, прибыли | Финансовый учёт, отчётность |
| Аспект | Мастер-данные | Обычные данные |
|---|---|---|
| Объём изменений | Медленно изменяются (Master-Slow-Moving) | Изменяются часто |
| Переиспользование | Используются в сотнях процессов | Локальное использование |
| Качество | Критично для всей компании | Локальное значение |
| Управление | Централизованное (governance) | Децентрализованное |
| Версионирование | История изменений обязательна | История опциональна |
| Пример | Данные клиента (Name, ID, Tax) | Заметка в комментариях заказа |
Golden Record — это единственный авторитетный источник истины для каждой сущности.
┌─────────────────────────────────────────┐
│ Golden Record (Customer #12345) │
├─────────────────────────────────────────┤
│ Name: "John Smith" │
│ Email: john.smith@company.com (CRM) │
│ Phone: +1-555-1234 (ERP) │
│ Address: 123 Main St... (3PL system) │
│ Tax ID: 78-9987654 (Accounting) │
│ Industry: Manufacturing (Dun & B.) │
│ Credit Limit: $50,000 (Finance) │
│ Last Updated: 2026-01-02 by Data Team │
│ Source Priority: Finance > CRM > ERP │
└─────────────────────────────────────────┘
↑
Агрегирование из источников:
SAP ERP, Salesforce CRM, 3PL, Accounting, Dun&Bradstreet
Шаг 1: DATA INGESTION (загрузка)
SAP ERP → Customer "John Smith"
Salesforce → Customer "john.smith@company.com"
3PL System → Address "123 Main St"
↓ (разные представления одного клиента)
Шаг 2: DATA MATCHING (поиск дубликатов)
Fuzzy Matching:
"John Smith" == "Jon Smith" → MATCH
"123 Main St" == "123 Main Street" → MATCH
Similarity Score: 92% → Кандидат на слияние
↓
Шаг 3: SURVIVORSHIP RULES (выбор победителя)
Name: использовать из CRM (более свежий источник)
Email: использовать из CRM (основной источник контакта)
Address: использовать из 3PL (специалист по доставке)
Tax ID: использовать из Finance (авторитетный источник)
↓
Шаг 4: GOLDEN RECORD CREATION (конвергенция)
Создана единая, достоверная запись
↓
Шаг 5: VALIDATION (проверка)
Email валиден? ✓
Phone валиден? ✓
Tax ID проверен? ✓
↓
Шаг 6: DISTRIBUTION (распространение)
Golden Record отправляется обратно во все системы
CRM, ERP, 3PL синхронизированы
Управление качеством данных — это непрерывный цикл:
┌─────────────────────────────────────────┐
│ КАЧЕСТВО ДАННЫХ В MDM │
├─────────────────────────────────────────┤
│ 1. PROFILING — анализ существующих данных
│ • Обнаружение пропусков, выбросов
│ • Статистика, распределения
│ • Выявление потенциальных дубликатов
│
│ 2. CLEANSING — очистка и стандартизация
│ • Удаление пропусков
│ • Преобразование (John → john, убрать пробелы)
│ • Валидация по правилам (email format)
│
│ 3. MATCHING — поиск дубликатов
│ • Точное совпадение (ID)
│ • Нечёткое совпадение (fuzzy matching)
│ • Вероятностное (probabilistic)
│
│ 4. MERGING — слияние дубликатов
│ • Определение survivor (побеждающей записи)
│ • Разрешение конфликтов (какое значение выбрать)
│ • Ведение истории слияния
│
│ 5. GOVERNANCE — управление и контроль
│ • Процессы одобрения изменений
│ • Роли: Data Owner, Data Steward
│ • Аудит и отслеживание происхождения (lineage)
│
│ 6. MONITORING — постоянный контроль качества
│ • Метрики качества (completeness, accuracy, timeliness)
│ • Алерты при деградации качества
│ • Отчёты для Data Governance Council
└─────────────────────────────────────────┘
| Характеристика | Informatica | SAP MDG | Stibo STEP | Profisee | Ataccama |
|---|---|---|---|---|---|
| Развёртывание | Cloud (SaaS) | On-Prem (S/4HANA) | Cloud/On-Prem | Cloud/Hybrid | Cloud/On-Prem |
| Архитектура | Microservices | SAP NetWeaver | Multidomain | Azure Native | Agentic |
| Основная ниша | Enterprise MDM | ERP-интегрированный | PIM + MDM | Golden Record | Data Quality + MDM |
| AI/Automation | CLAIRE GPT (2025) | Manual | Rules-based | ML-powered matching | AI-powered (Leader) |
| Множественные домены | ✓ Customer, Product, Supplier, Employee, Location, Asset | ✓ Material, Customer, BP, Finance | ✓ Product, Customer, Supplier, Asset | ✓ Customer, Product, Location | ✓ Any domain |
| Matching Engine | Rules-based + probabilistic | Limited | Workflow-based | In-memory graph + fuzzy | Deterministic + probabilistic |
| Survivorship | Configurable | Standard SAP | Workflow rules | Date/Source/Completeness | Rule-based |
| Pricing Model | SaaS (per record) | License (perpetual) | SaaS | Cloud-based | Cloud/On-Prem |
| Гартнер Magic Quadrant | Leader (MDM) | Legacy (no longer active) | Visionary | Challenger | Leader (Data Quality) |
| Рынок | 2,342+ компаний (2025) | Declining (переход на MDG) | Enterprise PIM/MDM | Mid-market | Enterprise Data Governance |
Статус: Leader в Gartner Magic Quadrant for MDM (2025)
Выручка: Acquired by Salesforce (Nov 2025)
Пользователи: 2,342+ компаний
Informatica MDM построена на 云-native microservices с поддержкой multidomain management:
┌─────────────────────────────────────────────────────┐
│ INFORMATICA MULTIDOMAIN MDM ARCHITECTURE │
├─────────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────┐ │
│ │ Cloud-Native IDMC Platform │ │
│ │ (Intelligent Data Management Cloud) │ │
│ └──────────────────────────────────────┘ │
│ ↑ ↑ │
│ ┌──────────────────────────────────┐ │
│ │ Multidomain Hub Server │ │
│ │ (J2EE Application) │ │
│ └──────────────────────────────────┘ │
│ ↓ ↓ ↓ ↓ │
│ ┌─────────┬────────────┬───────────┬──────────┐ │
│ │ Customer│ Product │ Supplier │ Location │ │
│ │ Domain │ Domain │ Domain │ Domain │ │
│ └─────────┴────────────┴───────────┴──────────┘ │
│ ↓ │
│ ┌──────────────────────────────────┐ │
│ │ Process Server │ │
│ │ • Data Cleansing │ │
│ │ • Matching & Merging │ │
│ │ • Batch Jobs │ │
│ └──────────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────────┐ │
│ │ Operational Reference Store │ │
│ │ (Hub DB + ORS DBs) │ │
│ └──────────────────────────────────┘ │
│ ↓ ↓ │
│ ┌──────────────────────────────────┐ │
│ │ Integration Adapters │ │
│ │ (Salesforce, SAP, Oracle, etc) │ │
│ └──────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────┘
Customer 360 — консолидация клиентских данных
- Физические лица и организации
- Контакты, адреса, коммуникация
- Иерархии (родитель-филиал)
Product Information Management (PIM)
- Товары, SKU, варианты
- Иерархии категорий
- Атрибуты и классификация
- Мультимедиа (изображения, видео)
Supplier Management
- Данные поставщика
- Контакты, выплаты
- Квалификация, сертификация
Employee / HR Master
- Организационная структура
- Зарплата, должности
- Компетенции
Attribute Types:
Simple:
- String (text, code)
- Number (integer, decimal)
- Date (date, timestamp)
- Boolean
Complex:
- Reference (ссылка на другую запись)
- Hierarchy (иерархическая связь)
- Composite (составной атрибут)
- Array (множественные значения)
Rich Content:
- Image
- Document
- Video
Informatica поддерживает temporal versioning:
Record Version History:
┌─ v1: Name="John Smith", Created=2024-01-01
├─ v2: Name="John S. Smith", Modified=2024-06-15
└─ v3: Name="John Smith", Modified=2026-01-02
Time Machine: Можно восстановить данные на любую дату
Change Tracking: Кто, когда, почему изменил
Batch Load (ETL):
• File Upload (CSV, Excel, XML)
• Database Connection (SAP, Oracle)
• API Integration (Salesforce, NetSuite)
• Real-time Streaming (Kafka, API)
Mapping & Transformation:
• Field Mapping (CRM Email → MDM Email)
• Lookup Tables (Standard Codes)
• Calculation Fields
• Default Values
CLAIRE Intelligent Match Engine (2025):
Step 1: Candidate Selection
- Exact Key Matching (Customer ID)
- Phonetic Matching (Sound-alike names)
- Keyword Matching (Name contains "Smith")
Step 2: Probabilistic Scoring
- Email similarity: 95% match
- Phone similarity: 90% match
- Address similarity: 85% match
→ Cumulative Score: 90% → Merge candidate
Step 3: ML-Powered Tuning
- AI recommends rules based on patterns
- Rules are learned from historical merges
- Reduces false positives
MDM Workflow:
1. DATA STEWARD REVIEW
┌─ Review Match Candidates
├─ Approve/Reject Merges
└─ Update Missing Values
2. BUSINESS RULE VALIDATION
├─ Tax ID verification
├─ Duplicate policy enforcement
└─ Business rules engine
3. APPROVAL WORKFLOW
├─ Changes routed to Data Owner
├─ Escalation rules (amount > $X)
└─ Audit logging
4. GOLDEN RECORD PUBLICATION
├─ Create/Update golden record
├─ Version tagging
└─ Synchronize to consumer systems
Main Interface:
┌─────────────────────────────────────┐
│ Informatica MDM Console │
├─────────────────────────────────────┤
│ [Search & Find Duplicates] │
│ │
│ Record 1: John Smith (CRM) │
│ • Email: john@company.com │
│ • Phone: +1-555-0001 │
│ • Address: 123 Main St │
│ │
│ Record 2: Jon Smith (ERP) │
│ • Email: j.smith@company.com │
│ • Phone: +1-555-0001 │
│ • Address: 123 Main Street │
│ │
│ [Merge Candidate: 92% Match] │
│ ┌─────────────────────────────────┐ │
│ │ Survivorship Rules: │ │
│ │ ☑ Use Email from CRM │ │
│ │ ☑ Use Phone from both (same) │ │
│ │ ☑ Use Address from 3PL │ │
│ │ │ │
│ │ [Preview Golden Record] │ │
│ │ [Merge] [Reject] [Manual Review] │ │
│ └─────────────────────────────────┘ │
└─────────────────────────────────────┘
Dashboard Metrics:
• Completeness: 94% (missing email: 6%)
• Accuracy: 87% (validation failures: 13%)
• Timeliness: 99% (updated < 7 days)
• Uniqueness: 98% (potential duplicates: 2%)
Alerts:
🔴 CRITICAL: Customer duplicate rate increased to 5%
🟡 WARNING: Email validation failures trending up
🟢 INFO: Data quality +2% this month
API First Architecture:
┌──────────────────────────────────────┐
│ Salesforce CRM │
│ (Owned by Informatica parent) │
│ ✓ Native Integration │
│ ✓ Real-time Sync │
└──────────────────────────────────────┘
↑ ↓
┌──────────────────────────────────────┐
│ INFORMATICA MDM HUB │
│ • Golden Record Authority │
│ • Master Data Repository │
└──────────────────────────────────────┘
↑ ↓ ↑ ↓
┌─────────────────────────────────────┐
│ SAP ERP │ Oracle │ Marketo │
│ Salesforce │ NetSuite │ Commerce │
└─────────────────────────────────────┘
Integration Modes:
• REST API: Real-time queries
• Event-Driven: Publish on golden record change
• Batch ETL: Scheduled synchronization
• Change Data Capture (CDC): Capture source changes
Статус: SAP MDM — Legacy (end of life), SAP MDG — Future-focused
Платформа: SAP NetWeaver / S/4HANA
Развёртывание: On-Premise
SAP MDM Timeline:
2003: SAP MDM v5 (начало)
2010: SAP MDM v7 (зенит)
2015: SAP NetWeaver MDM 7.1 (последний апдейт)
2018: SAP Master Data Governance (MDG) анонсирована
2023: SAP officially recommends MDG over legacy MDM
2025: SAP MDM support phasing out
┌────────────────────────────────────┐
│ SAP S/4HANA Environment │
├────────────────────────────────────┤
│ │
│ ┌──────────────────────────────┐ │
│ │ Master Data Governance (MDG) │ │
│ │ │ │
│ │ • Governance Workflows │ │
│ │ • Data Modeling │ │
│ │ • Approval Processes │ │
│ │ • Audit & Compliance │ │
│ └──────────────────────────────┘ │
│ ↑ ↓ │
│ ┌──────────────────────────────┐ │
│ │ Master Data Tables │ │
│ │ (Material, Customer, BP) │ │
│ └──────────────────────────────┘ │
│ ↑ ↓ │
│ ┌──────────────────────────────┐ │
│ │ ECC/Legacy Systems │ │
│ │ (SAP SD, MM, FI, etc.) │ │
│ └──────────────────────────────┘ │
│ │
└────────────────────────────────────┘
SAP MDG поддерживает стандартные SAP-сущности:
Material Master:
• Material ID (key)
• Description (multilingual)
• Material Type (HAWA, FERT, HALB)
• Plant-specific data (Storage location)
• Valuation class, Cost center
• Status (Active, Discontinued)
Customer Master:
• Customer ID (company-specific)
• Name, Address (multiple)
• Industry (NACE code)
• Credit limit, Payment terms
• Tax registration
• Sales area (Division, Distribution Channel)
Business Partner:
• Partner ID
• General data (Name, Legal type)
• Address
• Bank details
• Tax data
Finance Master:
• GL Account (Chart of Accounts)
• Cost Center
• Profit Center
• Cost Element
Hierarchy Types:
1. Material Hierarchy
┌─ Product Group (e.g., Electronics)
│ ├─ Sub-group (e.g., Phones)
│ │ ├─ iPhone 15 Pro
│ │ ├─ iPhone 15
│ │ └─ iPhone 15 Plus
│ └─ Sub-group (e.g., Tablets)
│ ├─ iPad Pro
│ └─ iPad Air
└─ Accessories
2. Organizational Hierarchy
Company (10)
├─ Europe Sales (11)
│ ├─ Germany (21)
│ ├─ France (22)
│ └─ Italy (23)
└─ Asia Sales (12)
├─ Japan (31)
└─ China (32)
MDG Workflow Example:
1. CREATE/CHANGE Request
User submits material master change
└─ Data validation rules applied
2. APPROVAL ROUTING
Rule: "Glass materials > $50k cost → Finance approval"
└─ Routes to Finance Manager
3. CHANGE REQUEST
Material: "Crystal Glass Vase"
Original Cost: $40/unit
New Cost: $45/unit (proposed)
└─ Routed to Cost Accounting manager
4. SIGN-OFF
Manager reviews, approves
└─ Authorises change
5. ACTIVATE
Change becomes active in SAP system
└─ Historical version retained
6. DISTRIBUTE
If configured: Push to connected systems
└─ ECC, BW, BI, etc. synchronized
Hub-and-Spoke Architecture:
┌──────────────────────────────────┐
│ SAP MDG (Central Hub) │
│ Master Data Authority │
└──────────────────────────────────┘
↑ ↓ ↑ ↓
┌─────────────────────────────────┐
│ SAP ECC │ EWM │ BI │ Ariba │
│ (legacy) │ │ │(Supplier)
└─────────────────────────────────┘
Integration via:
• SAP PI/PO (Process Integration)
• Direct BD (Change Pointer)
• Web Services
• REST API (newer)
Статус: Leading PIM + MDM Platform
Развёртывание: Cloud SaaS / On-Premise
Фокус: Enterprise product data + multidomain MDM
┌──────────────────────────────────────┐
│ STIBO SYSTEMS STEP PLATFORM │
├──────────────────────────────────────┤
│ │
│ ┌────────────────────────────────┐ │
│ │ Ultra-Flexible Data Modeling │ │
│ │ (Supports any data structure) │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ Multidomain MDM Engine │ │
│ │ • Product (PIM) │ │
│ │ • Customer │ │
│ │ • Supplier │ │
│ │ • Asset │ │
│ │ • Digital Asset Management │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ Unified Governance Framework │ │
│ │ (Same rules for all domains) │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ Workflow & Business Rules │ │
│ │ Engine │ │
│ └────────────────────────────────┘ │
│ │
└──────────────────────────────────────┘
Flexible Modeling:
Object Types:
• Standard Entity (Customer, Product)
• Reference Object (Catalog, Category)
• Composite Entity (Product Bundle)
• Classification (Product attributes)
• Relationship (Product to Supplier)
Attributes:
• Simple (text, number, date)
• Hierarchical (parent-child values)
• Multi-value (array of values)
• Rich Content (media, documents)
Relations:
• One-to-Many (Product → multiple SKUs)
• Many-to-Many (Product ↔ Category)
• Temporal (valid from/to dates)
• Conditional (based on product type)
Product Entity:
┌─ Basic Info
│ ├─ Name
│ ├─ Description
│ ├─ SKU
│ └─ Status
│
├─ Classification
│ ├─ Category
│ ├─ Sub-category
│ └─ Product Type
│
├─ Attributes (hierarchical)
│ ├─ Size
│ │ ├─ Width
│ │ ├─ Height
│ │ └─ Depth
│ ├─ Color
│ └─ Material
│
├─ Relationships
│ ├─ Supplier (Many-to-Many)
│ ├─ Variants (One-to-Many)
│ └─ Cross-sells (Many-to-Many)
│
├─ Media
│ ├─ Main Image
│ ├─ Gallery Images
│ ├─ Specification PDF
│ └─ Video URL
│
└─ Enrichment Data
├─ SEO Title
├─ Meta Description
└─ Marketing Copy
STEP Workflow Model:
Step 1: CREATION WORKFLOW
┌─ User creates Product
├─ Basic fields populated
└─ Status: Draft
Step 2: ENRICHMENT WORKFLOW
┌─ Route to Content Team
├─ Add descriptions, images
└─ Route to QA
Step 3: QA WORKFLOW
┌─ Validate data completeness
├─ Check image quality
├─ Verify category assignment
└─ Approve or send back
Step 4: PUBLICATION WORKFLOW
┌─ Product marked as Ready
├─ Automatically sync to
│ └─ E-commerce sites
│ └─ Marketplaces (Amazon, eBay)
│ └─ PIM feeds
└─ Status: Published
Step 5: LIFECYCLE WORKFLOW
├─ Periodic review
├─ Update if needed
└─ Deprecate when obsolete
Uniform Governance Across Domains:
STIBO Governance Rules Apply Equally:
Product Domain:
• Completeness rule: Name, Description, Category required
• Quality rule: Image > 1000px
• Approval rule: Content Mgr must approve
Customer Domain:
• Completeness rule: Name, Email, Address required
• Quality rule: Email validated
• Approval rule: Sales Ops must approve
Supplier Domain:
• Completeness rule: Name, Contact, Tax ID required
• Quality rule: Tax ID verified
• Approval rule: Procurement must approve
Result: Consistent governance, reduced confusion
Статус: Leader in Golden Record Management
Платформа: Cloud-Native / Azure Integration
Фокус: Business users + AI-powered matching
┌──────────────────────────────────────┐
│ PROFISEE MASTER DATA MAESTRO │
├──────────────────────────────────────┤
│ │
│ ┌────────────────────────────────┐ │
│ │ AI-First UI/UX │ │
│ │ (Designed for business users) │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ In-Memory Graph Matching │ │
│ │ Engine │ │
│ │ • ML-powered │ │
│ │ • Fuzzy matching │ │
│ │ • Probabilistic scoring │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ Golden Record Creation │ │
│ │ • Survivorship rules │ │
│ │ • Conflict resolution │ │
│ │ • Relationship management │ │
│ └────────────────────────────────┘ │
│ ↓ │
│ ┌────────────────────────────────┐ │
│ │ Azure Integration │ │
│ │ • Purview Integration │ │
│ │ • Data governance sync │ │
│ └────────────────────────────────┘ │
│ │
└──────────────────────────────────────┘
Three-Tier Matching Strategy:
┌─────────────────────────────────────┐
│ Tier 1: DETERMINISTIC MATCHING │
├─────────────────────────────────────┤
│ Rule: IF Customer_ID_CRM == │
│ Customer_ID_ERP │
│ THEN automatic match │
│ │
│ Speed: Instant │
│ Accuracy: 100% │
└─────────────────────────────────────┘
↓
No match found → Move to Tier 2
┌─────────────────────────────────────┐
│ Tier 2: FUZZY MATCHING │
├─────────────────────────────────────┤
│ Algorithm: Levenshtein distance, │
│ Phonetic matching │
│ │
│ Input: │
│ "John Smith" vs "Jon Smyth" │
│ Email: "j.smith@co.com" │
│ "john_smith@company.com" │
│ │
│ Scoring: │
│ Name similarity: 92% │
│ Email domain: match │
│ → Combined score: 90% → MATCH │
│ │
│ Speed: Moderate │
│ Accuracy: 85-95% │
└─────────────────────────────────────┘
↓
Confidence < threshold → Move to Tier 3
┌─────────────────────────────────────┐
│ Tier 3: ML-POWERED PROBABILISTIC │
├─────────────────────────────────────┤
│ Model: Trained on historical │
│ merges (human-reviewed) │
│ │
│ Considers: │
│ • Multiple field combinations │
│ • Relationship patterns │
│ • Industry-specific rules │
│ • Temporal patterns │
│ │
│ Output: │
│ Match probability: 78% ← Human review
│ │
│ Speed: Slower (batch) │
│ Accuracy: Context-dependent │
└─────────────────────────────────────┘
↓
Final: Human steward review if uncertain
Profisee Survivorship Strategy:
Method 1: SOURCE PRIORITY
Rule: "Customer email always from CRM"
CRM Email: john@company.com ← WINS
ERP Email: john_s@company.com
3PL Email: not provided
Golden Record Email: john@company.com
Method 2: RECENCY (Last Update)
Rule: "Use most recently updated phone"
CRM Phone: +1-555-0001 (2025-12-20)
ERP Phone: +1-555-9999 (2024-06-15) ← OLD
Golden Record Phone: +1-555-0001
Method 3: COMPLETENESS
Rule: "If value exists, use it"
Company A Name: "Acme Corp"
Company B Name: (empty)
Golden Record: "Acme Corp"
Method 4: CUSTOM LOGIC
Rule: "Use ERP date if recent AND CRM is incomplete"
Condition:
IF CRM.email is empty
AND ERP.date > 30 days ago
THEN use ERP.date
Profisee Quality Metrics:
┌──────────────────────────────────────┐
│ GOLDEN RECORD HEALTH DASHBOARD │
├──────────────────────────────────────┤
│ │
│ Completeness Score: 92% │
│ ████████████░░ Missing: email (8%) │
│ │
│ Accuracy Score: 87% │
│ ███████████░░░ Validation: 13% │
│ │
│ Uniqueness Score: 98% │
│ ██████████████░ Duplicates: 2% │
│ │
│ Conformity Score: 94% │
│ █████████████░░ Rules violated: 6% │
│ │
│ Top Issues: │
│ 1. Missing email: 462 records │
│ 2. Invalid phone: 123 records │
│ 3. Duplicate detection: 89 pairs │
│ │
└──────────────────────────────────────┘
Azure-Native Integration:
┌────────────────────────────────┐
│ Microsoft Purview │
│ • Data Governance Catalog │
│ • Data Quality Rules │
│ • Lineage Tracking │
└────────────────────────────────┘
↑ ↓
┌────────────────────────────────┐
│ PROFISEE MDM HUB │
│ • Golden Record Management │
│ • Matching Engine │
└────────────────────────────────┘
↑ ↓
┌────────────────────────────────┐
│ Azure Data Services │
│ • Data Lake / SQL DB │
│ • Synapse Analytics │
└────────────────────────────────┘
Статус: Leader in Gartner Magic Quadrant for Augmented Data Quality (4 consecutive years)
Платформа: Cloud / On-Premise
Фокус: Data Quality + MDM + Governance
┌────────────────────────────────────┐
│ ATACCAMA ONE UNIFIED PLATFORM │
├────────────────────────────────────┤
│ │
│ ┌──────────────────────────────┐ │
│ │ Data Discovery & Profiling │ │
│ │ • Automated scanning │ │
│ │ • Pattern detection │ │
│ │ • Quality metrics │ │
│ └──────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────┐ │
│ │ Data Governance Catalog │ │
│ │ • Metadata management │ │
│ │ • Business glossary │ │
│ │ • Lineage tracking │ │
│ └──────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────┐ │
│ │ Data Quality Engine │ │
│ │ • Cleansing rules │ │
│ │ • Standardization │ │
│ │ • Enrichment │ │
│ └──────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────┐ │
│ │ Master Data Management │ │
│ │ • Matching │ │
│ │ • Merging │ │
│ │ • Golden records │ │
│ └──────────────────────────────┘ │
│ ↓ │
│ ┌──────────────────────────────┐ │
│ │ Observability & Monitoring │ │
│ │ • Quality alerts │ │
│ │ • Anomaly detection │ │
│ │ • Performance metrics │ │
│ └──────────────────────────────┘ │
│ │
└────────────────────────────────────┘
Automated Profiling:
Input: Connect to any data source
├─ Database (Teradata, PostgreSQL, Oracle)
├─ Data warehouse (Snowflake, Redshift)
├─ Cloud storage (S3, Azure Blob)
└─ File (CSV, Excel, Parquet)
Process: Automated Analysis
├─ Column statistics (min, max, avg, median)
├─ Null & duplicate detection
├─ Pattern discovery (regex)
├─ Distribution analysis
└─ Anomaly detection
Output: Quality Profile Report
├─ Completeness: 92.5% (7.5% nulls)
├─ Distinct values: 45,231 (unique rate: 98%)
├─ Data types: 8 strings, 3 integers, 2 dates
├─ Patterns found:
│ ├─ Email pattern: ^[^@]+@[^@]+\.[^@]+$
│ ├─ Phone pattern: ^\+?1?\d{9,15}$
│ └─ ZIP pattern: ^\d{5}(-\d{4})?$
└─ Recommendations:
├─ Standardize phone format
└─ Fix 156 invalid emails
Ataccama Cleansing Rules:
Input Data:
Name: " john SMITH "
Phone: "555.1234"
Address: "123 MAIN ST, SPRINGFIELD, USA 62701"
Email: "john.smith@company.COM"
┌─ Step 1: WHITESPACE REMOVAL
├─ Name: "john SMITH"
└─
┌─ Step 2: STANDARDIZATION
├─ Name: "John Smith" (title case)
├─ Phone: "+1-555-1234" (standard format)
├─ Address: "123 Main St Springfield, USA 62701" (title case)
└─ Email: "john.smith@company.com" (lowercase)
┌─ Step 3: VALIDATION
├─ Email format: ✓ Valid
├─ Phone length: ✓ Valid
├─ ZIP code: ✓ Valid
└─ All pass
Output Data (Cleansed):
Name: "John Smith"
Phone: "+1-555-1234"
Address: "123 Main St Springfield, USA 62701"
Email: "john.smith@company.com"
Ataccama ROI Results:
348% Return on Investment in first 3 years
Financial Impact:
• $350M cost avoidance (better decisions)
• $50M direct savings (data reuse)
Operational Impact:
• 40% reduction in time to insights
• 60% fewer data quality issues
• 80% reduction in manual data work
Critical Distinction: MDM и PIM решают разные проблемы, хотя часто работают вместе.
| Параметр | MDM | PIM |
|---|---|---|
| Цель | Управление справочными данными для всей организации | Управление информацией о продуктах для продаж и маркетинга |
| Аудитория | Executives, Analysts, Compliance Officers | Merchandise managers, Marketing teams, E-commerce |
| Данные | Customer, Supplier, Location, Employee, Product (generic) | Product information enriched with media, descriptions, marketing copy |
| Фокус | Accuracy, Completeness, Compliance | Commerce readiness, Multi-channel syndication |
| Обогащение | Minimal (validation, standardization) | Extensive (images, videos, descriptions, SEO) |
| ROI Timeline | 12-24 months | 3-6 months |
| Примеры систем | Informatica, SAP MDG, Profisee, Ataccama | Akeneo, Stibo, Salsify, Syndigo |
WHERE MDM ENDS AND PIM BEGINS:
MDM DOMAIN (Master Data Authority):
Product ID: SKU-12345
Product Name: "Wireless Headphones"
Manufacturer: Sony
Category: Electronics > Audio
Supplier: Sony Distribution
Cost Price: $45
List Price: $99
Weight: 250g
Dimensions: 20×15×8cm
→ Used by: Finance, Supply Chain, ERP
PIM DOMAIN (Product Information Commerce):
(Same SKU-12345)
Product Title: "Premium Sony Wireless Headphones with Noise Cancellation"
SEO Title: "Sony WH-1000XM5 Wireless Headphones - Best Price"
Meta Description: "Professional-grade wireless headphones with active noise cancellation..."
Long Description: "Experience pristine audio with Sony's award-winning WH-1000XM5..."
Rich Media:
• Main Image: 3000×3000px
• 360° View: 12 images
• Demo Video: 2-minute product review
• Specification PDF: Complete technical specs
Marketing Copy:
• Feature bullets: Battery life 30h, ANC, multipoint
• Care instructions: How to clean and maintain
• Warranty info: 1-year manufacturer's warranty
Channel-Specific:
Amazon: "Sony Wireless Headphones | Fast Shipping"
eBay: "SONY WH-1000XM5 Headphones [Brand New]"
Site: "Premium Audio | Sony Headphones"
→ Used by: E-commerce, Marketplaces, Marketing
ORGANIZATION MATURITY JOURNEY:
Stage 1: STARTUP (no MDM or PIM)
├─ Data scattered in spreadsheets
├─ No central authority
└─ Quick to market, poor quality
Stage 2: GROWTH (PIM only)
├─ Implement PIM for e-commerce
├─ Rich product content
├─ But: Data quality issues in ERP
└─ Eventually conflicts emerge
Stage 3: SCALE (Both MDM + PIM)
├─ MDM ensures data accuracy for decisions
│ └─ Finance, Supply Chain, Compliance use golden records
├─ PIM enriches product data for channels
│ └─ Commerce, Marketing use enriched catalogs
├─ PIM gets "clean" master data from MDM
├─ Bidirectional sync when needed
└─ Best of both worlds
Example Architecture:
SAP ERP (source truth for cost, supplier)
↓
Informatica MDM
• Consolidate from ERP, CRM, 3PL
• Create golden records
• Ensure quality for organization
↓
Akeneo PIM
• Enrich product info
• Add images, descriptions
• Prepare for channels
↓
Amazon, eBay, Website
• Commerce-ready content
WHY HUB-AND-SPOKE?
Point-to-Point Problem:
50 systems = 50 × 49 / 2 = 1,225 connections
Maintenance nightmare! 🔥
Hub-and-Spoke Solution:
50 systems = 50 connections
96% reduction in complexity! ✓
ARCHITECTURE:
┌─────────────────┐
│ MDM HUB │
│ • Golden Record │
│ • Authority │
│ • Governance │
└────────┬────────┘
/│\
/ │ \ / │ \ / │ \
/ │ X │ X │ \
/ │ / \ │ / \ │ \
╱ ╱ X ╲ ╲
┌───────┐ ┌──────────┐ ┌──────────┐ ┌────────────┐
│ SAP │ │Salesforce│ │ Oracle │ │ Shopify │
│ ERP │ │ CRM │ │ Database │ │ E-commerce │
└───────┘ └──────────┘ └──────────┘ └────────────┘
Benefits:
✓ Centralized governance
✓ Consistent data quality
✓ Single source of truth
✓ Easy to add new systems (just add one spoke)
✓ Real-time sync capability
SCENARIO: Customer changes email in CRM
┌──────────────────────────────────────────┐
│ SALESFORCE CRM │
│ Customer John Smith │
│ Old Email: john.smith@company.com │
│ New Email: js@company.com (user change) │
│ │
│ User saves change │
│ ↓ │
│ [Change Trigger] │
└──────────────────────────────────────────┘
↓ (Event)
┌──────────────────────────────────────────┐
│ INFORMATICA MDM HUB │
│ │
│ Processing: │
│ 1. Receive change event │
│ 2. Compare with golden record │
│ GR Email: john.smith@company.com │
│ CRM Email: js@company.com (new) │
│ 3. Apply survivorship rules │
│ Rule: "CRM email = authority" │
│ 4. Update golden record │
│ GR Email: js@company.com │
│ 5. Mark change in audit log │
│ by: Salesforce | time: 2026-01-02 14:32
└──────────────────────────────────────────┘
↓ (Publish)
┌──────────────────────────────────────────┐
│ SPOKE SYSTEMS (All receive update) │
│ │
│ SAP ERP: │
│ Customer John Smith │
│ Email: js@company.com ✓ │
│ │
│ Oracle CRM: │
│ Customer John Smith │
│ Email: js@company.com ✓ │
│ │
│ Marketing Cloud: │
│ List updated: js@company.com ✓ │
│ │
│ Notification Service: │
│ Alert: John Smith email changed ✓ │
└──────────────────────────────────────────┘
Result: All systems in sync within 5 minutes
TYPICAL MDM GOVERNANCE WORKFLOW:
┌─────────────────────────────────────────┐
│ DATA STEWARD RECEIVES NOTIFICATION │
├─────────────────────────────────────────┤
│ │
│ New Match Candidate Found: │
│ Customer "John Smith" (CRM, ID: 12345)│
│ Customer "Jon Smith" (ERP, ID: 67890) │
│ Match Score: 92% │
│ │
│ [Review in MDM Interface] │
│ │
│ Steward sees: │
│ ┌──────────────────────────────────────┐│
│ │ Record 1 (CRM) │ Record 2 (ERP) ││
│ ├──────────────────────────────────────┤│
│ │ Name: John Smith │ Jon Smith ││
│ │ Email: john@co.com │ jon@co.com ││
│ │ Phone: 555-0001 │ 555-0001 ││
│ │ Created: 2024 │ Created: 2023 ││
│ │ Status: Active │ Active ││
│ └──────────────────────────────────────┘│
│ │
│ Steward Action: [APPROVE MERGE] │
│ │
│ Choose Survivorship: │
│ ✓ Name: "John Smith" (CRM - more │
│ recent) │
│ ✓ Email: "john@co.com" (CRM - │
│ appears primary) │
│ ✓ Phone: "555-0001" (same) │
│ │
└─────────────────────────────────────────┘
↓ (Steward confirms)
┌─────────────────────────────────────────┐
│ MDM HUB PROCESSES MERGE │
├─────────────────────────────────────────┤
│ │
│ 1. Create Golden Record │
│ ID: GR-99999 │
│ Name: John Smith │
│ Email: john@co.com │
│ Phone: 555-0001 │
│ │
│ 2. Link old records │
│ CRM 12345 → points to GR-99999 │
│ ERP 67890 → points to GR-99999 │
│ │
│ 3. Log history │
│ "Merged CRM 12345 + ERP 67890" │
│ Merged by: Jane Doe (Steward) │
│ Merged at: 2026-01-02 14:35:21 │
│ Survivorship applied: see rules │
│ │
│ 4. Publish to systems │
│ SAP ERP: Update Customer 67890 → ref │
│ to GR-99999 │
│ Salesforce: Update 12345 → ref to │
│ GR-99999 │
│ 3PL: Link 12345 to GR-99999 │
│ │
│ 5. Notify subscribers │
│ Email all system owners: "Merge │
│ complete, verify in your systems" │
│ │
└─────────────────────────────────────────┘
↓ (3-5 minutes)
┌─────────────────────────────────────────┐
│ ALL SYSTEMS SYNCHRONIZED │
│ Single customer record across enterprise │
└─────────────────────────────────────────┘
GOVERNANCE FRAMEWORK:
┌─────────────────────────────────────────┐
│ DATA GOVERNANCE COUNCIL (Monthly) │
│ │
│ Members: │
│ • CTO (Technology) │
│ • CFO (Finance) │
│ • CMO (Marketing) │
│ • COO (Operations) │
│ • Compliance Officer │
│ │
│ Responsibilities: │
│ • Set governance policies │
│ • Review quality metrics │
│ • Resolve escalated conflicts │
│ • Approve large changes │
└─────────────────────────────────────────┘
↑
┌─────────────────────────────────────────┐
│ DATA OWNER (per domain) │
│ e.g., VP Sales for Customer Domain │
│ │
│ Responsibilities: │
│ • Define data requirements │
│ • Approve changes to structure │
│ • Ensure business alignment │
│ • Escalate major issues │
└─────────────────────────────────────────┘
↑
┌─────────────────────────────────────────┐
│ DATA STEWARD (operational) │
│ e.g., CRM Administrator for Customers │
│ │
│ Responsibilities: │
│ • Daily quality monitoring │
│ • Review match candidates │
│ • Approve small changes │
│ • Train users on data quality │
│ • Handle exception cases │
└─────────────────────────────────────────┘
↑
┌─────────────────────────────────────────┐
│ BUSINESS USERS │
│ e.g., Sales Rep, CRM User │
│ │
│ Responsibilities: │
│ • Enter accurate data │
│ • Report quality issues │
│ • Follow data entry standards │
│ • Validate records periodically │
└─────────────────────────────────────────┘
Лучше всего: Крупные многонациональные компании с инвестициями в Salesforce экосистему
Плюсы:
- Cloud-native, масштабируется
- CLAIRE GPT (AI matching)
- Salesforce интеграция (после приобретения)
- Multidomain (Customer, Product, Supplier, Employee)
- Enterprise support
Минусы:
- Высокая стоимость
- Крутая кривая обучения
- Требует квалифицированных специалистов
ROI: 18-24 месяца
Лучше всего: Компании с глубоким инвестициями в SAP (S/4HANA), нужна интеграция с финансовыми процессами
Плюсы:
- Native SAP integration
- Встроена в S/4HANA
- Для финансовых/материальных данных
- Стандартные workflow
Минусы:
- On-premise only
- Ограничено SAP экосистемой
- Legacy (SAP рекомендует MDG)
Подходит для: ERP governance, не для multidomain
Лучше всего: Компании с фокусом на product data (PIM + MDM), нужна гибкость моделирования
Плюсы:
- Лучшая PIM в индустрии
- Ультрагибкая data modeling
- Unified governance для всех доменов
- Хороша для product-centric организаций
Минусы:
- Сложная в настройке
- Меньше встроенных интеграций
- Требует профильных специалистов
ROI: 12-18 месяцев
Лучше всего: Компании, которые хотят быстрого ROI, Azure-cloud, ориентированы на golden records
Плюсы:
- Самая простая в использовании для бизнес-пользователей
- ML-powered matching (быстрое настроение)
- Azure Purview интеграция
- Быстрый deployment (3-6 месяцев)
- Явный фокус на золотых записях
Минусы:
- Может быть недостаточна для сложных многодоменных сценариев
- Меньше покрытия чем Informatica
ROI: 6-12 месяцев (самый быстрый)
Лучше всего: Компании, которым нужен фокус на data quality сначала, потом MDM
Плюсы:
- Лидер в Data Quality (Gartner 4 года подряд)
- Unified platform (Quality + Governance + MDM)
- AI-powered automation
- Excellent ROI (348% за 3 года)
- Может работать со своей БД, не требует вырвать данные
Минусы:
- Не проприетарная как Informatica
- Меньше встроенных коннекторов
ROI: 12-18 месяцев + долгосрочная экономия
DECISION MATRIX:
1. ГЛАВНЫЙ ВОПРОС: Какие домены нужны?
Только Product (e-commerce):
→ Akeneo PIM (если нужна коммерция)
→ Stibo STEP (если нужна гибкость MDM тоже)
Product + Customer + Supplier:
→ Informatica (если есть бюджет)
→ Profisee (если нужен быстрый ROI)
→ Stibo STEP (если нужна гибкость)
Customer + Finance (в SAP):
→ SAP MDG (встроено в S/4HANA)
2. ВТОРОЙ ВОПРОС: Cloud или On-Premise?
Cloud обязательна:
→ Informatica IDMC
→ Profisee (Azure)
→ Stibo (cloud-preferred)
On-Premise нужна:
→ SAP MDG
→ Ataccama (оба режима)
3. ТРЕТИЙ ВОПРОС: Data Quality важна?
Качество — главная проблема:
→ Ataccama ONE (3-в-1)
MDM важнее качества:
→ Informatica, Profisee, Stibo
4. ЧЕТВЁРТЫЙ ВОПРОС: Экосистема?
Salesforce ecosystem:
→ Informatica (теперь Salesforce-owned)
Azure ecosystem:
→ Profisee (Purview integration)
SAP ecosystem:
→ SAP MDG
Независимая:
→ Stibo, Ataccama
ТИПИЧНЫЙ TIMELINE ВНЕДРЕНИЯ:
PROFISEE (Fastest)
Month 1: Assessment, Design
Month 2: Data profiling, Match tuning
Month 3: Golden record creation
Month 4-6: Integration, Go-live
Total: 4-6 months → Quick ROI
INFORMATICA (Moderate)
Month 1-2: Assessment, Architecture
Month 3-4: Data modeling, Connectors
Month 5-6: Matching, Governance
Month 7-12: Integration, Rollout, Optimization
Total: 12+ months → Enterprise scale
SAP MDG (Long, if new to SAP)
Month 1-3: Assessment, S/4HANA prep
Month 4-6: Data modeling, Workflows
Month 7-12: Integration, Testing
Month 12+: Go-live, Optimization
Total: 12-18+ months (зависит от текущей SAP)
STIBO STEP (Complex)
Month 1-2: Assessment, Data modeling
Month 3-4: PIM setup, Governance
Month 5-8: Workflows, Integration
Month 9-12: Testing, Go-live
Total: 9-15 months → Зависит от гибкости
ATACCAMA (Phased)
Phase 1 (Month 1-3): Data Quality assessment
Phase 2 (Month 4-6): Governance implementation
Phase 3 (Month 7-12): MDM golden records
Total: 12+ months → Получаешь результаты на каждой фазе
Документ подготовлен: 2026-01-02
Версия: 1.0
Статус: Готово к использованию