architect/research/MDM_SYSTEMS_RESEARCH.md

MDM Systems Research: Master Data Management Platforms

Дата: 2026-01-02
Статус: Исследование (актуально для Q1 2026)


Содержание

  1. Концепция MDM
  2. Сравнение систем
  3. Informatica MDM
  4. SAP MDM / MDG
  5. Stibo Systems STEP
  6. Profisee
  7. Ataccama
  8. MDM vs PIM
  9. Интеграция и архитектура
  10. Выводы

Концепция MDM

Master Data Management — определение

Master Data Management (MDM) — это дисциплина управления критическими справочными данными организации через технологии, инструменты и процессы.

Что такое мастер-данные?

Мастер-данные (master data) — это основополагающие, неперемещаемые данные, которые определяют сущности и их отношения в бизнесе:

Тип Примеры Характеристики
Customer Клиенты, контакты, компании Используется всеми системами CRM, ERP, маркетинг
Product Товары, SKU, материалы Управление каталогом, ценообразование
Supplier Поставщики, контрагенты Закупки, управление отношениями
Location Филиалы, склады, точки доставки Логистика, распределение
Employee Сотрудники, организационная структура HR, управление доступом
Asset Основные средства, оборудование Учёт, техническое обслуживание
Finance Счета, центры затрат, прибыли Финансовый учёт, отчётность

Отличие мастер-данных от обычных данных

Аспект Мастер-данные Обычные данные
Объём изменений Медленно изменяются (Master-Slow-Moving) Изменяются часто
Переиспользование Используются в сотнях процессов Локальное использование
Качество Критично для всей компании Локальное значение
Управление Централизованное (governance) Децентрализованное
Версионирование История изменений обязательна История опциональна
Пример Данные клиента (Name, ID, Tax) Заметка в комментариях заказа

Golden Record Concept

Golden Record — это единственный авторитетный источник истины для каждой сущности.

Структура Golden Record

┌─────────────────────────────────────────┐
  Golden Record (Customer #12345)         
├─────────────────────────────────────────┤
 Name: "John Smith"                      
 Email: john.smith@company.com (CRM)     
 Phone: +1-555-1234 (ERP)                
 Address: 123 Main St... (3PL system)    
 Tax ID: 78-9987654 (Accounting)         
 Industry: Manufacturing (Dun & B.)      
 Credit Limit: $50,000 (Finance)         
 Last Updated: 2026-01-02 by Data Team   
 Source Priority: Finance > CRM > ERP    
└─────────────────────────────────────────┘
        
  Агрегирование из источников:
  SAP ERP, Salesforce CRM, 3PL, Accounting, Dun&Bradstreet

Процесс создания Golden Record

Шаг 1: DATA INGESTION (загрузка)
  SAP ERP  Customer "John Smith"
  Salesforce  Customer "john.smith@company.com"
  3PL System  Address "123 Main St"

            (разные представления одного клиента)

Шаг 2: DATA MATCHING (поиск дубликатов)
  Fuzzy Matching:
    "John Smith" == "Jon Smith"  MATCH
    "123 Main St" == "123 Main Street"  MATCH

  Similarity Score: 92%  Кандидат на слияние

           

Шаг 3: SURVIVORSHIP RULES (выбор победителя)
  Name: использовать из CRM (более свежий источник)
  Email: использовать из CRM (основной источник контакта)
  Address: использовать из 3PL (специалист по доставке)
  Tax ID: использовать из Finance (авторитетный источник)

           

Шаг 4: GOLDEN RECORD CREATION (конвергенция)
  Создана единая, достоверная запись

           

Шаг 5: VALIDATION (проверка)
  Email валиден? 
  Phone валиден? 
  Tax ID проверен? 

           

Шаг 6: DISTRIBUTION (распространение)
  Golden Record отправляется обратно во все системы
  CRM, ERP, 3PL синхронизированы

Data Quality Management в MDM

Управление качеством данных — это непрерывный цикл:

┌─────────────────────────────────────────┐
│  КАЧЕСТВО ДАННЫХ В MDM                  │
├─────────────────────────────────────────┤
│ 1. PROFILING — анализ существующих данных
│    • Обнаружение пропусков, выбросов
│    • Статистика, распределения
│    • Выявление потенциальных дубликатов
│
│ 2. CLEANSING — очистка и стандартизация
│    • Удаление пропусков
│    • Преобразование (John → john, убрать пробелы)
│    • Валидация по правилам (email format)
│
│ 3. MATCHING — поиск дубликатов
│    • Точное совпадение (ID)
│    • Нечёткое совпадение (fuzzy matching)
│    • Вероятностное (probabilistic)
│
│ 4. MERGING — слияние дубликатов
│    • Определение survivor (побеждающей записи)
│    • Разрешение конфликтов (какое значение выбрать)
│    • Ведение истории слияния
│
│ 5. GOVERNANCE — управление и контроль
│    • Процессы одобрения изменений
│    • Роли: Data Owner, Data Steward
│    • Аудит и отслеживание происхождения (lineage)
│
│ 6. MONITORING — постоянный контроль качества
│    • Метрики качества (completeness, accuracy, timeliness)
│    • Алерты при деградации качества
│    • Отчёты для Data Governance Council
└─────────────────────────────────────────┘

Сравнение систем

Характеристика Informatica SAP MDG Stibo STEP Profisee Ataccama
Развёртывание Cloud (SaaS) On-Prem (S/4HANA) Cloud/On-Prem Cloud/Hybrid Cloud/On-Prem
Архитектура Microservices SAP NetWeaver Multidomain Azure Native Agentic
Основная ниша Enterprise MDM ERP-интегрированный PIM + MDM Golden Record Data Quality + MDM
AI/Automation CLAIRE GPT (2025) Manual Rules-based ML-powered matching AI-powered (Leader)
Множественные домены ✓ Customer, Product, Supplier, Employee, Location, Asset ✓ Material, Customer, BP, Finance ✓ Product, Customer, Supplier, Asset ✓ Customer, Product, Location ✓ Any domain
Matching Engine Rules-based + probabilistic Limited Workflow-based In-memory graph + fuzzy Deterministic + probabilistic
Survivorship Configurable Standard SAP Workflow rules Date/Source/Completeness Rule-based
Pricing Model SaaS (per record) License (perpetual) SaaS Cloud-based Cloud/On-Prem
Гартнер Magic Quadrant Leader (MDM) Legacy (no longer active) Visionary Challenger Leader (Data Quality)
Рынок 2,342+ компаний (2025) Declining (переход на MDG) Enterprise PIM/MDM Mid-market Enterprise Data Governance

INFORMATICA MDM

Статус: Leader в Gartner Magic Quadrant for MDM (2025)
Выручка: Acquired by Salesforce (Nov 2025)
Пользователи: 2,342+ компаний

Архитектура

Informatica MDM построена на 云-native microservices с поддержкой multidomain management:

┌─────────────────────────────────────────────────────┐
│  INFORMATICA MULTIDOMAIN MDM ARCHITECTURE           │
├─────────────────────────────────────────────────────┤
│                                                      │
│  ┌──────────────────────────────────────┐           │
│  │ Cloud-Native IDMC Platform            │           │
│  │ (Intelligent Data Management Cloud)   │           │
│  └──────────────────────────────────────┘           │
│           ↑                    ↑                     │
│    ┌──────────────────────────────────┐            │
│    │   Multidomain Hub Server          │            │
│    │   (J2EE Application)              │            │
│    └──────────────────────────────────┘            │
│      ↓          ↓          ↓          ↓             │
│  ┌─────────┬────────────┬───────────┬──────────┐   │
│  │ Customer│ Product    │ Supplier  │ Location │   │
│  │ Domain  │ Domain     │ Domain    │ Domain   │   │
│  └─────────┴────────────┴───────────┴──────────┘   │
│                    ↓                                │
│    ┌──────────────────────────────────┐            │
│    │  Process Server                   │            │
│    │  • Data Cleansing                 │            │
│    │  • Matching & Merging             │            │
│    │  • Batch Jobs                     │            │
│    └──────────────────────────────────┘            │
│                    ↓                                │
│    ┌──────────────────────────────────┐            │
│    │  Operational Reference Store      │            │
│    │  (Hub DB + ORS DBs)               │            │
│    └──────────────────────────────────┘            │
│           ↓                    ↓                     │
│    ┌──────────────────────────────────┐            │
│    │ Integration Adapters              │            │
│    │ (Salesforce, SAP, Oracle, etc)    │            │
│    └──────────────────────────────────┘            │
│                                                      │
└─────────────────────────────────────────────────────┘

Модели данных

Поддерживаемые домены

  1. Customer 360 — консолидация клиентских данных
    - Физические лица и организации
    - Контакты, адреса, коммуникация
    - Иерархии (родитель-филиал)

  2. Product Information Management (PIM)
    - Товары, SKU, варианты
    - Иерархии категорий
    - Атрибуты и классификация
    - Мультимедиа (изображения, видео)

  3. Supplier Management
    - Данные поставщика
    - Контакты, выплаты
    - Квалификация, сертификация

  4. Employee / HR Master
    - Организационная структура
    - Зарплата, должности
    - Компетенции

Типизация атрибутов

Attribute Types:
  Simple:
    - String (text, code)
    - Number (integer, decimal)
    - Date (date, timestamp)
    - Boolean

  Complex:
    - Reference (ссылка на другую запись)
    - Hierarchy (иерархическая связь)
    - Composite (составной атрибут)
    - Array (множественные значения)

  Rich Content:
    - Image
    - Document
    - Video

Версионирование

Informatica поддерживает temporal versioning:

Record Version History:
  ┌─ v1: Name="John Smith", Created=2024-01-01
  ├─ v2: Name="John S. Smith", Modified=2024-06-15
  └─ v3: Name="John Smith", Modified=2026-01-02

  Time Machine: Можно восстановить данные на любую дату
  Change Tracking: Кто, когда, почему изменил

Процессы MDM в Informatica

1. Data Ingestion

Batch Load (ETL):
   File Upload (CSV, Excel, XML)
   Database Connection (SAP, Oracle)
   API Integration (Salesforce, NetSuite)
   Real-time Streaming (Kafka, API)

Mapping & Transformation:
   Field Mapping (CRM Email  MDM Email)
   Lookup Tables (Standard Codes)
   Calculation Fields
   Default Values

2. Data Matching

CLAIRE Intelligent Match Engine (2025):

Step 1: Candidate Selection
  - Exact Key Matching (Customer ID)
  - Phonetic Matching (Sound-alike names)
  - Keyword Matching (Name contains "Smith")

Step 2: Probabilistic Scoring
  - Email similarity: 95% match
  - Phone similarity: 90% match
  - Address similarity: 85% match
  → Cumulative Score: 90% → Merge candidate

Step 3: ML-Powered Tuning
  - AI recommends rules based on patterns
  - Rules are learned from historical merges
  - Reduces false positives

3. Data Governance Workflow

MDM Workflow:

  1. DATA STEWARD REVIEW
     ┌─ Review Match Candidates
     ├─ Approve/Reject Merges
     └─ Update Missing Values

  2. BUSINESS RULE VALIDATION
     ├─ Tax ID verification
     ├─ Duplicate policy enforcement
     └─ Business rules engine

  3. APPROVAL WORKFLOW
     ├─ Changes routed to Data Owner
     ├─ Escalation rules (amount > $X)
     └─ Audit logging

  4. GOLDEN RECORD PUBLICATION
     ├─ Create/Update golden record
     ├─ Version tagging
     └─ Synchronize to consumer systems

UI/UX в Informatica

Workspace для Data Stewards

Main Interface:
  ┌─────────────────────────────────────┐
   Informatica MDM Console              
  ├─────────────────────────────────────┤
   [Search & Find Duplicates]           
                                         
   Record 1: John Smith (CRM)           
      Email: john@company.com          
      Phone: +1-555-0001               
      Address: 123 Main St             
                                         
   Record 2: Jon Smith (ERP)            
      Email: j.smith@company.com       
      Phone: +1-555-0001               
      Address: 123 Main Street         
                                         
   [Merge Candidate: 92% Match]         
   ┌─────────────────────────────────┐  
    Survivorship Rules:                
     Use Email from CRM              
     Use Phone from both (same)      
     Use Address from 3PL            
                                       
    [Preview Golden Record]            
    [Merge] [Reject] [Manual Review]   
   └─────────────────────────────────┘  
  └─────────────────────────────────────┘

Data Quality Dashboard

Dashboard Metrics:
  • Completeness: 94% (missing email: 6%)
  • Accuracy: 87% (validation failures: 13%)
  • Timeliness: 99% (updated < 7 days)
  • Uniqueness: 98% (potential duplicates: 2%)

Alerts:
  🔴 CRITICAL: Customer duplicate rate increased to 5%
  🟡 WARNING: Email validation failures trending up
  🟢 INFO: Data quality +2% this month

Интеграция Informatica MDM

API First Architecture:

  ┌──────────────────────────────────────┐
  │  Salesforce CRM                      │
  │  (Owned by Informatica parent)       │
  │  ✓ Native Integration                │
  │  ✓ Real-time Sync                    │
  └──────────────────────────────────────┘
         ↑  ↓
  ┌──────────────────────────────────────┐
  │  INFORMATICA MDM HUB                 │
  │  • Golden Record Authority           │
  │  • Master Data Repository            │
  └──────────────────────────────────────┘
         ↑  ↓  ↑  ↓
  ┌─────────────────────────────────────┐
  │ SAP ERP    │ Oracle    │ Marketo     │
  │ Salesforce │ NetSuite  │ Commerce    │
  └─────────────────────────────────────┘

Integration Modes:
  • REST API: Real-time queries
  • Event-Driven: Publish on golden record change
  • Batch ETL: Scheduled synchronization
  • Change Data Capture (CDC): Capture source changes

SAP MDM / MDG

Статус: SAP MDM — Legacy (end of life), SAP MDG — Future-focused
Платформа: SAP NetWeaver / S/4HANA
Развёртывание: On-Premise

История

SAP MDM Timeline:
  2003: SAP MDM v5 (начало)
  2010: SAP MDM v7 (зенит)
  2015: SAP NetWeaver MDM 7.1 (последний апдейт)
  2018: SAP Master Data Governance (MDG) анонсирована
  2023: SAP officially recommends MDG over legacy MDM
  2025: SAP MDM support phasing out

SAP MDG — Master Data Governance

Архитектура

┌────────────────────────────────────┐
│ SAP S/4HANA Environment            │
├────────────────────────────────────┤
│                                     │
│  ┌──────────────────────────────┐  │
│  │ Master Data Governance (MDG) │  │
│  │                              │  │
│  │ • Governance Workflows       │  │
│  │ • Data Modeling              │  │
│  │ • Approval Processes         │  │
│  │ • Audit & Compliance         │  │
│  └──────────────────────────────┘  │
│          ↑    ↓                     │
│  ┌──────────────────────────────┐  │
│  │ Master Data Tables           │  │
│  │ (Material, Customer, BP)      │  │
│  └──────────────────────────────┘  │
│          ↑    ↓                     │
│  ┌──────────────────────────────┐  │
│  │ ECC/Legacy Systems           │  │
│  │ (SAP SD, MM, FI, etc.)       │  │
│  └──────────────────────────────┘  │
│                                     │
└────────────────────────────────────┘

Data Models в SAP MDG

SAP MDG поддерживает стандартные SAP-сущности:

Material Master:
   Material ID (key)
   Description (multilingual)
   Material Type (HAWA, FERT, HALB)
   Plant-specific data (Storage location)
   Valuation class, Cost center
   Status (Active, Discontinued)

Customer Master:
   Customer ID (company-specific)
   Name, Address (multiple)
   Industry (NACE code)
   Credit limit, Payment terms
   Tax registration
   Sales area (Division, Distribution Channel)

Business Partner:
   Partner ID
   General data (Name, Legal type)
   Address
   Bank details
   Tax data

Finance Master:
   GL Account (Chart of Accounts)
   Cost Center
   Profit Center
   Cost Element

Hierarchies в SAP

Hierarchy Types:

1. Material Hierarchy
   ┌─ Product Group (e.g., Electronics)
   │  ├─ Sub-group (e.g., Phones)
   │  │  ├─ iPhone 15 Pro
   │  │  ├─ iPhone 15
   │  │  └─ iPhone 15 Plus
   │  └─ Sub-group (e.g., Tablets)
   │     ├─ iPad Pro
   │     └─ iPad Air
   └─ Accessories

2. Organizational Hierarchy
   Company (10)
   ├─ Europe Sales (11)
   │  ├─ Germany (21)
   │  ├─ France (22)
   │  └─ Italy (23)
   └─ Asia Sales (12)
      ├─ Japan (31)
      └─ China (32)

Approval Workflows

MDG Workflow Example:

  1. CREATE/CHANGE Request
     User submits material master change
     └─ Data validation rules applied

  2. APPROVAL ROUTING
     Rule: "Glass materials > $50k cost → Finance approval"
     └─ Routes to Finance Manager

  3. CHANGE REQUEST
     Material: "Crystal Glass Vase"
     Original Cost: $40/unit
     New Cost: $45/unit (proposed)
     └─ Routed to Cost Accounting manager

  4. SIGN-OFF
     Manager reviews, approves
     └─ Authorises change

  5. ACTIVATE
     Change becomes active in SAP system
     └─ Historical version retained

  6. DISTRIBUTE
     If configured: Push to connected systems
     └─ ECC, BW, BI, etc. synchronized

Интеграция SAP MDG

Hub-and-Spoke Architecture:

  ┌──────────────────────────────────┐
  │ SAP MDG (Central Hub)             │
  │ Master Data Authority            │
  └──────────────────────────────────┘
        ↑     ↓     ↑     ↓
  ┌─────────────────────────────────┐
  │ SAP ECC  │ EWM  │ BI  │ Ariba   │
  │ (legacy) │      │     │(Supplier)
  └─────────────────────────────────┘

Integration via:
  • SAP PI/PO (Process Integration)
  • Direct BD (Change Pointer)
  • Web Services
  • REST API (newer)

STIBO SYSTEMS STEP

Статус: Leading PIM + MDM Platform
Развёртывание: Cloud SaaS / On-Premise
Фокус: Enterprise product data + multidomain MDM

Архитектура STEP

┌──────────────────────────────────────┐
│  STIBO SYSTEMS STEP PLATFORM         │
├──────────────────────────────────────┤
│                                       │
│  ┌────────────────────────────────┐  │
│   Ultra-Flexible Data Modeling      │
│   (Supports any data structure)     │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   Multidomain MDM Engine           │
│    Product (PIM)                 │
│    Customer                      │
│    Supplier                      │
│    Asset                         │
│    Digital Asset Management      │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   Unified Governance Framework     │
│   (Same rules for all domains)     │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   Workflow & Business Rules        │
│   Engine                           │
│  └────────────────────────────────┘  │
│                                       │
└──────────────────────────────────────┘

Data Modeling в STEP

Flexible Modeling:

Object Types:
   Standard Entity (Customer, Product)
   Reference Object (Catalog, Category)
   Composite Entity (Product Bundle)
   Classification (Product attributes)
   Relationship (Product to Supplier)

Attributes:
   Simple (text, number, date)
   Hierarchical (parent-child values)
   Multi-value (array of values)
   Rich Content (media, documents)

Relations:
   One-to-Many (Product  multiple SKUs)
   Many-to-Many (Product  Category)
   Temporal (valid from/to dates)
   Conditional (based on product type)

Пример: Product Information Model

Product Entity:

  ┌─ Basic Info
  │  ├─ Name
  │  ├─ Description
  │  ├─ SKU
  │  └─ Status
  │
  ├─ Classification
  │  ├─ Category
  │  ├─ Sub-category
  │  └─ Product Type
  │
  ├─ Attributes (hierarchical)
  │  ├─ Size
  │  │  ├─ Width
  │  │  ├─ Height
  │  │  └─ Depth
  │  ├─ Color
  │  └─ Material
  │
  ├─ Relationships
  │  ├─ Supplier (Many-to-Many)
  │  ├─ Variants (One-to-Many)
  │  └─ Cross-sells (Many-to-Many)
  │
  ├─ Media
  │  ├─ Main Image
  │  ├─ Gallery Images
  │  ├─ Specification PDF
  │  └─ Video URL
  │
  └─ Enrichment Data
     ├─ SEO Title
     ├─ Meta Description
     └─ Marketing Copy

Workflows в STEP

STEP Workflow Model:

Step 1: CREATION WORKFLOW
  ┌─ User creates Product
  ├─ Basic fields populated
  └─ Status: Draft

Step 2: ENRICHMENT WORKFLOW
  ┌─ Route to Content Team
  ├─ Add descriptions, images
  └─ Route to QA

Step 3: QA WORKFLOW
  ┌─ Validate data completeness
  ├─ Check image quality
  ├─ Verify category assignment
  └─ Approve or send back

Step 4: PUBLICATION WORKFLOW
  ┌─ Product marked as Ready
  ├─ Automatically sync to
    └─ E-commerce sites
    └─ Marketplaces (Amazon, eBay)
    └─ PIM feeds
  └─ Status: Published

Step 5: LIFECYCLE WORKFLOW
  ├─ Periodic review
  ├─ Update if needed
  └─ Deprecate when obsolete

Governance dalam STEP

Uniform Governance Across Domains:

STIBO Governance Rules Apply Equally:

  Product Domain:
     Completeness rule: Name, Description, Category required
     Quality rule: Image > 1000px
     Approval rule: Content Mgr must approve

  Customer Domain:
     Completeness rule: Name, Email, Address required
     Quality rule: Email validated
     Approval rule: Sales Ops must approve

  Supplier Domain:
     Completeness rule: Name, Contact, Tax ID required
     Quality rule: Tax ID verified
     Approval rule: Procurement must approve

  Result: Consistent governance, reduced confusion

PROFISEE

Статус: Leader in Golden Record Management
Платформа: Cloud-Native / Azure Integration
Фокус: Business users + AI-powered matching

Архитектура

┌──────────────────────────────────────┐
│  PROFISEE MASTER DATA MAESTRO        │
├──────────────────────────────────────┤
│                                       │
│  ┌────────────────────────────────┐  │
│   AI-First UI/UX                   │
│   (Designed for business users)    │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   In-Memory Graph Matching         │
│   Engine                           │
│    ML-powered                    │
│    Fuzzy matching                │
│    Probabilistic scoring         │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   Golden Record Creation           │
│    Survivorship rules             │
│    Conflict resolution            │
│    Relationship management        │
│  └────────────────────────────────┘  │
│                                      │
│  ┌────────────────────────────────┐  │
│   Azure Integration                │
│    Purview Integration            │
│    Data governance sync           │
│  └────────────────────────────────┘  │
│                                       │
└──────────────────────────────────────┘

Matching Engine — Profisee

Three-Tier Matching Strategy:

┌─────────────────────────────────────┐
 Tier 1: DETERMINISTIC MATCHING      
├─────────────────────────────────────┤
 Rule: IF Customer_ID_CRM ==        
        Customer_ID_ERP             
       THEN automatic match         
                                     
 Speed: Instant                      
 Accuracy: 100%                      
└─────────────────────────────────────┘
        
        No match found  Move to Tier 2

┌─────────────────────────────────────┐
 Tier 2: FUZZY MATCHING             
├─────────────────────────────────────┤
 Algorithm: Levenshtein distance,   
           Phonetic matching         
                                     
 Input:                              
   "John Smith" vs "Jon Smyth"      
   Email: "j.smith@co.com"          
           "john_smith@company.com" 
                                     
 Scoring:                            
   Name similarity: 92%              
   Email domain: match               
    Combined score: 90%  MATCH    
                                     
 Speed: Moderate                     
 Accuracy: 85-95%                    
└─────────────────────────────────────┘
        
        Confidence < threshold  Move to Tier 3

┌─────────────────────────────────────┐
 Tier 3: ML-POWERED PROBABILISTIC   
├─────────────────────────────────────┤
 Model: Trained on historical       
        merges (human-reviewed)      
                                     
 Considers:                          
    Multiple field combinations    
    Relationship patterns          
    Industry-specific rules        
    Temporal patterns              
                                     
 Output:                             
   Match probability: 78%  Human review
                                     
 Speed: Slower (batch)               
 Accuracy: Context-dependent        
└─────────────────────────────────────┘
        
        Final: Human steward review if uncertain

Survivorship Rules в Profisee

Profisee Survivorship Strategy:

Method 1: SOURCE PRIORITY
  Rule: "Customer email always from CRM"

  CRM Email:  john@company.com  WINS
  ERP Email:  john_s@company.com
  3PL Email:  not provided

  Golden Record Email: john@company.com

Method 2: RECENCY (Last Update)
  Rule: "Use most recently updated phone"

  CRM Phone: +1-555-0001 (2025-12-20)
  ERP Phone: +1-555-9999 (2024-06-15)  OLD

  Golden Record Phone: +1-555-0001

Method 3: COMPLETENESS
  Rule: "If value exists, use it"

  Company A Name: "Acme Corp"
  Company B Name: (empty)

  Golden Record: "Acme Corp"

Method 4: CUSTOM LOGIC
  Rule: "Use ERP date if recent AND CRM is incomplete"

  Condition:
    IF CRM.email is empty
    AND ERP.date > 30 days ago
    THEN use ERP.date

Data Quality Dashboard

Profisee Quality Metrics:

┌──────────────────────────────────────┐
│ GOLDEN RECORD HEALTH DASHBOARD       │
├──────────────────────────────────────┤
│                                       │
│ Completeness Score: 92%              │
│ ████████████░░ Missing: email (8%)  │
│                                       │
│ Accuracy Score: 87%                  │
│ ███████████░░░ Validation: 13%      │
│                                       │
│ Uniqueness Score: 98%                │
│ ██████████████░ Duplicates: 2%      │
│                                       │
│ Conformity Score: 94%                │
│ █████████████░░ Rules violated: 6%  │
│                                       │
│ Top Issues:                          │
│ 1. Missing email: 462 records        │
│ 2. Invalid phone: 123 records        │
│ 3. Duplicate detection: 89 pairs     │
│                                       │
└──────────────────────────────────────┘

Integration Profisee

Azure-Native Integration:

  ┌────────────────────────────────┐
  │ Microsoft Purview              │
  │ • Data Governance Catalog      │
  │ • Data Quality Rules           │
  │ • Lineage Tracking             │
  └────────────────────────────────┘
        ↑          ↓
  ┌────────────────────────────────┐
  │ PROFISEE MDM HUB               │
  │ • Golden Record Management     │
  │ • Matching Engine              │
  └────────────────────────────────┘
        ↑          ↓
  ┌────────────────────────────────┐
  │ Azure Data Services            │
  │ • Data Lake / SQL DB           │
  │ • Synapse Analytics            │
  └────────────────────────────────┘

ATACCAMA

Статус: Leader in Gartner Magic Quadrant for Augmented Data Quality (4 consecutive years)
Платформа: Cloud / On-Premise
Фокус: Data Quality + MDM + Governance

Ataccama ONE Platform

┌────────────────────────────────────┐
│  ATACCAMA ONE UNIFIED PLATFORM     │
├────────────────────────────────────┤
│                                     │
│  ┌──────────────────────────────┐  │
│  │ Data Discovery & Profiling    │  │
│  │ • Automated scanning          │  │
│  │ • Pattern detection           │  │
│  │ • Quality metrics             │  │
│  └──────────────────────────────┘  │
│           ↓                         │
│  ┌──────────────────────────────┐  │
│  │ Data Governance Catalog      │  │
│  │ • Metadata management        │  │
│  │ • Business glossary          │  │
│  │ • Lineage tracking           │  │
│  └──────────────────────────────┘  │
│           ↓                         │
│  ┌──────────────────────────────┐  │
│  │ Data Quality Engine          │  │
│  │ • Cleansing rules            │  │
│  │ • Standardization            │  │
│  │ • Enrichment                 │  │
│  └──────────────────────────────┘  │
│           ↓                         │
│  ┌──────────────────────────────┐  │
│  │ Master Data Management       │  │
│  │ • Matching                   │  │
│  │ • Merging                    │  │
│  │ • Golden records             │  │
│  └──────────────────────────────┘  │
│           ↓                         │
│  ┌──────────────────────────────┐  │
│  │ Observability & Monitoring   │  │
│  │ • Quality alerts             │  │
│  │ • Anomaly detection          │  │
│  │ • Performance metrics        │  │
│  └──────────────────────────────┘  │
│                                     │
└────────────────────────────────────┘

Data Profiling в Ataccama

Automated Profiling:

Input: Connect to any data source
  ├─ Database (Teradata, PostgreSQL, Oracle)
  ├─ Data warehouse (Snowflake, Redshift)
  ├─ Cloud storage (S3, Azure Blob)
  └─ File (CSV, Excel, Parquet)

Process: Automated Analysis
  ├─ Column statistics (min, max, avg, median)
  ├─ Null & duplicate detection
  ├─ Pattern discovery (regex)
  ├─ Distribution analysis
  └─ Anomaly detection

Output: Quality Profile Report
  ├─ Completeness: 92.5% (7.5% nulls)
  ├─ Distinct values: 45,231 (unique rate: 98%)
  ├─ Data types: 8 strings, 3 integers, 2 dates
  ├─ Patterns found:
    ├─ Email pattern: ^[^@]+@[^@]+\.[^@]+$
    ├─ Phone pattern: ^\+?1?\d{9,15}$
    └─ ZIP pattern: ^\d{5}(-\d{4})?$
  └─ Recommendations:
     ├─ Standardize phone format
     └─ Fix 156 invalid emails

Data Cleansing Pipeline

Ataccama Cleansing Rules:

Input Data:
  Name: "  john SMITH  "
  Phone: "555.1234"
  Address: "123 MAIN ST, SPRINGFIELD, USA 62701"
  Email: "john.smith@company.COM"

┌─ Step 1: WHITESPACE REMOVAL
├─ Name: "john SMITH"
└─

┌─ Step 2: STANDARDIZATION
├─ Name: "John Smith" (title case)
├─ Phone: "+1-555-1234" (standard format)
├─ Address: "123 Main St Springfield, USA 62701" (title case)
└─ Email: "john.smith@company.com" (lowercase)

┌─ Step 3: VALIDATION
├─ Email format:  Valid
├─ Phone length:  Valid
├─ ZIP code:  Valid
└─ All pass

Output Data (Cleansed):
  Name: "John Smith"
  Phone: "+1-555-1234"
  Address: "123 Main St Springfield, USA 62701"
  Email: "john.smith@company.com"

Business Impact

Ataccama ROI Results:

348% Return on Investment in first 3 years

Financial Impact:
   $350M cost avoidance (better decisions)
   $50M direct savings (data reuse)

Operational Impact:
   40% reduction in time to insights
   60% fewer data quality issues
   80% reduction in manual data work

MDM vs PIM

Critical Distinction: MDM и PIM решают разные проблемы, хотя часто работают вместе.

Сравнение

Параметр MDM PIM
Цель Управление справочными данными для всей организации Управление информацией о продуктах для продаж и маркетинга
Аудитория Executives, Analysts, Compliance Officers Merchandise managers, Marketing teams, E-commerce
Данные Customer, Supplier, Location, Employee, Product (generic) Product information enriched with media, descriptions, marketing copy
Фокус Accuracy, Completeness, Compliance Commerce readiness, Multi-channel syndication
Обогащение Minimal (validation, standardization) Extensive (images, videos, descriptions, SEO)
ROI Timeline 12-24 months 3-6 months
Примеры систем Informatica, SAP MDG, Profisee, Ataccama Akeneo, Stibo, Salsify, Syndigo

Граница MDM/PIM

WHERE MDM ENDS AND PIM BEGINS:

MDM DOMAIN (Master Data Authority):
  Product ID: SKU-12345
  Product Name: "Wireless Headphones"
  Manufacturer: Sony
  Category: Electronics > Audio
  Supplier: Sony Distribution
  Cost Price: $45
  List Price: $99
  Weight: 250g
  Dimensions: 20×15×8cm

   Used by: Finance, Supply Chain, ERP

PIM DOMAIN (Product Information Commerce):
  (Same SKU-12345)

  Product Title: "Premium Sony Wireless Headphones with Noise Cancellation"
  SEO Title: "Sony WH-1000XM5 Wireless Headphones - Best Price"
  Meta Description: "Professional-grade wireless headphones with active noise cancellation..."
  Long Description: "Experience pristine audio with Sony's award-winning WH-1000XM5..."

  Rich Media:
     Main Image: 3000×3000px
     360° View: 12 images
     Demo Video: 2-minute product review
     Specification PDF: Complete technical specs

  Marketing Copy:
     Feature bullets: Battery life 30h, ANC, multipoint
     Care instructions: How to clean and maintain
     Warranty info: 1-year manufacturer's warranty

  Channel-Specific:
    Amazon: "Sony Wireless Headphones | Fast Shipping"
    eBay: "SONY WH-1000XM5 Headphones [Brand New]"
    Site: "Premium Audio | Sony Headphones"

   Used by: E-commerce, Marketplaces, Marketing

When Both Are Needed

ORGANIZATION MATURITY JOURNEY:

Stage 1: STARTUP (no MDM or PIM)
  ├─ Data scattered in spreadsheets
  ├─ No central authority
  └─ Quick to market, poor quality

Stage 2: GROWTH (PIM only)
  ├─ Implement PIM for e-commerce
  ├─ Rich product content
  ├─ But: Data quality issues in ERP
  └─ Eventually conflicts emerge

Stage 3: SCALE (Both MDM + PIM)
  ├─ MDM ensures data accuracy for decisions
    └─ Finance, Supply Chain, Compliance use golden records
  ├─ PIM enriches product data for channels
    └─ Commerce, Marketing use enriched catalogs
  ├─ PIM gets "clean" master data from MDM
  ├─ Bidirectional sync when needed
  └─ Best of both worlds

Example Architecture:

  SAP ERP (source truth for cost, supplier)
      Informatica MDM
     Consolidate from ERP, CRM, 3PL
     Create golden records
     Ensure quality for organization
      Akeneo PIM
     Enrich product info
     Add images, descriptions
     Prepare for channels
      Amazon, eBay, Website
     Commerce-ready content

Интеграция и архитектура

Hub-and-Spoke Architecture в MDM

WHY HUB-AND-SPOKE?

Point-to-Point Problem:
  50 systems = 50 × 49 / 2 = 1,225 connections
  Maintenance nightmare! 🔥

Hub-and-Spoke Solution:
  50 systems = 50 connections
  96% reduction in complexity! ✓

ARCHITECTURE:

                    ┌─────────────────┐
                    │   MDM HUB       │
                    │ • Golden Record │
                    │ • Authority     │
                    │ • Governance    │
                    └────────┬────────┘
                            /│\
              / │ \ / │ \ / │ \
             /  │  X  │  X  │  \
            /   │ / \ │ / \ │   \
          ╱     ╱     X     ╲     ╲
    ┌───────┐ ┌──────────┐ ┌──────────┐ ┌────────────┐
    │ SAP   │ │Salesforce│ │ Oracle   │ │  Shopify   │
    │ ERP   │ │   CRM    │ │ Database │ │ E-commerce │
    └───────┘ └──────────┘ └──────────┘ └────────────┘

Benefits:
  ✓ Centralized governance
  ✓ Consistent data quality
  ✓ Single source of truth
  ✓ Easy to add new systems (just add one spoke)
  ✓ Real-time sync capability

Data Flow Example: Customer Update

SCENARIO: Customer changes email in CRM

┌──────────────────────────────────────────┐
 SALESFORCE CRM                           
 Customer John Smith                      
 Old Email: john.smith@company.com        
 New Email: js@company.com (user change)  
                                           
 User saves change                        
                                         
 [Change Trigger]                         
└──────────────────────────────────────────┘
               (Event)
┌──────────────────────────────────────────┐
 INFORMATICA MDM HUB                      
                                           
 Processing:                              
 1. Receive change event                  
 2. Compare with golden record            
    GR Email: john.smith@company.com      
    CRM Email: js@company.com (new)       
 3. Apply survivorship rules              
    Rule: "CRM email = authority"         
 4. Update golden record                  
    GR Email: js@company.com              
 5. Mark change in audit log              
    by: Salesforce | time: 2026-01-02 14:32
└──────────────────────────────────────────┘
               (Publish)
┌──────────────────────────────────────────┐
 SPOKE SYSTEMS (All receive update)       
                                           
 SAP ERP:                                 
   Customer John Smith                    
   Email: js@company.com                 
                                           
 Oracle CRM:                              
   Customer John Smith                    
   Email: js@company.com                 
                                           
 Marketing Cloud:                         
   List updated: js@company.com          
                                           
 Notification Service:                    
   Alert: John Smith email changed       
└──────────────────────────────────────────┘

Result: All systems in sync within 5 minutes

Data Governance Workflows

TYPICAL MDM GOVERNANCE WORKFLOW:

┌─────────────────────────────────────────┐
 DATA STEWARD RECEIVES NOTIFICATION      
├─────────────────────────────────────────┤
                                          
 New Match Candidate Found:               
   Customer "John Smith" (CRM, ID: 12345)
   Customer "Jon Smith" (ERP, ID: 67890) 
   Match Score: 92%                       
                                          
 [Review in MDM Interface]                
                                          
 Steward sees:                            
 ┌──────────────────────────────────────┐│
  Record 1 (CRM)      Record 2 (ERP)  ││
 ├──────────────────────────────────────┤│
  Name: John Smith    Jon Smith       ││
  Email: john@co.com  jon@co.com      ││
  Phone: 555-0001     555-0001        ││
  Created: 2024       Created: 2023   ││
  Status: Active      Active          ││
 └──────────────────────────────────────┘│
                                          
 Steward Action: [APPROVE MERGE]          
                                          
 Choose Survivorship:                     
    Name: "John Smith" (CRM - more    
     recent)                              
    Email: "john@co.com" (CRM -       
     appears primary)                     
    Phone: "555-0001" (same)           
                                          
└─────────────────────────────────────────┘
         (Steward confirms)
┌─────────────────────────────────────────┐
 MDM HUB PROCESSES MERGE                 
├─────────────────────────────────────────┤
                                          
 1. Create Golden Record                  
    ID: GR-99999                          
    Name: John Smith                      
    Email: john@co.com                    
    Phone: 555-0001                       
                                          
 2. Link old records                      
    CRM 12345  points to GR-99999       
    ERP 67890  points to GR-99999       
                                          
 3. Log history                           
    "Merged CRM 12345 + ERP 67890"       
    Merged by: Jane Doe (Steward)        
    Merged at: 2026-01-02 14:35:21       
    Survivorship applied: see rules       
                                          
 4. Publish to systems                    
    SAP ERP: Update Customer 67890  ref  
            to GR-99999                   
    Salesforce: Update 12345  ref to     
                GR-99999                  
    3PL: Link 12345 to GR-99999          
                                          
 5. Notify subscribers                    
    Email all system owners: "Merge       │
    complete, verify in your systems"     │
                                          
└─────────────────────────────────────────┘
         (3-5 minutes)
┌─────────────────────────────────────────┐
 ALL SYSTEMS SYNCHRONIZED                
 Single customer record across enterprise 
└─────────────────────────────────────────┘

Stewardship Roles & Responsibilities

GOVERNANCE FRAMEWORK:

┌─────────────────────────────────────────┐
│ DATA GOVERNANCE COUNCIL (Monthly)       │
│                                          │
│ Members:                                 │
│   CTO (Technology)                      │
│   CFO (Finance)                         │
│   CMO (Marketing)                       │
│   COO (Operations)                      │
│   Compliance Officer                    │
│                                          │
│ Responsibilities:                        │
│   Set governance policies               │
│   Review quality metrics                │
│   Resolve escalated conflicts           │
│   Approve large changes                 │
└─────────────────────────────────────────┘
           ↑
┌─────────────────────────────────────────┐
│ DATA OWNER (per domain)                 │
│ e.g., VP Sales for Customer Domain     │
│                                          │
│ Responsibilities:                        │
│   Define data requirements              │
│   Approve changes to structure          │
│   Ensure business alignment             │
│   Escalate major issues                 │
└─────────────────────────────────────────┘
           ↑
┌─────────────────────────────────────────┐
│ DATA STEWARD (operational)              │
│ e.g., CRM Administrator for Customers   │
│                                          │
│ Responsibilities:                        │
│   Daily quality monitoring              │
│   Review match candidates               │
│   Approve small changes                 │
│   Train users on data quality           │
│   Handle exception cases                │
└─────────────────────────────────────────┘
           ↑
┌─────────────────────────────────────────┐
│ BUSINESS USERS                          │
│ e.g., Sales Rep, CRM User               │
│                                          │
│ Responsibilities:                        │
│   Enter accurate data                   │
│   Report quality issues                 │
│   Follow data entry standards           │
│   Validate records periodically         │
└─────────────────────────────────────────┘

Выводы

Когда использовать какую систему

Informatica MDM

Лучше всего: Крупные многонациональные компании с инвестициями в Salesforce экосистему

Плюсы:
- Cloud-native, масштабируется
- CLAIRE GPT (AI matching)
- Salesforce интеграция (после приобретения)
- Multidomain (Customer, Product, Supplier, Employee)
- Enterprise support

Минусы:
- Высокая стоимость
- Крутая кривая обучения
- Требует квалифицированных специалистов

ROI: 18-24 месяца

SAP MDG

Лучше всего: Компании с глубоким инвестициями в SAP (S/4HANA), нужна интеграция с финансовыми процессами

Плюсы:
- Native SAP integration
- Встроена в S/4HANA
- Для финансовых/материальных данных
- Стандартные workflow

Минусы:
- On-premise only
- Ограничено SAP экосистемой
- Legacy (SAP рекомендует MDG)

Подходит для: ERP governance, не для multidomain

Stibo STEP

Лучше всего: Компании с фокусом на product data (PIM + MDM), нужна гибкость моделирования

Плюсы:
- Лучшая PIM в индустрии
- Ультрагибкая data modeling
- Unified governance для всех доменов
- Хороша для product-centric организаций

Минусы:
- Сложная в настройке
- Меньше встроенных интеграций
- Требует профильных специалистов

ROI: 12-18 месяцев

Profisee

Лучше всего: Компании, которые хотят быстрого ROI, Azure-cloud, ориентированы на golden records

Плюсы:
- Самая простая в использовании для бизнес-пользователей
- ML-powered matching (быстрое настроение)
- Azure Purview интеграция
- Быстрый deployment (3-6 месяцев)
- Явный фокус на золотых записях

Минусы:
- Может быть недостаточна для сложных многодоменных сценариев
- Меньше покрытия чем Informatica

ROI: 6-12 месяцев (самый быстрый)

Ataccama

Лучше всего: Компании, которым нужен фокус на data quality сначала, потом MDM

Плюсы:
- Лидер в Data Quality (Gartner 4 года подряд)
- Unified platform (Quality + Governance + MDM)
- AI-powered automation
- Excellent ROI (348% за 3 года)
- Может работать со своей БД, не требует вырвать данные

Минусы:
- Не проприетарная как Informatica
- Меньше встроенных коннекторов

ROI: 12-18 месяцев + долгосрочная экономия

Рекомендации по выбору

DECISION MATRIX:

1. ГЛАВНЫЙ ВОПРОС: Какие домены нужны?

   Только Product (e-commerce):
     → Akeneo PIM (если нужна коммерция)
     → Stibo STEP (если нужна гибкость MDM тоже)

   Product + Customer + Supplier:
     → Informatica (если есть бюджет)
     → Profisee (если нужен быстрый ROI)
     → Stibo STEP (если нужна гибкость)

   Customer + Finance (в SAP):
     → SAP MDG (встроено в S/4HANA)

2. ВТОРОЙ ВОПРОС: Cloud или On-Premise?

   Cloud обязательна:
     → Informatica IDMC
     → Profisee (Azure)
     → Stibo (cloud-preferred)

   On-Premise нужна:
     → SAP MDG
     → Ataccama (оба режима)

3. ТРЕТИЙ ВОПРОС: Data Quality важна?

   Качество — главная проблема:
     → Ataccama ONE (3-в-1)

   MDM важнее качества:
     → Informatica, Profisee, Stibo

4. ЧЕТВЁРТЫЙ ВОПРОС: Экосистема?

   Salesforce ecosystem:
     → Informatica (теперь Salesforce-owned)

   Azure ecosystem:
     → Profisee (Purview integration)

   SAP ecosystem:
     → SAP MDG

   Независимая:
     → Stibo, Ataccama

Implementation Timeline

ТИПИЧНЫЙ TIMELINE ВНЕДРЕНИЯ:

PROFISEE (Fastest)
  Month 1:     Assessment, Design
  Month 2:     Data profiling, Match tuning
  Month 3:     Golden record creation
  Month 4-6:   Integration, Go-live

  Total: 4-6 months  Quick ROI

INFORMATICA (Moderate)
  Month 1-2:   Assessment, Architecture
  Month 3-4:   Data modeling, Connectors
  Month 5-6:   Matching, Governance
  Month 7-12:  Integration, Rollout, Optimization

  Total: 12+ months  Enterprise scale

SAP MDG (Long, if new to SAP)
  Month 1-3:   Assessment, S/4HANA prep
  Month 4-6:   Data modeling, Workflows
  Month 7-12:  Integration, Testing
  Month 12+:   Go-live, Optimization

  Total: 12-18+ months (зависит от текущей SAP)

STIBO STEP (Complex)
  Month 1-2:   Assessment, Data modeling
  Month 3-4:   PIM setup, Governance
  Month 5-8:   Workflows, Integration
  Month 9-12:  Testing, Go-live

  Total: 9-15 months  Зависит от гибкости

ATACCAMA (Phased)
  Phase 1 (Month 1-3):   Data Quality assessment
  Phase 2 (Month 4-6):   Governance implementation
  Phase 3 (Month 7-12):  MDM golden records

  Total: 12+ months  Получаешь результаты на каждой фазе

Sources


Документ подготовлен: 2026-01-02
Версия: 1.0
Статус: Готово к использованию