Data Warehouse – Konsolidierte Fachbegriffe (ohne Duplikate)

Teil 1: Einführung

BegriffBedeutung
Data Warehouse (DWH)Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke. [DWH_01_MotivationArchitektur.pdf]
OLTP (Online Transaction Processing)Verarbeitung von vielen standardisierten Anfragen (z.B. schnelle Schreibzugriffe in operativen Datenbanken).
OLAP (Online Analytical Processing)Entscheidungsunterstützung mit integrierten Daten (multidimensionale Aggregationen).
Heterogene DatenquellenVerschiedenartige Systeme: relationale DBs, XML, proprietäre Formate, unstrukturierte Texte.
Staging AreaZwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH.
ETL-ProzessExtrahieren (Quelle → ODS), Transformieren (Datenbereinigung, Deduplizierung), Laden (ODS → DWH).
Metadaten-RepositoryZentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität.
Operational Data Store (ODS)Kurzfristiger Zwischenspeicher für operative Berichte (z.B. Echtzeitanalysen).
Data MartThemenspezifisches DWH für Abteilungen. Typen: Abhängig (Hub-and-Spoke), Unabhängig.
Historisierte DatenDaten mit Zeitstempel zur Nachverfolgung historischer Zustände.

Teil 2: Multidimensionales Modell

BegriffBedeutung
FaktKennzahl mit Eigenschaften: Disjunktheit, Vollständigkeit, Typverträglichkeit. Typen: FLOW (Bewegungszahlen), STOCK (Bestände).
DimensionBeschreibende Attribute (z.B. Zeit, Produkt).
Mehrfach-HierarchieAlternative Verdichtungspfade (z.B. Region → Land oder Klimazone).
Sparsity-FaktorMaß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad).
Roll-Up/Drill-DownAggregieren/Detaillieren entlang von Hierarchien (z.B. Monat → Quartal).
Slice and DiceFiltern und Segmentieren von Datenteilmengen.

Teil 3: Anwendungen

BegriffBedeutung
Data Mining(Semi-)automatische Entdeckung von Mustern (z.B. Clusterbildung, Assoziationsregeln).
AssoziationsregelImplikation X → Y (z.B. {Milch, Wurst} → {Bier}). Support: Häufigkeit, Konfidenz: Bedingte Wahrscheinlichkeit.
BI Maturity ModelKlassifikation von Systemen nach Reifegraden (Folien 36/37).

Teil 5: Datenbank und Archiv

BegriffBedeutung
SternschemaDenormalisierte Dimensionen + Faktentabelle mit Fremdschlüsseln.
SchneeflockenschemaNormalisierte Dimensionen zur Redundanzvermeidung.
Slowly Changing DimensionsUmgang mit historischen Änderungen: Typ I (Überschreiben), Typ II (Neuer Datensatz), Typ III (Attribut hinzufügen).
ArchivLangzeitlagerung inaktiver DWH-Daten.

Teil 6: ETL-Prozess

BegriffBedeutung
Felder separierenAufteilung von Informationen aus einem Feld in mehrere (z.B. “Vorname Nachname” → “Vorname”, “Nachname”).
Matching/DeduplizierenErkennung und Zusammenführung von Dubletten.
Abgleich (Reconciliation)Konsistenzprüfung zwischen Quelle und Ziel (z.B. Summenvergleiche).

Teil 7: Datenqualität

BegriffBedeutung
VollständigkeitAttributwerte sind semantisch ≠ NULL.
Referentielle IntegritätJeder Fremdschlüssel verweist auf einen gültigen Primärschlüssel.
CLIQProzessmodell für Data Cleansing mit intelligentem Qualitätsmanagement.

Teil 8-10: SQL & Optimierung

BegriffBedeutung
ROLLUP-OperatorBerechnung hierarchischer Aggregationen (z.B. Land → Region → Gesamt).
Spaltenorientierte SpeicherungEffiziente Speicherung für analytische Abfragen (Spalten statt Zeilen).
Bitmap-IndexKomprimierte Darstellung von Attributausprägungen (ideal für geringe Kardinalität).

Hinweis:

  • Kursive Begriffe sind Unterkategorien oder Beispiele.
  • Fettgedruckte Begriffe sind Kernkonzepte.
  • Alle Duplikate wurden entfernt und inhaltlich konsolidiert.