Data Warehouse – Konsolidierte Fachbegriffe (ohne Duplikate)
Teil 1: Einführung
Begriff | Bedeutung |
---|
Data Warehouse (DWH) | Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke. [DWH_01_MotivationArchitektur.pdf] |
OLTP (Online Transaction Processing) | Verarbeitung von vielen standardisierten Anfragen (z.B. schnelle Schreibzugriffe in operativen Datenbanken). |
OLAP (Online Analytical Processing) | Entscheidungsunterstützung mit integrierten Daten (multidimensionale Aggregationen). |
Heterogene Datenquellen | Verschiedenartige Systeme: relationale DBs, XML, proprietäre Formate, unstrukturierte Texte. |
Staging Area | Zwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH. |
ETL-Prozess | Extrahieren (Quelle → ODS), Transformieren (Datenbereinigung, Deduplizierung), Laden (ODS → DWH). |
Metadaten-Repository | Zentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität. |
Operational Data Store (ODS) | Kurzfristiger Zwischenspeicher für operative Berichte (z.B. Echtzeitanalysen). |
Data Mart | Themenspezifisches DWH für Abteilungen. Typen: Abhängig (Hub-and-Spoke), Unabhängig. |
Historisierte Daten | Daten mit Zeitstempel zur Nachverfolgung historischer Zustände. |
Teil 2: Multidimensionales Modell
Begriff | Bedeutung |
---|
Fakt | Kennzahl mit Eigenschaften: Disjunktheit, Vollständigkeit, Typverträglichkeit. Typen: FLOW (Bewegungszahlen), STOCK (Bestände). |
Dimension | Beschreibende Attribute (z.B. Zeit, Produkt). |
Mehrfach-Hierarchie | Alternative Verdichtungspfade (z.B. Region → Land oder Klimazone). |
Sparsity-Faktor | Maß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad). |
Roll-Up/Drill-Down | Aggregieren/Detaillieren entlang von Hierarchien (z.B. Monat → Quartal). |
Slice and Dice | Filtern und Segmentieren von Datenteilmengen. |
Teil 3: Anwendungen
Begriff | Bedeutung |
---|
Data Mining | (Semi-)automatische Entdeckung von Mustern (z.B. Clusterbildung, Assoziationsregeln). |
Assoziationsregel | Implikation X → Y (z.B. {Milch, Wurst} → {Bier}). Support: Häufigkeit, Konfidenz: Bedingte Wahrscheinlichkeit. |
BI Maturity Model | Klassifikation von Systemen nach Reifegraden (Folien 36/37). |
Teil 5: Datenbank und Archiv
Begriff | Bedeutung |
---|
Sternschema | Denormalisierte Dimensionen + Faktentabelle mit Fremdschlüsseln. |
Schneeflockenschema | Normalisierte Dimensionen zur Redundanzvermeidung. |
Slowly Changing Dimensions | Umgang mit historischen Änderungen: Typ I (Überschreiben), Typ II (Neuer Datensatz), Typ III (Attribut hinzufügen). |
Archiv | Langzeitlagerung inaktiver DWH-Daten. |
Teil 6: ETL-Prozess
Begriff | Bedeutung |
---|
Felder separieren | Aufteilung von Informationen aus einem Feld in mehrere (z.B. “Vorname Nachname” → “Vorname”, “Nachname”). |
Matching/Deduplizieren | Erkennung und Zusammenführung von Dubletten. |
Abgleich (Reconciliation) | Konsistenzprüfung zwischen Quelle und Ziel (z.B. Summenvergleiche). |
Teil 7: Datenqualität
Begriff | Bedeutung |
---|
Vollständigkeit | Attributwerte sind semantisch ≠ NULL. |
Referentielle Integrität | Jeder Fremdschlüssel verweist auf einen gültigen Primärschlüssel. |
CLIQ | Prozessmodell für Data Cleansing mit intelligentem Qualitätsmanagement. |
Teil 8-10: SQL & Optimierung
Begriff | Bedeutung |
---|
ROLLUP-Operator | Berechnung hierarchischer Aggregationen (z.B. Land → Region → Gesamt). |
Spaltenorientierte Speicherung | Effiziente Speicherung für analytische Abfragen (Spalten statt Zeilen). |
Bitmap-Index | Komprimierte Darstellung von Attributausprägungen (ideal für geringe Kardinalität). |
Hinweis:
- Kursive Begriffe sind Unterkategorien oder Beispiele.
- Fettgedruckte Begriffe sind Kernkonzepte.
- Alle Duplikate wurden entfernt und inhaltlich konsolidiert.