Data Warehouse – Konsolidierte Fachbegriffe (ohne Duplikate)
Teil 1: Einführung
| Begriff | Bedeutung |
|---|
| Data Warehouse (DWH) | Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke. [DWH_01_MotivationArchitektur.pdf] |
| OLTP (Online Transaction Processing) | Verarbeitung von vielen standardisierten Anfragen (z.B. schnelle Schreibzugriffe in operativen Datenbanken). |
| OLAP (Online Analytical Processing) | Entscheidungsunterstützung mit integrierten Daten (multidimensionale Aggregationen). |
| Heterogene Datenquellen | Verschiedenartige Systeme: relationale DBs, XML, proprietäre Formate, unstrukturierte Texte. |
| Staging Area | Zwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH. |
| ETL-Prozess | Extrahieren (Quelle → ODS), Transformieren (Datenbereinigung, Deduplizierung), Laden (ODS → DWH). |
| Metadaten-Repository | Zentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität. |
| Operational Data Store (ODS) | Kurzfristiger Zwischenspeicher für operative Berichte (z.B. Echtzeitanalysen). |
| Data Mart | Themenspezifisches DWH für Abteilungen. Typen: Abhängig (Hub-and-Spoke), Unabhängig. |
| Historisierte Daten | Daten mit Zeitstempel zur Nachverfolgung historischer Zustände. |
Teil 2: Multidimensionales Modell
| Begriff | Bedeutung |
|---|
| Fakt | Kennzahl mit Eigenschaften: Disjunktheit, Vollständigkeit, Typverträglichkeit. Typen: FLOW (Bewegungszahlen), STOCK (Bestände). |
| Dimension | Beschreibende Attribute (z.B. Zeit, Produkt). |
| Mehrfach-Hierarchie | Alternative Verdichtungspfade (z.B. Region → Land oder Klimazone). |
| Sparsity-Faktor | Maß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad). |
| Roll-Up/Drill-Down | Aggregieren/Detaillieren entlang von Hierarchien (z.B. Monat → Quartal). |
| Slice and Dice | Filtern und Segmentieren von Datenteilmengen. |
Teil 3: Anwendungen
| Begriff | Bedeutung |
|---|
| Data Mining | (Semi-)automatische Entdeckung von Mustern (z.B. Clusterbildung, Assoziationsregeln). |
| Assoziationsregel | Implikation X → Y (z.B. {Milch, Wurst} → {Bier}). Support: Häufigkeit, Konfidenz: Bedingte Wahrscheinlichkeit. |
| BI Maturity Model | Klassifikation von Systemen nach Reifegraden (Folien 36/37). |
Teil 5: Datenbank und Archiv
| Begriff | Bedeutung |
|---|
| Sternschema | Denormalisierte Dimensionen + Faktentabelle mit Fremdschlüsseln. |
| Schneeflockenschema | Normalisierte Dimensionen zur Redundanzvermeidung. |
| Slowly Changing Dimensions | Umgang mit historischen Änderungen: Typ I (Überschreiben), Typ II (Neuer Datensatz), Typ III (Attribut hinzufügen). |
| Archiv | Langzeitlagerung inaktiver DWH-Daten. |
Teil 6: ETL-Prozess
| Begriff | Bedeutung |
|---|
| Felder separieren | Aufteilung von Informationen aus einem Feld in mehrere (z.B. “Vorname Nachname” → “Vorname”, “Nachname”). |
| Matching/Deduplizieren | Erkennung und Zusammenführung von Dubletten. |
| Abgleich (Reconciliation) | Konsistenzprüfung zwischen Quelle und Ziel (z.B. Summenvergleiche). |
Teil 7: Datenqualität
| Begriff | Bedeutung |
|---|
| Vollständigkeit | Attributwerte sind semantisch ≠ NULL. |
| Referentielle Integrität | Jeder Fremdschlüssel verweist auf einen gültigen Primärschlüssel. |
| CLIQ | Prozessmodell für Data Cleansing mit intelligentem Qualitätsmanagement. |
Teil 8-10: SQL & Optimierung
| Begriff | Bedeutung |
|---|
| ROLLUP-Operator | Berechnung hierarchischer Aggregationen (z.B. Land → Region → Gesamt). |
| Spaltenorientierte Speicherung | Effiziente Speicherung für analytische Abfragen (Spalten statt Zeilen). |
| Bitmap-Index | Komprimierte Darstellung von Attributausprägungen (ideal für geringe Kardinalität). |
Hinweis:
- Kursive Begriffe sind Unterkategorien oder Beispiele.
- Fettgedruckte Begriffe sind Kernkonzepte.
- Alle Duplikate wurden entfernt und inhaltlich konsolidiert.