DWH 02 Multidimensionales Modell
Statische Aspekte
Fakten
Fakten sind die Kennzahlen oder Messwerte, die in einem multidimensionalen Modell analysiert werden. Sie können aus einem oder mehreren Attributen bestehen und eine innere Struktur haben. Fakten haben auch Berechnungsvorschriften, die definieren, wie sie aggregiert werden können. Es gibt verschiedene Arten von Fakten, wie z.B.:
- Bewegungszahlen (FLOW)
- Bestandszahlen (STOCK)
- Wertangaben (VALUE PER UNIT)
Dimensionen
Dimensionen sind Kategorien oder Perspektiven, entlang derer Fakten analysiert werden. Beispiele sind:
- Zeit
- Produkt
- Ort
Dimensionen können Hierarchien enthalten, die eine logische Gruppierung der Daten ermöglichen.
Hierarchien und Hierarchieebenen
Hierarchien sind Strukturen innerhalb von Dimensionen, die Beziehungen zwischen verschiedenen Ebenen darstellen. Eine Hierarchie kann einfach oder mehrfach sein. Beispiele für Hierarchieebenen:
- Stadt, Region, Land
- Produktgruppe, Marke, Hersteller
Hierarchien können unbalanciert sein, d.h. nicht alle Elemente müssen auf jeder Ebene vorhanden sein.
(Hyper-)Würfel
Ein Hyperwürfel ist die mehrdimensionale Darstellung der Daten, die durch die Kombination von Fakten und Dimensionen entsteht. Er wird oft als Datenwürfel bezeichnet und bildet die Grundlage für OLAP-Analysen. Die Dimensionen eines Schemas spannen einen Raum auf, und die Anzahl der Instanzen der feingranularsten Objekte jeder Dimension ergeben das maximale Volumen des Hypercubes.
Zellen
Zellen sind die einzelnen Elemente im Hyperwürfel, die konkrete Werte für die Fakten enthalten.
Operationen
Roll-Up / Drill-Down
- Roll-Up: Aggregieren von Daten auf einer höheren Ebene der Hierarchie.
- Drill-Down: Detaillieren der Daten auf einer niedrigeren Ebene.
Roll-Up und Drill-Down sind inverse Operationen.
Slice and Dice
- Slice and Dice: Auswahl von Teilmengen des Hyperwürfels, um die Analyse zu fokussieren.
- Slicing: Kann die Dimensionalität verringern.
Pivoting / Rotating
- Pivoting/Rotating: Drehen oder Vertauschen der Dimensionen im Hyperwürfel, um eine andere Perspektive auf die Daten zu erhalten.
Pivoting und Rotating sind synonyme Begriffe.
Zwei Typen multidimensionaler Datenmodelle
Konzeptionelle Modellierung (Entwicklungssicht)
Dieser Ansatz konzentriert sich auf die Planung und den Entwurf des multidimensionalen Modells. Hierbei geht es um die Definition von Fakten, Dimensionen und deren Beziehungen.
OLAP (Anwendungssicht)
OLAP (Online Analytical Processing) ist die Anwendung des multidimensionalen Modells für die Analyse von Daten. OLAP-Modelle beinhalten zusätzlich Operationen wie:
- Roll-Up
- Drill-Down
- Slice and Dice
- Pivoting/Rotating
Die Grundbegriffe sind jedoch in beiden Sichten identisch.
Eigenschaften von Fakten
Berechnungsvorschriften
Fakten haben Regeln, die festlegen, wie sie aggregiert werden können. Es ist nicht immer sinnvoll, Fakten entlang von Hierarchiepfaden zu addieren. Ob eine Summenbildung sinnvoll ist, hängt vom Faktattribut ab:
- Beispiel: Bei “Verkauf” ist eine Summenbildung sinnvoll, während bei “Temperatur” eher Minimum- oder Maximumbildung angebracht ist.
Um immer korrekte Ergebnisse zu erhalten, müssen drei Eigenschaften erfüllt sein:
- Disjunktheit: Jeder Wert einer Kennzahl darf genau einmal in eine Berechnung einfließen.
- Vollständigkeit: Kennzahlen auf höherer Ebene müssen sich komplett aus Werten tieferer Ebenen zusammensetzen.
- Typverträglichkeit: Es muss definiert sein, welche Aggregationsoperatoren für eine Kennzahl erlaubt sind.
Kennzahlen werden klassifiziert in:
- Bewegungszahlen (FLOW): Aggregierbar, z.B. Bestellmenge.
- Bestandszahlen (STOCK): Nicht über die Zeit addierbar, z.B. Lagerbestand.
- Wertangaben (VALUE PER UNIT).
Eigenschaften von Dimensionen
Mehrfachhierarchie
Eine Hierarchieebene kann alternativ mehreren weiteren folgen. Eine Dimension kann also mehrere Hierarchien gleichzeitig haben, z.B.:
- Eine Produktdimension mit Hierarchien nach Produktgruppen und nach Herstellern.
Alternative Verdichtungspfade
Verzweigende Pfade einer Mehrfachhierarchie können wieder zusammenlaufen. Die Resultate auf alternativen Pfaden müssen gleich sein.
Unbalancierte Hierarchien
Nicht immer müssen auf allen Ebenen Elemente existieren. Das bedeutet, Hierarchien sind nicht zwingend vollständig.
- Beispiel: Ein Landkreis ist direkt einem Staat zugeordnet und nicht wie andere über ein Bundesland.
Anteilige Verrechnung
Bei der Zuordnung von Elementen zur nächsthöheren Ebene kann eine mehrfache Zuordnung notwendig sein.
- Beispiel: Tage werden anteilig Wochen und Jahren zugeordnet.
Unvollständige Verdichtung
Nicht alle Instanzen einer Hierarchieebene nehmen an der Verdichtung teil.
- Beispiel: Ein Schlussverkauf, der nicht an jedem Tag stattfindet.
Eigenschaften des Schemas
Sparsity-Faktor
gibt die Anzahl der unbesetzten Zellen im Hypercube:
Besetzungsgrad
gibt die Anzahl der tatsächlichen Eintragung an.
Ein hoher Sparsity-Faktor bedeutet, dass der Hypercube viele
leere Zellen
enthält.