DWH 02 Multidimensionales Modell

Statische Aspekte

Fakten

Fakten sind die Kennzahlen oder Messwerte, die in einem multidimensionalen Modell analysiert werden. Sie können aus einem oder mehreren Attributen bestehen und eine innere Struktur haben. Fakten haben auch Berechnungsvorschriften, die definieren, wie sie aggregiert werden können. Es gibt verschiedene Arten von Fakten, wie z.B.:

  • Bewegungszahlen (FLOW)
  • Bestandszahlen (STOCK)
  • Wertangaben (VALUE PER UNIT)

Dimensionen

Dimensionen sind Kategorien oder Perspektiven, entlang derer Fakten analysiert werden. Beispiele sind:

  • Zeit
  • Produkt
  • Ort

Dimensionen können Hierarchien enthalten, die eine logische Gruppierung der Daten ermöglichen.

Hierarchien und Hierarchieebenen

Hierarchien sind Strukturen innerhalb von Dimensionen, die Beziehungen zwischen verschiedenen Ebenen darstellen. Eine Hierarchie kann einfach oder mehrfach sein. Beispiele für Hierarchieebenen:

  • Stadt, Region, Land
  • Produktgruppe, Marke, Hersteller

Hierarchien können unbalanciert sein, d.h. nicht alle Elemente müssen auf jeder Ebene vorhanden sein.

(Hyper-)Würfel

Ein Hyperwürfel ist die mehrdimensionale Darstellung der Daten, die durch die Kombination von Fakten und Dimensionen entsteht. Er wird oft als Datenwürfel bezeichnet und bildet die Grundlage für OLAP-Analysen. Die Dimensionen eines Schemas spannen einen Raum auf, und die Anzahl der Instanzen der feingranularsten Objekte jeder Dimension ergeben das maximale Volumen des Hypercubes.

Zellen

Zellen sind die einzelnen Elemente im Hyperwürfel, die konkrete Werte für die Fakten enthalten.


Operationen

Roll-Up / Drill-Down

  • Roll-Up: Aggregieren von Daten auf einer höheren Ebene der Hierarchie.
  • Drill-Down: Detaillieren der Daten auf einer niedrigeren Ebene.

Roll-Up und Drill-Down sind inverse Operationen.

Slice and Dice

  • Slice and Dice: Auswahl von Teilmengen des Hyperwürfels, um die Analyse zu fokussieren.
  • Slicing: Kann die Dimensionalität verringern.

Pivoting / Rotating

  • Pivoting/Rotating: Drehen oder Vertauschen der Dimensionen im Hyperwürfel, um eine andere Perspektive auf die Daten zu erhalten.

Pivoting und Rotating sind synonyme Begriffe.


Zwei Typen multidimensionaler Datenmodelle

Konzeptionelle Modellierung (Entwicklungssicht)

Dieser Ansatz konzentriert sich auf die Planung und den Entwurf des multidimensionalen Modells. Hierbei geht es um die Definition von Fakten, Dimensionen und deren Beziehungen.

OLAP (Anwendungssicht)

OLAP (Online Analytical Processing) ist die Anwendung des multidimensionalen Modells für die Analyse von Daten. OLAP-Modelle beinhalten zusätzlich Operationen wie:

  • Roll-Up
  • Drill-Down
  • Slice and Dice
  • Pivoting/Rotating

Die Grundbegriffe sind jedoch in beiden Sichten identisch.

Eigenschaften von Fakten

Berechnungsvorschriften

Fakten haben Regeln, die festlegen, wie sie aggregiert werden können. Es ist nicht immer sinnvoll, Fakten entlang von Hierarchiepfaden zu addieren. Ob eine Summenbildung sinnvoll ist, hängt vom Faktattribut ab:

  • Beispiel: Bei “Verkauf” ist eine Summenbildung sinnvoll, während bei “Temperatur” eher Minimum- oder Maximumbildung angebracht ist.

Um immer korrekte Ergebnisse zu erhalten, müssen drei Eigenschaften erfüllt sein:

  1. Disjunktheit: Jeder Wert einer Kennzahl darf genau einmal in eine Berechnung einfließen.
  2. Vollständigkeit: Kennzahlen auf höherer Ebene müssen sich komplett aus Werten tieferer Ebenen zusammensetzen.
  3. Typverträglichkeit: Es muss definiert sein, welche Aggregationsoperatoren für eine Kennzahl erlaubt sind.

Kennzahlen werden klassifiziert in:

  • Bewegungszahlen (FLOW): Aggregierbar, z.B. Bestellmenge.
  • Bestandszahlen (STOCK): Nicht über die Zeit addierbar, z.B. Lagerbestand.
  • Wertangaben (VALUE PER UNIT).

Eigenschaften von Dimensionen

Mehrfachhierarchie

Eine Hierarchieebene kann alternativ mehreren weiteren folgen. Eine Dimension kann also mehrere Hierarchien gleichzeitig haben, z.B.:

  • Eine Produktdimension mit Hierarchien nach Produktgruppen und nach Herstellern.

Alternative Verdichtungspfade

Verzweigende Pfade einer Mehrfachhierarchie können wieder zusammenlaufen. Die Resultate auf alternativen Pfaden müssen gleich sein.

Unbalancierte Hierarchien

Nicht immer müssen auf allen Ebenen Elemente existieren. Das bedeutet, Hierarchien sind nicht zwingend vollständig.

  • Beispiel: Ein Landkreis ist direkt einem Staat zugeordnet und nicht wie andere über ein Bundesland.

Anteilige Verrechnung

Bei der Zuordnung von Elementen zur nächsthöheren Ebene kann eine mehrfache Zuordnung notwendig sein.

  • Beispiel: Tage werden anteilig Wochen und Jahren zugeordnet.

Unvollständige Verdichtung

Nicht alle Instanzen einer Hierarchieebene nehmen an der Verdichtung teil.

  • Beispiel: Ein Schlussverkauf, der nicht an jedem Tag stattfindet.

Eigenschaften des Schemas

Sparsity-Faktor

gibt die Anzahl der unbesetzten Zellen im Hypercube:

Besetzungsgrad

gibt die Anzahl der tatsächlichen Eintragung an.

Ein hoher Sparsity-Faktor bedeutet, dass der Hypercube viele leere Zellen enthält.