Fachbegriffe zu Data Warehouse (vollständig mit Bedeutungen)

Data Warehouse – Teil 1: Einführung

BegriffBedeutung
Data Warehouse (DWH)Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke.
OLTP (Online Transaction Processing)Operative Datenbanken, die für Transaktionsverarbeitung optimiert sind (z. B. schnelle Schreibzugriffe).
OLAP (Online Analytical Processing)Data Warehouses, die für komplexe analytische Abfragen optimiert sind (z. B. multidimensionale Aggregationen).
DatenquellenInterne Quellen: ERP-, CRM-Systeme.
Externe Quellen: Web, demographische Daten, Social Media.
Heterogene DatenquellenVerschiedenartige Systeme wie relationale DBs, XML-Dateien, proprietäre Formate, unstrukturierte Texte.
Staging AreaZwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH.
ETL-ProzessExtrahieren: Daten aus Quellen in den Operational Data Store (ODS) übertragen.
Transformieren: Datenbereinigung, Codierungsanpassung, Deduplizierung.
Laden: Daten ins DWH transferieren.
MonitoringSystematische Erkennung von Datenänderungen in Quellsystemen.
Metadaten-RepositoryZentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität.
Operational Data Store (ODS)Kurzfristiger Zwischenspeicher für operative Daten (z. B. für Echtzeitberichte).
Analyse-orientiertes SchemaSchema im DWH, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt (z. B. Denormalisierung).
Historisierte DatenDaten mit Zeitstempel zur Nachverfolgung historischer Zustände.
Data MartKleines, themenspezifisches DWH für einzelne Abteilungen.

Data Warehouse – Teil 2: Multidimensionales Modell

BegriffBedeutung
FaktKennzahl mit spezifischen Eigenschaften (Disjunktheit, Vollständigkeit, Typverträglichkeit).
DimensionBeschreibende Attribute für Fakten (z. B. Zeit, Produkt, Kunde).
HierarchienAlternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung.
(Hyper-)WürfelMultidimensionales Datenmodell aus Fakten und Dimensionen.
Roll-Up/Drill-DownAggregieren/Detaillieren entlang Hierarchien (z. B. Monat → Quartal).
Slice and DiceFiltern und Segmentieren von Datenteilmengen.
Sparsity-FaktorMaß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad).

Data Warehouse – Teil 3: Anwendungen

BegriffBedeutung
BerichtswesenGenerierung standardisierter Auswertungen mit vordefinierten Abfragen.
OLAPInteraktive Exploration von Daten mit multidimensionaler Sicht.
Data MiningAutomatisierte Entdeckung von Mustern in großen Datenbeständen.
Dashboards/ScorecardsVisuelle Übersicht kritischer Kennzahlen in Echtzeit.
(Near) Real Time DWHZeitnahe Verarbeitung für aktuelle Analysen.

Data Warehouse – Teil 5: Datenbank und Archiv

BegriffBedeutung
SternschemaDenormalisierte Dimensionstabellen + Faktentabelle mit Fremdschlüsseln.
SchneeflockenschemaNormalisierte Dimensionen zur Redundanzvermeidung.
Multi Star/Galaxy SchemaMehrere Faktentabellen mit gemeinsamen Dimensionen.
Slowly Changing Dimensions (SCD)Umgang mit historischen Änderungen in Dimensionen (Typ I-III).
ROLAP/HOLAPRelationale vs. hybride OLAP-Speicherung.
ArchivLangzeitlagerung nicht mehr aktiver DWH-Daten.

Data Warehouse – Teil 6: ETL-Prozess

BegriffBedeutung
TransformationsschritteDatenbereinigung, Codierungsanpassung, Matching/Deduplizieren, Aggregation.
Abgleich (Reconciliation)Konsistenzprüfung zwischen Quelle und Ziel (z. B. Summenvergleiche).

Data Warehouse – Teil 7: Datenqualität

BegriffBedeutung
Q-MetrikenVollständigkeit, Genauigkeit, Zeitnähe, referentielle Integrität.
CLIQ-VorgehensmodellProzess zur Datenbereinigung mit intelligentem Qualitätsmanagement.

Data Warehouse – Teil 8: SQL-Erweiterungen (I)

BegriffBedeutung
ROLLUP-OperatorBerechnung hierarchischer Aggregationen (z. B. Land → Region → Gesamt).
CUBE-OperatorAlle möglichen Aggregationskombinationen.

Data Warehouse – Teil 9: SQL-Erweiterungen (II)

BegriffBedeutung
FensterfunktionenBerechnungen über Zeilenfenster (z. B. gleitender Durchschnitt).

Data Warehouse – Teil 10: Physische Optimierung

BegriffBedeutung
Bitmap-IndexKomprimierte Darstellung von Attributausprägungen.
Materialisierte SichtenVorberechnete Abfrageergebnisse für schnellen Zugriff.
PartitionierungLogische Aufteilung von Tabellen (Fragmentierung, Allokation).
Spaltenorientierte SpeicherungSpeicherung nach Spalten (nicht Zeilen) für analytische Abfragen.

Lückentext

Lückentext 1: Data Warehouse

Ein __________ ist ein zentrales Repository, das Daten aus verschiedenen Quellen integriert und für Analysezwecke optimiert ist. Im Gegensatz zu __________-Systemen, die für Transaktionsverarbeitung optimiert sind, ist ein __________ für analytische Abfragen und Aggregationen ausgelegt.

Daten im Data Warehouse stammen aus unterschiedlichen __________, die sowohl intern als auch extern sein können. Diese Daten werden zunächst in der __________ zwischengespeichert, bevor sie durch den __________-Prozess verarbeitet werden.

Ein wichtiger Bestandteil eines Data Warehouses ist das __________, das Informationen zu Datenherkunft, Struktur und Bedeutung speichert. Daten werden oft in einem __________ organisiert, das gezielt gegen das Prinzip der Datenunabhängigkeit verstößt.

Ein __________ ist eine kleinere, themenspezifische Version eines Data Warehouses, die für spezifische Abteilungen optimiert ist.


Lösungen:

  1. Data Warehouse
  2. OLTP
  3. OLAP
  4. Datenquellen
  5. Staging Area
  6. ETL
  7. Metadaten-Repository
  8. Analyse-orientiertes Schema
  9. Data Mart

Lückentext 2: Multidimensionales Modell

Im multidimensionalen Modell sind __________ die zentralen Kennzahlen, die analysiert werden. Diese können in verschiedene Typen unterteilt werden, darunter __________, die zeitlich aggregierbar sind, und __________, die nicht direkt addiert werden können.

Jede Faktentabelle enthält Verweise auf __________, die beschreibende Attribute wie Zeit, Produkt oder Kunde repräsentieren. Diese sind oft in __________ organisiert, die verschiedene Verdichtungsebenen abbilden.

Das zentrale Konzept des multidimensionalen Modells ist der __________, eine n-dimensionale Darstellung der Daten. Um Analysen durchzuführen, können Benutzer __________ verwenden, um eine detailliertere oder aggregierte Ansicht der Daten zu erhalten.


Lösungen:

  1. Fakten
  2. Bewegungszahlen (FLOW)
  3. Wertangaben (VALUE PER UNIT)
  4. Dimensionen
  5. Hierarchien
  6. (Hyper-)Würfel
  7. Roll-Up/Drill-Down

Lückentext 3: Anwendungen im Data Warehouse

Eine häufige Anwendung eines Data Warehouses ist das __________, bei dem standardisierte Berichte mit vordefinierten Abfragen erstellt werden. Eine interaktivere Methode zur Datenanalyse ist __________, das eine multidimensionale Sicht auf Daten ermöglicht.

Durch __________ können in großen Datenbeständen automatisch Muster und Zusammenhänge erkannt werden. Wichtige Techniken in diesem Bereich sind __________, bei der ähnliche Datensätze gruppiert werden, sowie __________, bei der neue Daten Objekten zugeordnet werden.

Ein weiteres Konzept ist das __________, das eine visuelle Darstellung von Kennzahlen in Echtzeit bietet. Um zeitnahe Analysen zu ermöglichen, werden Data Warehouses zunehmend als __________ implementiert.


Lösungen:

  1. Berichtswesen
  2. OLAP
  3. Data Mining
  4. Clusterbildung
  5. Klassifikation
  6. Dashboard
  7. (Near) Real Time DWH

Lückentext 4: SQL-Erweiterungen

Um hierarchische Aggregationen in SQL zu berechnen, wird der __________-Operator verwendet, während der __________-Operator alle möglichen Aggregationskombinationen generiert.

Moderne SQL-Systeme unterstützen __________, die Berechnungen über definierte Zeilenfenster ermöglichen. Hierdurch können komplexe Analysen wie __________, bei dem ein Mittelwert über mehrere Zeilen berechnet wird, effizient durchgeführt werden.


Lösungen:

  1. ROLLUP
  2. CUBE
  3. Fensterfunktionen
  4. Gleitender Durchschnitt

Lückentext 5: Datenbank und Archiv

Ein __________ ist ein Modell mit einer denormalisierten Faktentabelle, während das __________ zur Vermeidung von Redundanzen auf eine stärkere Normalisierung setzt. Das __________-Schema kombiniert mehrere Faktentabellen mit gemeinsamen Dimensionen.

Um historische Änderungen zu verwalten, werden __________-Techniken genutzt. Dabei werden im __________-Ansatz alte Daten überschrieben, während im __________-Ansatz neue Versionen gespeichert werden.

Für die Speicherung von analytischen Daten werden verschiedene OLAP-Ansätze genutzt, darunter __________ für relationale Speicherung und __________ als Hybridlösung.


Lösungen:

  1. Sternschema
  2. Schneeflockenschema
  3. Multi Star/Galaxy Schema
  4. Slowly Changing Dimensions (SCD)
  5. Typ I
  6. Typ II
  7. ROLAP
  8. HOLAP

Lückentext 6: ETL-Prozess

Der __________-Prozess umfasst drei Hauptschritte: Daten aus Quellsystemen werden zuerst __________, anschließend __________ und schließlich ins Data Warehouse __________.

Bei der Transformation können mehrere Schritte erfolgen, darunter __________, um Dubletten zu eliminieren, und __________, um Datenformate zu vereinheitlichen.

Eine wichtige Aufgabe im ETL-Prozess ist die __________, bei der sichergestellt wird, dass die Daten zwischen Quelle und Ziel konsistent bleiben.


Lösungen:

  1. ETL
  2. extrahiert
  3. transformiert
  4. geladen
  5. Matching/Deduplizieren
  6. Codierungsvereinheitlichung
  7. Abgleich (Reconciliation)

Lückentext 7: Datenqualität

Ein entscheidendes Kriterium für die Datenqualität ist die __________, die sicherstellt, dass keine wichtigen Daten fehlen. Ebenso wichtig ist die __________, die überprüft, ob die Daten dem realen Phänomen entsprechen.

Damit Analysen auf aktuellen Daten basieren, muss die __________ gewährleistet sein. Zudem stellt die __________ sicher, dass Fremdschlüssel immer auf existierende Primärschlüssel verweisen.

Ein systematischer Ansatz zur Datenbereinigung ist das __________-Modell, das intelligente Mechanismen zur Sicherstellung der Datenqualität beinhaltet.


Lösungen:

  1. Vollständigkeit
  2. Genauigkeit
  3. Zeitnähe
  4. Referentielle Integrität
  5. CLIQ-Vorgehensmodell

Lückentext 8: Physische Optimierung

Ein __________-Index wird genutzt, um häufig wiederkehrende Attributwerte effizient zu speichern. Um Abfragen schneller zu machen, können __________-Sichten genutzt werden, die bereits berechnete Ergebnisse speichern.

Eine Technik zur Verbesserung der Datenverarbeitung ist die __________, die Tabellen logisch aufteilt, während die __________ ihre physische Speicherung optimiert.

Ein modernes Speicherformat für analytische Abfragen ist die __________-orientierte Speicherung, bei der Daten spaltenweise abgelegt werden.


Lösungen:

  1. Bitmap
  2. Materialisierte
  3. Partitionierung
  4. Allokation
  5. Spaltenorientierte

2. Lückentext

Ein Data Warehouse (DWH) ist ein zentrales [________], das Daten aus verschiedenen Quellen integriert und für [________] optimiert ist.
Der Prozess, bei dem Daten aus Quellsystemen extrahiert, transformiert und in das DWH geladen werden, wird als [________] bezeichnet.
Dieser Prozess umfasst drei Hauptschritte: [________], [________] und [________].
Ein [________] ist ein kleineres, themenspezifisches Data Warehouse, das auf die Anforderungen einer bestimmten Abteilung zugeschnitten ist.
Es kann entweder [________] oder [________] sein.

Im multidimensionalen Modell beschreibt eine [________] die Fakten, während ein [________] eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Fakten können in drei Typen unterteilt werden: [________], [________] und [________].

Beim [________] werden Daten entlang einer Hierarchie aggregiert, während beim [________] die Daten detaillierter betrachtet werden.
Ein [________] besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] normalisierte Dimensionstabellen verwendet.

Die [________] ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.

Die [________] beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Die drei Haupttypen sind [________], [________] und [________].
Im Data Warehouse werden [________] gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.

Die [________] beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.

Die [________] stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] eine hybride Speicherung verwendet.

Die [________] in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Zu den Techniken gehören [________], [________] und [________].
Ein [________] ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.

Lösungsschlüssel:

  • Repository, Analyse- und Berichtszwecke
  • ETL-Prozess, Extraktion, Transformation, Laden
  • Data Mart, abhängig, unabhängig
  • Dimension, Fakt, Bewegungszahlen (FLOW), Bestandszahlen (STOCK), Wertangaben (VALUE PER UNIT)
  • Roll-Up, Drill-Down
  • Sternschema, Schneeflockenschema
  • Staging Area
  • Datenbereinigung
  • Bitmap-Index
  • Slowly Changing Dimensions (SCD), Typ I, Typ II, Typ III
  • historisierte Daten
  • OLAP-Würfel
  • Sparsity
  • Slice and Dice
  • Metadaten-Repository
  • Referentielle Integrität
  • ROLAP, HOLAP
  • Fensterfunktionen
  • Data Mining, Clusterbildung, Klassifikation, Assoziationsanalyse
  • Knowledge Grid

3. Lückentext

Ein Data Warehouse (DWH) ist ein zentrales [________] (Repository) für integrierte Daten aus verschiedenen Quellen, das primär für [________] (Analyse- und Berichtszwecke) verwendet wird.
Der Prozess, bei dem Daten aus verschiedenen Quellen extrahiert, transformiert und in das DWH geladen werden, wird als [________] (ETL-Prozess) bezeichnet.
Ein [________] (Data Mart) ist ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung zugeschnitten ist.

Im multidimensionalen Modell beschreibt eine [________] (Dimension) die Fakten, während ein [________] (Fakt) eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Beim [________] (Roll-Up) werden Daten entlang einer Hierarchie aggregiert, während beim [________] (Drill-Down) die Daten detaillierter betrachtet werden.
Ein [________] (Sternschema) besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] (Schneeflockenschema) normalisierte Dimensionstabellen verwendet.

Die [________] (Staging Area) ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] (Datenbereinigung) werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] (Bitmap-Index) ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.

Die [________] (Slowly Changing Dimensions, SCD) beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Im Data Warehouse werden [________] (historisierte Daten) gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] (OLAP-Würfel) ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.

Die [________] (Sparsity) beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] (Slice and Dice) werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] (Metadaten-Repository) speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.

Die [________] (Referentielle Integrität) stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] (ROLAP) speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] (HOLAP) eine hybride Speicherung verwendet.

Die [________] (Fensterfunktionen) in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] (Data Mining) werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Ein [________] (Knowledge Grid) ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.

Lösungsschlüssel:

  • Repository
  • ETL-Prozess
  • Data Mart
  • Dimension, Fakt
  • Roll-Up, Drill-Down
  • Sternschema, Schneeflockenschema
  • Staging Area
  • Datenbereinigung
  • Bitmap-Index
  • Slowly Changing Dimensions (SCD)
  • historisierte Daten
  • OLAP-Würfel
  • Sparsity
  • Slice and Dice
  • Metadaten-Repository
  • Referentielle Integrität
  • ROLAP, HOLAP
  • Fensterfunktionen
  • Data Mining
  • Knowledge Grid

Begriffe

Data Warehouse – Teil 1: Einführung

  • Data Warehouse (DWH): Ein zentrales Repository für integrierte Daten aus verschiedenen Quellen, das für Analyse- und Berichtszwecke verwendet wird [DWH_01_MotivationArchitektur.pdf].
  • OLTP (Online Transaction Processing): Verarbeitung von vielen standardisierten Anfragen.
  • OLAP (Online Analytical Processing): Entscheidungsunterstützung mit integrierten Daten.
  • ERP- bzw. CRM-Systeme: Beispiele für interne Datenquellen.
  • Web, Demographische Daten, Social Media: Beispiele für externe Datenquellen.
  • Heterogene Datenquellen: Verschiedenartige Datenquellen wie relationale Datenbanken, semistrukturierte Daten (z. B. XML), proprietäre Dateiformate und unstrukturierte Informationen (z. B. Texte).
  • Staging Area: Ein Zwischenspeicher für Daten, die aus verschiedenen Quellen extrahiert und transformiert wurden, bevor sie in das Data Warehouse geladen werden.
  • Integrationsprozess (ETL-Prozess): Der Prozess des Extrahierens, Transformierens und Ladens von Daten aus verschiedenen Quellen in das Data Warehouse.
  • Monitoring: Systematisches Entdecken von Datenänderungen (neue, geänderte oder gelöschte Datensätze) in Quellsystemen.
  • Metadaten-Repository: Ein zentrales Verzeichnis, das Informationen über die Daten im Data Warehouse speichert, einschließlich ihrer Herkunft, Bedeutung, Beziehungen und Qualität.
  • Operational Data Store (ODS): Ein Zwischenspeicher für operative Daten, der für Berichte und kurzfristige Analysen verwendet wird.
  • Extraktionskomponente: Zuständig für die Übertragung von Daten aus der Quelle in den Zwischenspeicher (Operational Data Store).
  • Datenbereinigung (Data Cleansing): Aufspüren und Beseitigung von “Verunreinigungen”, um gewisse Datenqualitätsmerkmale zu erreichen.
  • Ladekomponente: Übertragen der Daten aus dem Zwischenspeicher in das DWH.
  • Analyse-orientiertes Schema: Im DWH, bewusster Verstoß gegen das Prinzip der Datenunabhängigkeit.
  • Historisierte Daten: Daten mit Zeitbezug, die im DWH gespeichert werden.
  • Data Mart: Ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung oder eines bestimmten Geschäftsbereichs zugeschnitten ist.
    • Abhängige Data Marts: Hub and Spoke Architektur.
    • Unabhängige Data Marts.

Data Warehouse – Teil 2: Multidimensionales Modell

  • Multidimensionales Modell: Datenmodell mit Fakten und Dimensionen zur Analyse.
    • Fakten: Ein oder mehrere Fakten pro Schema möglich. Beziehungen zwischen Fakten in einem Schema. Berechnungsvorschriften, Typverträglichkeit.
    • Dimensionen: Mehrfachhierarchie, alternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung, unvollständige Verdichtung.
    • (Hyper-)Würfel:
      • Zellen:
  • Mehrfach-Hierarchie: Auf eine Hierarchieebene können alternativ mehrere weitere folgen.
  • Alternative Verdichtungspfade: Verzweigende Pfade einer Mehrfach-Hierarchie können wieder zusammenlaufen.
  • Unbalancierte Hierarchie: Bei Zuordnung von Hierarchieelementen zur nächsthöheren bzw. nächstniedrigeren Ebene müssen nicht immer Elemente existieren.
  • Anteilige Verrechnung: Bei Zuordnung von Hierarchieelementen zur nächsthöheren Ebene muss ein Element nicht eindeutig einem anderen zugeordnet werden können.
  • Nicht-vollständige Verdichtung: Nicht alle Instanzen einer Hierarchie-Ebene nehmen an der Verdichtung teil.
  • mUML: Notation zur Erstellung eines multidimensionalen Schemas.
  • Sparsity-Faktor: Anzahl der tatsächlich unbesetzten Zellen an, d.h. 1-Besetzungsgrad.

Data Warehouse – Teil 3: Anwendungen

  • Data Mining: (Semi-)automatische Analyse eines großen oder komplexen Datenbestandes mit dem Ziel, neue, signifikante Muster oder Trends zu entdecken, die sonst unerkannt geblieben wären.
  • Assoziationsanalyse: Entdeckung von Assoziationsregeln, die in einem Datenbestand häufig auftretende Attribut-Wert-Zusammenhänge beschreiben.
  • Assoziationsregel: Implikation X → Y mit X, Y Item-Mengen, z.B. {Milch, Wurst} → {Bier}.
  • Support: relative Häufigkeit des Auftretens der Item-Menge in Gesamtzahl der Transaktionen.
  • Konfidenz: gibt Häufigkeit des Auftretens von Items in Y in Transaktionen, die X enthalten, an.
  • BI Maturity Model (biMM): Klassifikation von Systemen.

Data Warehouse – Teil 5: Datenbank und Archiv

  • Sternschema: Dimensionstabellen denormalisiert, Faktentabellen mit Fremdschlüsseln zu den Dimensionstabellen.
  • Schneeflockenschema: Normalisierte Dimensionstabellen, um Redundanz zu vermeiden.
  • Multi Star Schema/Galaxy Schema: Mehrere Faktentabellen teilen Dimensionstabellen.
  • Langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD): Techniken, um Änderungen in den Dimensionstabellen im Laufe der Zeit zu handhaben, ohne die historischen Daten zu verlieren.
  • Archiv: Auslagern von Daten aus dem DWH, um das wachsende Datenvolumen zu reduzieren.

Data Warehouse – Teil 6: ETL-Prozess

  • ETL (Extraktion, Transformation, Laden): Prozess der Datenintegration von den Datenquellen ins DWH.
  • Data Staging Area: Zwischenspeicher im ETL-Prozess.
  • Felder separieren oder zusammenfassen: Informationen aus einem Feld sollen auf mehrere aufgesplittet werden (Separieren) oder aus mehreren Feldern in eins zusammengefasst werden.
  • Einheitliches Format (Formatieren): Daten liegen (in unterschiedlichen Quellen) in verschiedenen Formaten vor, sollen vereinheitlicht werden.
  • Konvertieren: Kann insbesondere in internationalem Umfeld kompliziert werden.
  • Matching und Deduplizieren: Daten liegen (in unterschiedlichen Quellen) möglicherweise doppelt vor, sollen nur einmal in Zielbereich.
  • Codierungen vereinheitlichen: Gleiche Werte werden (in unterschiedlichen Quellen) bzw. im Ziel unterschiedlich codiert.
  • Berechnung abgeleiteter Werte: Werte liegen in der Quelle der einzeln vor, im Ziel wird berechneter Wert benötigt.
  • Daten aggregieren: Daten liegen in feinerer Granularität vor als benötigt.
  • Abgleich (Reconciliation): Abgleich zwischen Quelle und Ziel (z.B. Datenquelle und DWH oder ODS und DWH).
  • Erweitertes INSERT: Gleichzeitiges Einfügen in mehrere Tabellen basierend auf Bedingungen.
  • MERGE INTO:
  • Externe Tabellen: Tabellen, die außerhalb der Datenbank gehalten werden.
  • ELT:
  • EAI:
  • SOA:
  • ESB:
  • EII:

Data Warehouse – Teil 7: Datenqualität

  • Datenqualität: Grad, in dem ein Satz inhärenter Merkmale eines Datenprodukts Anforderungen erfüllt.
  • CLIQ-Vorgehensmodell: data CLeansing mit Intelligentem Qualitätsmanagement.
  • Schlüsseleindeutigkeit: Eindeutigkeit der Primärschlüssel einer Relation.
  • Referentielle Integrität: Zu jedem Fremdschlüssel existiert ein Primärschlüssel in der referenzierten Relation und die im Schema festgelegte Kardinalität der Beziehung wird eingehalten.
  • Vollständigkeit: Belegung von Attributwerten mit semantisch von NULL verschiedenen Werten.
  • Genauigkeit: Attribute eines Datenproduktes liegen im optimalen Detaillierungsgrad vor.
  • Zeitnähe: Attributwerte bzw. Tupel entsprechen aktuellem Stand, d.h. sind nicht veraltet.
  • Redundanzfreiheit: Keine Duplikate.
  • Relevanz: Grad der Übereinstimmung des Informationsgehaltes eines Datenprodukts mit den Anforderungen einer Anfrage bzw. Auswertung.
  • Einheitlichkeit: Grad, zu dem ein Datenprodukt eine einheitliche Repräsentationsstruktur aufweist.
  • Eindeutigkeit: Eindeutige Interpretierbarkeit eines Datenproduktes.

Data Warehouse – Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

  • Star Query:
  • ROLLUP-Operator: Ermöglicht die Berechnung von Teilergebnissen (Subtotals) in SQL-Abfragen.
  • CUBE-Operator: Erzeugt alle möglichen Kombinationen von Gruppierungen.
  • GROUPING-Funktion: Unterscheidung zwischen NULL-Werten als Teilsumme und gespeicherten NULL-Werten.
  • DECODE-Funktion: Funktion DECODE ermöglicht Umwandlung eines Wertes.
  • Partieller ROLLUP: ROLLUP-Liste muss nicht alle Gruppierungsargumente enthalten.

Data Warehouse – Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

  • Fensterfunktion:
  • Rangfunktion:

Data Warehouse – Teil 10: Physische Optimierung

  • Partitionierung: Logische Zerlegung von Relationen.
    • Fragmentierung: Bestimmung der Verteilungseinheiten.
    • Allokation: Zuordnung der Fragmente zu Plattenspeichern (Rechnerknoten).
  • Materialisierte Sichten: Abgespeichertes Ergebnis einer Sicht zur Beschleunigung von Anfragen.
  • Aggregationsgitter: Graph, der anzeigt, welche Kombinationen von Aggregationsattributen sich (in)direkt auseinander ableiten lassen.
  • Kompression: Reduzierung des Speicherbedarfs von Daten.
    • Lauflängencodierung (Run-Length-Encoding, RLE): Komprimierungsverfahren, bei dem lange Sequenzen von gleichen Werten durch die Angabe des Wertes und der Anzahl der Wiederholungen ersetzt werden.
    • Wörterbuchkompression (Symboltabelle): Ersetzt häufig vorkommende Werte durch kürzere Symbole.
  • Spaltenorientierte Speicherung: Speicherung von Daten spaltenweise statt zeilenweise zur Effizienzsteigerung bei analytischen Abfragen.
  • Bitmap-Index: Indexstruktur, die für jede Attributausprägung einen Bitvektor speichert, geeignet für Attribute mit geringer Kardinalität.
  • Mehrkomponenten-Bitmap-Index: Speicherung von n*m möglichen Ausprägungen durch n+m Bitmap-Vektoren.
  • Bereichscodierter Bitmap-Index: In Bitvektor zu Wert w Bit auf 1 setzen, wenn der Attributwert kleiner oder gleich w ist.
  • Intervallcodierter Bitmap-Index: Jeder Bitvektor repräsentiert Wertezugehörigkeit zu bestimmtem Intervall.
  • Data Packs: Zerlegung in Pakete.
  • Data Pack Nodes (DPN): Metadaten.
  • Knowledge Grid: DPNs bilden.
  • Kompressionsfaktor: Verhältnis zwischen unkomprimierter und komprimierter Größe.

Lückentext

Lückentext zur Prüfung – Data Warehouse

Bitte füllen Sie die Lücken im folgenden Text mit den passenden Fachbegriffen aus. Am Ende finden Sie die vollständigen Lösungen. Notieren Sie sich die richtige Zuordnung der Nummern!


Teil 1: Einführung und Grundlagen

Ein __________ [1] dient als zentrales Repository, das integrierte Daten aus verschiedenen Quellen speichert und primär für __________ [2] sowie __________ [3] genutzt wird. Dabei werden interne Datenquellen wie __________ [4] verwendet, während externe Quellen unter anderem aus __________ [5] bestehen. Unterschiedliche Arten von Daten stammen aus __________ [6], die beispielsweise relationale Datenbanken, semistrukturierte Formate (z. B. XML) oder unstrukturierte Texte umfassen. Die zunächst extrahierten und transformierten Daten werden in einer __________ [7] zwischengespeichert, bevor sie im Rahmen des __________ [8] in das Data Warehouse überführt werden. Um Veränderungen in den Quellsystemen zu erkennen, kommt __________ [9] zum Einsatz, während ein __________ [10] Informationen zur Herkunft, Bedeutung, Beziehung und Qualität der Daten verwaltet. Operative Daten werden in einem __________ [11] abgelegt, und die Übertragung der Daten aus den Quellen erfolgt über die __________ [12]. Unerwünschte Datenverunreinigungen werden durch __________ [13] entfernt, ehe sie über die __________ [14] in das DWH geladen werden. In einigen Fällen wird ein __________ [15] verwendet, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt, um __________ [16] zu speichern. Abschließend können für spezifische Geschäftsbereiche __________ [17] realisiert werden, die entweder als __________ [18] (Hub and Spoke Architektur) oder als __________ [19] vorliegen.


Teil 2: Multidimensionales Modell

Im __________ [20] werden Daten zur Analyse in zwei Hauptkomponenten unterteilt: __________ [21] und __________ [22]. Ein __________ [23] visualisiert die Daten in Form eines Würfels, wobei einzelne __________ [24] die konkreten Datenpunkte darstellen. Beim Aufbau von Dimensionen kann es zu einer __________ [25] kommen, bei der auf einer Hierarchieebene mehrere Unterebenen folgen. Zudem existieren __________ [26], bei denen verzweigende Pfade später wieder zusammenlaufen, sowie __________ [27], bei denen Elemente der nächsthöheren Ebene nicht zwingend vorhanden sind. Die Möglichkeit, dass Elemente nicht eindeutig zugeordnet werden können, wird als __________ [28] bezeichnet, und wenn nicht alle Instanzen einer Hierarchieebene in den Verdichtungsprozess einfließen, spricht man von __________ [29]. Zur grafischen Darstellung solcher Modelle wird häufig die Notation __________ [30] genutzt, während der __________ [31] angibt, wie viele Zellen im Modell tatsächlich unbesetzt bleiben.


Teil 3: Anwendungen

Mit __________ [32] versucht man, in großen und komplexen Datenbeständen neue, signifikante Muster oder Trends zu entdecken. Ein spezieller Ansatz hierbei ist die __________ [33], bei der häufig auftretende Zusammenhänge zwischen Attributwerten identifiziert werden. Eine solche Regel, beispielsweise in der Form {Milch, Wurst} → {Bier}, nennt man __________ [34]. Die __________ [35] misst die relative Häufigkeit des Auftretens einer bestimmten Item-Menge in den Transaktionen, während die __________ [36] angibt, wie oft Elemente der rechten Seite in Transaktionen mit der linken Seite vorkommen. Zur Klassifikation der Systeme wird zudem das __________ [37] herangezogen.


Teil 5: Datenbank und Archiv

Zur Modellierung der Datenbankstrukturen im Data Warehouse wird häufig das __________ [38] eingesetzt, bei dem die Dimensionstabellen __________ [39] vorliegen und die Faktentabellen über Fremdschlüssel verfügen. Im Gegensatz dazu minimiert das __________ [40] Datenredundanz durch normalisierte Dimensionstabellen. Wenn mehrere Faktentabellen gemeinsame Dimensionen nutzen, spricht man vom __________ [41]. Um zeitliche Änderungen in den Dimensionen zu handhaben, werden Techniken der __________ [42] verwendet, die historische Daten bewahren, ohne diese zu überschreiben. Zur Reduzierung des Datenvolumens wird häufig ein __________ [43] eingesetzt, in dem alte oder weniger häufig benötigte Daten ausgelagert werden.


Teil 6: ETL-Prozess

Der __________ [44] beschreibt den Prozess, bei dem Daten aus unterschiedlichen Quellen extrahiert, transformiert und anschließend in das Data Warehouse __________ [45]. Die zunächst extrahierten Daten werden in einer __________ [46] zwischengespeichert. Oftmals müssen Informationen aus einzelnen Feldern __________ [47], um sie in ein __________ [48] zu überführen. Im Anschluss werden die Daten durch das __________ [49] vereinheitlicht. Im internationalen Kontext kann das __________ [50] eine besondere Herausforderung darstellen. Um doppelte Datensätze zu vermeiden, kommen Verfahren des __________ [51] zum Einsatz, während es wichtig ist, dass identische Werte in verschiedenen Quellen __________ [52] werden. Häufig erfolgt auch die __________ [53], wenn in der Quelle Einzelwerte vorhanden sind, im DWH jedoch berechnete Werte benötigt werden. Da Daten oft in zu feiner Granularität vorliegen, müssen sie zusätzlich __________ [54] werden. Ein abschließender __________ [55] stellt sicher, dass die Daten zwischen Quelle und Ziel übereinstimmen. Unterstützt wird dieser Prozess durch Operationen wie das __________ [56] und __________ [57]. Weitere Aspekte des ETL-Prozesses umfassen den Umgang mit __________ [58] (Tabellen, die außerhalb der Datenbank gehalten werden) sowie den Einsatz von __________ [59] – bei dem das Laden vor der Transformation erfolgt. Darüber hinaus kommen Integrationstechnologien wie __________ [60], __________ [61], __________ [62] und __________ [63] zum Einsatz.


Teil 7: Datenqualität

Die __________ [64] beschreibt den Grad, in dem ein Datenprodukt die gestellten Anforderungen erfüllt. Zur Sicherung der Qualität wird häufig das __________ [65] eingesetzt, das Maßnahmen wie die Überprüfung der __________ [66] und der __________ [67] beinhaltet. Weitere essenzielle Kriterien sind die __________ [68], __________ [69] und __________ [70], um sicherzustellen, dass die Daten vollständig, genau und zeitnah vorliegen. Auch die __________ [71] wird bewertet, um Dopplungen zu vermeiden, während die __________ [72] und __________ [73] gewährleisten, dass der Informationsgehalt den Anforderungen entspricht und die Daten einheitlich dargestellt werden. Abschließend ist die __________ [74] wichtig, um eine eindeutige Interpretierbarkeit zu gewährleisten.


Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

Mit Hilfe der __________ [75] können Abfragen so erweitert werden, dass auch hierarchische Strukturen berücksichtigt werden. Der __________ [76] ermöglicht es, Teilergebnisse (Subtotals) in SQL-Abfragen zu berechnen, während der __________ [77] alle möglichen Gruppierungskombinationen erzeugt. Um in den Ergebnissen zwischen aggregierten NULL-Werten und echten NULL-Werten zu unterscheiden, kommt die __________ [78] zum Einsatz. Mithilfe der __________ [79] kann ein Wert in einen anderen umgewandelt werden, und ein __________ [80] erlaubt es, Teilergebnisse zu erhalten, ohne alle Gruppierungsargumente explizit anzugeben.


Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

Ergänzend zu den bisherigen Erweiterungen bieten die __________ [81] die Möglichkeit, Berechnungen über einen definierten Datenbereich hinweg durchzuführen, während die __________ [82] dazu dient, Datensätze zu ordnen und zu vergleichen.


Teil 10: Physische Optimierung

Zur Steigerung der Performance wird häufig die __________ [83] eingesetzt, bei der Relationen in logische Einheiten zerlegt werden. Dieser Vorgang umfasst die __________ [84], bei der die Verteilungseinheiten bestimmt werden, sowie die __________ [85], die die Fragmente den entsprechenden Plattenspeichern (Rechnerknoten) zuordnet. Zur Beschleunigung von Abfragen werden __________ [86] verwendet, die das Ergebnis einer Sicht zwischenspeichern. Ein __________ [87] veranschaulicht grafisch, welche Kombinationen von Aggregationsattributen sich direkt oder indirekt ableiten lassen. Zur Reduktion des Speicherbedarfs kommen verschiedene Verfahren der __________ [88] zum Einsatz, beispielsweise die __________ [89], bei der lange Sequenzen gleicher Werte komprimiert werden, oder die __________ [90], die häufig vorkommende Werte durch kürzere Symbole ersetzt. Durch die __________ [91] werden Daten spaltenweise gespeichert, was analytische Abfragen effizienter macht. Weiterhin wird der __________ [92] eingesetzt, der für jede Attributausprägung einen Bitvektor speichert, sowie der __________ [93], der n*m mögliche Ausprägungen durch n+m Bitvektoren abbildet. Mit dem __________ [94] wird in einem Bitvektor für einen bestimmten Schwellenwert das Bit gesetzt, wenn der Attributwert kleiner oder gleich diesem Wert ist, während der __________ [95] jedem Bitvektor ein festgelegtes Werteintervall zuordnet. Daten werden zudem in __________ [96] organisiert, wobei __________ [97] die zugehörigen Metadaten darstellen und ein __________ [98] bei der Bildung dieser Strukturen unterstützt. Abschließend beschreibt der __________ [99] das Verhältnis zwischen unkomprimierter und komprimierter Datengröße.


Lösungen

  1. Data Warehouse (DWH)

  2. Analyse-

  3. Berichtszwecke

  4. ERP- bzw. CRM-Systeme

  5. Web, Demographische Daten, Social Media

  6. heterogene Datenquellen

  7. Staging Area

  8. Integrationsprozess (ETL-Prozess)

  9. Monitoring

  10. Metadaten-Repository

  11. Operational Data Store (ODS)

  12. Extraktionskomponente

  13. Datenbereinigung (Data Cleansing)

  14. Ladekomponente

  15. analyse-orientiertes Schema

  16. historisierte Daten

  17. Data Marts

  18. abhängige Data Marts

  19. unabhängige Data Marts

  20. multidimensionales Modell

  21. Fakten

  22. Dimensionen

  23. (Hyper-)Würfel

  24. Zellen

  25. Mehrfach-Hierarchie

  26. alternative Verdichtungspfade

  27. unbalancierte Hierarchie

  28. anteilige Verrechnung

  29. nicht-vollständige Verdichtung

  30. mUML

  31. Sparsity-Faktor

  32. Data Mining

  33. Assoziationsanalyse

  34. Assoziationsregel

  35. Support

  36. Konfidenz

  37. BI Maturity Model (biMM)

  38. Sternschema

  39. denormalisiert

  40. Schneeflockenschema

  41. Multi Star Schema/Galaxy Schema

  42. langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD)

  43. Archiv

  44. ETL (Extraktion, Transformation, Laden)

  45. geladen

  46. Data Staging Area

  47. Felder separieren oder zusammenfassen

  48. einheitliches Format (Formatieren)

  49. Konvertieren

  50. Matching und Deduplizieren

  51. Codierungen vereinheitlichen

  52. Berechnung abgeleiteter Werte

  53. Daten aggregieren

  54. Abgleich (Reconciliation)

  55. Erweitertes INSERT

  56. MERGE INTO

  57. Externe Tabellen

  58. ELT

  59. EAI

  60. SOA

  61. ESB

  62. EII

  63. (Übersprungene Nummerierung – bitte beachten Sie, dass die folgenden Nummern ab 64 fortgeführt werden.)

  64. Datenqualität

  65. CLIQ-Vorgehensmodell

  66. Schlüsseleindeutigkeit

  67. Referentielle Integrität

  68. Vollständigkeit

  69. Genauigkeit

  70. Zeitnähe

  71. Redundanzfreiheit

  72. Relevanz

  73. Einheitlichkeit

  74. Eindeutigkeit

  75. Star Query

  76. ROLLUP-Operator

  77. CUBE-Operator

  78. GROUPING-Funktion

  79. DECODE-Funktion

  80. Partieller ROLLUP

  81. Fensterfunktion

  82. Rangfunktion

  83. Partitionierung

  84. Fragmentierung

  85. Allokation

  86. Materialisierte Sichten

  87. Aggregationsgitter

  88. Kompression

  89. Lauflängencodierung (Run-Length-Encoding, RLE)

  90. Wörterbuchkompression (Symboltabelle)

  91. Spaltenorientierte Speicherung

  92. Bitmap-Index

  93. Mehrkomponenten-Bitmap-Index

  94. Bereichscodierter Bitmap-Index

  95. Intervallcodierter Bitmap-Index

  96. Data Packs

  97. Data Pack Nodes (DPN)

  98. Knowledge Grid

  99. Kompressionsfaktor