Fachbegriffe zu Data Warehouse (vollständig mit Bedeutungen)

Data Warehouse – Teil 1: Einführung

Begriff	Bedeutung
Data Warehouse (DWH)	Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke.
OLTP (Online Transaction Processing)	Operative Datenbanken, die für Transaktionsverarbeitung optimiert sind (z. B. schnelle Schreibzugriffe).
OLAP (Online Analytical Processing)	Data Warehouses, die für komplexe analytische Abfragen optimiert sind (z. B. multidimensionale Aggregationen).
Datenquellen	Interne Quellen: ERP-, CRM-Systeme. Externe Quellen: Web, demographische Daten, Social Media.
Heterogene Datenquellen	Verschiedenartige Systeme wie relationale DBs, XML-Dateien, proprietäre Formate, unstrukturierte Texte.
Staging Area	Zwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH.
ETL-Prozess	Extrahieren: Daten aus Quellen in den Operational Data Store (ODS) übertragen. Transformieren: Datenbereinigung, Codierungsanpassung, Deduplizierung. Laden: Daten ins DWH transferieren.
Monitoring	Systematische Erkennung von Datenänderungen in Quellsystemen.
Metadaten-Repository	Zentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität.
Operational Data Store (ODS)	Kurzfristiger Zwischenspeicher für operative Daten (z. B. für Echtzeitberichte).
Analyse-orientiertes Schema	Schema im DWH, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt (z. B. Denormalisierung).
Historisierte Daten	Daten mit Zeitstempel zur Nachverfolgung historischer Zustände.
Data Mart	Kleines, themenspezifisches DWH für einzelne Abteilungen.

Data Warehouse – Teil 2: Multidimensionales Modell

Begriff	Bedeutung
Fakt	Kennzahl mit spezifischen Eigenschaften (Disjunktheit, Vollständigkeit, Typverträglichkeit).
Dimension	Beschreibende Attribute für Fakten (z. B. Zeit, Produkt, Kunde).
Hierarchien	Alternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung.
(Hyper-)Würfel	Multidimensionales Datenmodell aus Fakten und Dimensionen.
Roll-Up/Drill-Down	Aggregieren/Detaillieren entlang Hierarchien (z. B. Monat → Quartal).
Slice and Dice	Filtern und Segmentieren von Datenteilmengen.
Sparsity-Faktor	Maß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad).

Data Warehouse – Teil 3: Anwendungen

Begriff	Bedeutung
Berichtswesen	Generierung standardisierter Auswertungen mit vordefinierten Abfragen.
OLAP	Interaktive Exploration von Daten mit multidimensionaler Sicht.
Data Mining	Automatisierte Entdeckung von Mustern in großen Datenbeständen.
Dashboards/Scorecards	Visuelle Übersicht kritischer Kennzahlen in Echtzeit.
(Near) Real Time DWH	Zeitnahe Verarbeitung für aktuelle Analysen.

Data Warehouse – Teil 5: Datenbank und Archiv

Begriff	Bedeutung
Sternschema	Denormalisierte Dimensionstabellen + Faktentabelle mit Fremdschlüsseln.
Schneeflockenschema	Normalisierte Dimensionen zur Redundanzvermeidung.
Multi Star/Galaxy Schema	Mehrere Faktentabellen mit gemeinsamen Dimensionen.
Slowly Changing Dimensions (SCD)	Umgang mit historischen Änderungen in Dimensionen (Typ I-III).
ROLAP/HOLAP	Relationale vs. hybride OLAP-Speicherung.
Archiv	Langzeitlagerung nicht mehr aktiver DWH-Daten.

Data Warehouse – Teil 6: ETL-Prozess

Begriff	Bedeutung
Transformationsschritte	Datenbereinigung, Codierungsanpassung, Matching/Deduplizieren, Aggregation.
Abgleich (Reconciliation)	Konsistenzprüfung zwischen Quelle und Ziel (z. B. Summenvergleiche).

Data Warehouse – Teil 7: Datenqualität

Begriff	Bedeutung
Q-Metriken	Vollständigkeit, Genauigkeit, Zeitnähe, referentielle Integrität.
CLIQ-Vorgehensmodell	Prozess zur Datenbereinigung mit intelligentem Qualitätsmanagement.

Data Warehouse – Teil 8: SQL-Erweiterungen (I)

Begriff	Bedeutung
ROLLUP-Operator	Berechnung hierarchischer Aggregationen (z. B. Land → Region → Gesamt).
CUBE-Operator	Alle möglichen Aggregationskombinationen.

Data Warehouse – Teil 9: SQL-Erweiterungen (II)

Begriff	Bedeutung
Fensterfunktionen	Berechnungen über Zeilenfenster (z. B. gleitender Durchschnitt).

Data Warehouse – Teil 10: Physische Optimierung

Begriff	Bedeutung
Bitmap-Index	Komprimierte Darstellung von Attributausprägungen.
Materialisierte Sichten	Vorberechnete Abfrageergebnisse für schnellen Zugriff.
Partitionierung	Logische Aufteilung von Tabellen (Fragmentierung, Allokation).
Spaltenorientierte Speicherung	Speicherung nach Spalten (nicht Zeilen) für analytische Abfragen.

Lückentext

Lückentext 1: Data Warehouse

Ein __________ ist ein zentrales Repository, das Daten aus verschiedenen Quellen integriert und für Analysezwecke optimiert ist. Im Gegensatz zu __________-Systemen, die für Transaktionsverarbeitung optimiert sind, ist ein __________ für analytische Abfragen und Aggregationen ausgelegt.

Daten im Data Warehouse stammen aus unterschiedlichen __________, die sowohl intern als auch extern sein können. Diese Daten werden zunächst in der __________ zwischengespeichert, bevor sie durch den __________-Prozess verarbeitet werden.

Ein wichtiger Bestandteil eines Data Warehouses ist das __________, das Informationen zu Datenherkunft, Struktur und Bedeutung speichert. Daten werden oft in einem __________ organisiert, das gezielt gegen das Prinzip der Datenunabhängigkeit verstößt.

Ein __________ ist eine kleinere, themenspezifische Version eines Data Warehouses, die für spezifische Abteilungen optimiert ist.

Lösungen:

Data Warehouse
OLTP
OLAP
Datenquellen
Staging Area
ETL
Metadaten-Repository
Analyse-orientiertes Schema
Data Mart

Lückentext 2: Multidimensionales Modell

Im multidimensionalen Modell sind __________ die zentralen Kennzahlen, die analysiert werden. Diese können in verschiedene Typen unterteilt werden, darunter __________, die zeitlich aggregierbar sind, und __________, die nicht direkt addiert werden können.

Jede Faktentabelle enthält Verweise auf __________, die beschreibende Attribute wie Zeit, Produkt oder Kunde repräsentieren. Diese sind oft in __________ organisiert, die verschiedene Verdichtungsebenen abbilden.

Das zentrale Konzept des multidimensionalen Modells ist der __________, eine n-dimensionale Darstellung der Daten. Um Analysen durchzuführen, können Benutzer __________ verwenden, um eine detailliertere oder aggregierte Ansicht der Daten zu erhalten.

Lösungen:

Fakten
Bewegungszahlen (FLOW)
Wertangaben (VALUE PER UNIT)
Dimensionen
Hierarchien
(Hyper-)Würfel
Roll-Up/Drill-Down

Lückentext 3: Anwendungen im Data Warehouse

Eine häufige Anwendung eines Data Warehouses ist das __________, bei dem standardisierte Berichte mit vordefinierten Abfragen erstellt werden. Eine interaktivere Methode zur Datenanalyse ist __________, das eine multidimensionale Sicht auf Daten ermöglicht.

Durch __________ können in großen Datenbeständen automatisch Muster und Zusammenhänge erkannt werden. Wichtige Techniken in diesem Bereich sind __________, bei der ähnliche Datensätze gruppiert werden, sowie __________, bei der neue Daten Objekten zugeordnet werden.

Ein weiteres Konzept ist das __________, das eine visuelle Darstellung von Kennzahlen in Echtzeit bietet. Um zeitnahe Analysen zu ermöglichen, werden Data Warehouses zunehmend als __________ implementiert.

Lösungen:

Berichtswesen
OLAP
Data Mining
Clusterbildung
Klassifikation
Dashboard
(Near) Real Time DWH

Lückentext 4: SQL-Erweiterungen

Um hierarchische Aggregationen in SQL zu berechnen, wird der __________-Operator verwendet, während der __________-Operator alle möglichen Aggregationskombinationen generiert.

Moderne SQL-Systeme unterstützen __________, die Berechnungen über definierte Zeilenfenster ermöglichen. Hierdurch können komplexe Analysen wie __________, bei dem ein Mittelwert über mehrere Zeilen berechnet wird, effizient durchgeführt werden.

Lösungen:

ROLLUP
CUBE
Fensterfunktionen
Gleitender Durchschnitt

Lückentext 5: Datenbank und Archiv

Ein __________ ist ein Modell mit einer denormalisierten Faktentabelle, während das __________ zur Vermeidung von Redundanzen auf eine stärkere Normalisierung setzt. Das __________-Schema kombiniert mehrere Faktentabellen mit gemeinsamen Dimensionen.

Um historische Änderungen zu verwalten, werden __________-Techniken genutzt. Dabei werden im __________-Ansatz alte Daten überschrieben, während im __________-Ansatz neue Versionen gespeichert werden.

Für die Speicherung von analytischen Daten werden verschiedene OLAP-Ansätze genutzt, darunter __________ für relationale Speicherung und __________ als Hybridlösung.

Lösungen:

Sternschema
Schneeflockenschema
Multi Star/Galaxy Schema
Slowly Changing Dimensions (SCD)
Typ I
Typ II
ROLAP
HOLAP

Lückentext 6: ETL-Prozess

Der __________-Prozess umfasst drei Hauptschritte: Daten aus Quellsystemen werden zuerst __________, anschließend __________ und schließlich ins Data Warehouse __________.

Bei der Transformation können mehrere Schritte erfolgen, darunter __________, um Dubletten zu eliminieren, und __________, um Datenformate zu vereinheitlichen.

Eine wichtige Aufgabe im ETL-Prozess ist die __________, bei der sichergestellt wird, dass die Daten zwischen Quelle und Ziel konsistent bleiben.

Lösungen:

ETL
extrahiert
transformiert
geladen
Matching/Deduplizieren
Codierungsvereinheitlichung
Abgleich (Reconciliation)

Lückentext 7: Datenqualität

Ein entscheidendes Kriterium für die Datenqualität ist die __________, die sicherstellt, dass keine wichtigen Daten fehlen. Ebenso wichtig ist die __________, die überprüft, ob die Daten dem realen Phänomen entsprechen.

Damit Analysen auf aktuellen Daten basieren, muss die __________ gewährleistet sein. Zudem stellt die __________ sicher, dass Fremdschlüssel immer auf existierende Primärschlüssel verweisen.

Ein systematischer Ansatz zur Datenbereinigung ist das __________-Modell, das intelligente Mechanismen zur Sicherstellung der Datenqualität beinhaltet.

Lösungen:

Vollständigkeit
Genauigkeit
Zeitnähe
Referentielle Integrität
CLIQ-Vorgehensmodell

Lückentext 8: Physische Optimierung

Ein __________-Index wird genutzt, um häufig wiederkehrende Attributwerte effizient zu speichern. Um Abfragen schneller zu machen, können __________-Sichten genutzt werden, die bereits berechnete Ergebnisse speichern.

Eine Technik zur Verbesserung der Datenverarbeitung ist die __________, die Tabellen logisch aufteilt, während die __________ ihre physische Speicherung optimiert.

Ein modernes Speicherformat für analytische Abfragen ist die __________-orientierte Speicherung, bei der Daten spaltenweise abgelegt werden.

Lösungen:

Bitmap
Materialisierte
Partitionierung
Allokation
Spaltenorientierte

2. Lückentext

Ein Data Warehouse (DWH) ist ein zentrales [________], das Daten aus verschiedenen Quellen integriert und für [________] optimiert ist.
Der Prozess, bei dem Daten aus Quellsystemen extrahiert, transformiert und in das DWH geladen werden, wird als [________] bezeichnet.
Dieser Prozess umfasst drei Hauptschritte: [________], [________] und [________].
Ein [________] ist ein kleineres, themenspezifisches Data Warehouse, das auf die Anforderungen einer bestimmten Abteilung zugeschnitten ist.
Es kann entweder [________] oder [________] sein.

Im multidimensionalen Modell beschreibt eine [________] die Fakten, während ein [________] eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Fakten können in drei Typen unterteilt werden: [________], [________] und [________].

Beim [________] werden Daten entlang einer Hierarchie aggregiert, während beim [________] die Daten detaillierter betrachtet werden.
Ein [________] besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] normalisierte Dimensionstabellen verwendet.

Die [________] ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.

Die [________] beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Die drei Haupttypen sind [________], [________] und [________].
Im Data Warehouse werden [________] gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.

Die [________] beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.

Die [________] stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] eine hybride Speicherung verwendet.

Die [________] in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Zu den Techniken gehören [________], [________] und [________].
Ein [________] ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.

Lösungsschlüssel:

Repository, Analyse- und Berichtszwecke
ETL-Prozess, Extraktion, Transformation, Laden
Data Mart, abhängig, unabhängig
Dimension, Fakt, Bewegungszahlen (FLOW), Bestandszahlen (STOCK), Wertangaben (VALUE PER UNIT)
Roll-Up, Drill-Down
Sternschema, Schneeflockenschema
Staging Area
Datenbereinigung
Bitmap-Index
Slowly Changing Dimensions (SCD), Typ I, Typ II, Typ III
historisierte Daten
OLAP-Würfel
Sparsity
Slice and Dice
Metadaten-Repository
Referentielle Integrität
ROLAP, HOLAP
Fensterfunktionen
Data Mining, Clusterbildung, Klassifikation, Assoziationsanalyse
Knowledge Grid

3. Lückentext

Ein Data Warehouse (DWH) ist ein zentrales [________] (Repository) für integrierte Daten aus verschiedenen Quellen, das primär für [________] (Analyse- und Berichtszwecke) verwendet wird.
Der Prozess, bei dem Daten aus verschiedenen Quellen extrahiert, transformiert und in das DWH geladen werden, wird als [________] (ETL-Prozess) bezeichnet.
Ein [________] (Data Mart) ist ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung zugeschnitten ist.

Im multidimensionalen Modell beschreibt eine [________] (Dimension) die Fakten, während ein [________] (Fakt) eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Beim [________] (Roll-Up) werden Daten entlang einer Hierarchie aggregiert, während beim [________] (Drill-Down) die Daten detaillierter betrachtet werden.
Ein [________] (Sternschema) besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] (Schneeflockenschema) normalisierte Dimensionstabellen verwendet.

Die [________] (Staging Area) ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] (Datenbereinigung) werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] (Bitmap-Index) ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.

Die [________] (Slowly Changing Dimensions, SCD) beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Im Data Warehouse werden [________] (historisierte Daten) gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] (OLAP-Würfel) ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.

Die [________] (Sparsity) beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] (Slice and Dice) werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] (Metadaten-Repository) speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.

Die [________] (Referentielle Integrität) stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] (ROLAP) speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] (HOLAP) eine hybride Speicherung verwendet.

Die [________] (Fensterfunktionen) in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] (Data Mining) werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Ein [________] (Knowledge Grid) ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.

Lösungsschlüssel:

Repository
ETL-Prozess
Data Mart
Dimension, Fakt
Roll-Up, Drill-Down
Sternschema, Schneeflockenschema
Staging Area
Datenbereinigung
Bitmap-Index
Slowly Changing Dimensions (SCD)
historisierte Daten
OLAP-Würfel
Sparsity
Slice and Dice
Metadaten-Repository
Referentielle Integrität
ROLAP, HOLAP
Fensterfunktionen
Data Mining
Knowledge Grid

Begriffe

Data Warehouse – Teil 1: Einführung

Data Warehouse (DWH): Ein zentrales Repository für integrierte Daten aus verschiedenen Quellen, das für Analyse- und Berichtszwecke verwendet wird [DWH_01_MotivationArchitektur.pdf].
OLTP (Online Transaction Processing): Verarbeitung von vielen standardisierten Anfragen.
OLAP (Online Analytical Processing): Entscheidungsunterstützung mit integrierten Daten.
ERP- bzw. CRM-Systeme: Beispiele für interne Datenquellen.
Web, Demographische Daten, Social Media: Beispiele für externe Datenquellen.
Heterogene Datenquellen: Verschiedenartige Datenquellen wie relationale Datenbanken, semistrukturierte Daten (z. B. XML), proprietäre Dateiformate und unstrukturierte Informationen (z. B. Texte).
Staging Area: Ein Zwischenspeicher für Daten, die aus verschiedenen Quellen extrahiert und transformiert wurden, bevor sie in das Data Warehouse geladen werden.
Integrationsprozess (ETL-Prozess): Der Prozess des Extrahierens, Transformierens und Ladens von Daten aus verschiedenen Quellen in das Data Warehouse.
Monitoring: Systematisches Entdecken von Datenänderungen (neue, geänderte oder gelöschte Datensätze) in Quellsystemen.
Metadaten-Repository: Ein zentrales Verzeichnis, das Informationen über die Daten im Data Warehouse speichert, einschließlich ihrer Herkunft, Bedeutung, Beziehungen und Qualität.
Operational Data Store (ODS): Ein Zwischenspeicher für operative Daten, der für Berichte und kurzfristige Analysen verwendet wird.
Extraktionskomponente: Zuständig für die Übertragung von Daten aus der Quelle in den Zwischenspeicher (Operational Data Store).
Datenbereinigung (Data Cleansing): Aufspüren und Beseitigung von “Verunreinigungen”, um gewisse Datenqualitätsmerkmale zu erreichen.
Ladekomponente: Übertragen der Daten aus dem Zwischenspeicher in das DWH.
Analyse-orientiertes Schema: Im DWH, bewusster Verstoß gegen das Prinzip der Datenunabhängigkeit.
Historisierte Daten: Daten mit Zeitbezug, die im DWH gespeichert werden.
Data Mart: Ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung oder eines bestimmten Geschäftsbereichs zugeschnitten ist.
- Abhängige Data Marts: Hub and Spoke Architektur.
- Unabhängige Data Marts.

Data Warehouse – Teil 2: Multidimensionales Modell

Multidimensionales Modell: Datenmodell mit Fakten und Dimensionen zur Analyse.
- Fakten: Ein oder mehrere Fakten pro Schema möglich. Beziehungen zwischen Fakten in einem Schema. Berechnungsvorschriften, Typverträglichkeit.
- Dimensionen: Mehrfachhierarchie, alternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung, unvollständige Verdichtung.
- (Hyper-)Würfel:
  - Zellen:
Mehrfach-Hierarchie: Auf eine Hierarchieebene können alternativ mehrere weitere folgen.
Alternative Verdichtungspfade: Verzweigende Pfade einer Mehrfach-Hierarchie können wieder zusammenlaufen.
Unbalancierte Hierarchie: Bei Zuordnung von Hierarchieelementen zur nächsthöheren bzw. nächstniedrigeren Ebene müssen nicht immer Elemente existieren.
Anteilige Verrechnung: Bei Zuordnung von Hierarchieelementen zur nächsthöheren Ebene muss ein Element nicht eindeutig einem anderen zugeordnet werden können.
Nicht-vollständige Verdichtung: Nicht alle Instanzen einer Hierarchie-Ebene nehmen an der Verdichtung teil.
mUML: Notation zur Erstellung eines multidimensionalen Schemas.
Sparsity-Faktor: Anzahl der tatsächlich unbesetzten Zellen an, d.h. 1-Besetzungsgrad.

Data Warehouse – Teil 3: Anwendungen

Data Mining: (Semi-)automatische Analyse eines großen oder komplexen Datenbestandes mit dem Ziel, neue, signifikante Muster oder Trends zu entdecken, die sonst unerkannt geblieben wären.
Assoziationsanalyse: Entdeckung von Assoziationsregeln, die in einem Datenbestand häufig auftretende Attribut-Wert-Zusammenhänge beschreiben.
Assoziationsregel: Implikation X → Y mit X, Y Item-Mengen, z.B. {Milch, Wurst} → {Bier}.
Support: relative Häufigkeit des Auftretens der Item-Menge in Gesamtzahl der Transaktionen.
Konfidenz: gibt Häufigkeit des Auftretens von Items in Y in Transaktionen, die X enthalten, an.
BI Maturity Model (biMM): Klassifikation von Systemen.

Data Warehouse – Teil 5: Datenbank und Archiv

Sternschema: Dimensionstabellen denormalisiert, Faktentabellen mit Fremdschlüsseln zu den Dimensionstabellen.
Schneeflockenschema: Normalisierte Dimensionstabellen, um Redundanz zu vermeiden.
Multi Star Schema/Galaxy Schema: Mehrere Faktentabellen teilen Dimensionstabellen.
Langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD): Techniken, um Änderungen in den Dimensionstabellen im Laufe der Zeit zu handhaben, ohne die historischen Daten zu verlieren.
Archiv: Auslagern von Daten aus dem DWH, um das wachsende Datenvolumen zu reduzieren.

Data Warehouse – Teil 6: ETL-Prozess

ETL (Extraktion, Transformation, Laden): Prozess der Datenintegration von den Datenquellen ins DWH.
Data Staging Area: Zwischenspeicher im ETL-Prozess.
Felder separieren oder zusammenfassen: Informationen aus einem Feld sollen auf mehrere aufgesplittet werden (Separieren) oder aus mehreren Feldern in eins zusammengefasst werden.
Einheitliches Format (Formatieren): Daten liegen (in unterschiedlichen Quellen) in verschiedenen Formaten vor, sollen vereinheitlicht werden.
Konvertieren: Kann insbesondere in internationalem Umfeld kompliziert werden.
Matching und Deduplizieren: Daten liegen (in unterschiedlichen Quellen) möglicherweise doppelt vor, sollen nur einmal in Zielbereich.
Codierungen vereinheitlichen: Gleiche Werte werden (in unterschiedlichen Quellen) bzw. im Ziel unterschiedlich codiert.
Berechnung abgeleiteter Werte: Werte liegen in der Quelle der einzeln vor, im Ziel wird berechneter Wert benötigt.
Daten aggregieren: Daten liegen in feinerer Granularität vor als benötigt.
Abgleich (Reconciliation): Abgleich zwischen Quelle und Ziel (z.B. Datenquelle und DWH oder ODS und DWH).
Erweitertes INSERT: Gleichzeitiges Einfügen in mehrere Tabellen basierend auf Bedingungen.
MERGE INTO:
Externe Tabellen: Tabellen, die außerhalb der Datenbank gehalten werden.
ELT:
EAI:
SOA:
ESB:
EII:

Data Warehouse – Teil 7: Datenqualität

Datenqualität: Grad, in dem ein Satz inhärenter Merkmale eines Datenprodukts Anforderungen erfüllt.
CLIQ-Vorgehensmodell: data CLeansing mit Intelligentem Qualitätsmanagement.
Schlüsseleindeutigkeit: Eindeutigkeit der Primärschlüssel einer Relation.
Referentielle Integrität: Zu jedem Fremdschlüssel existiert ein Primärschlüssel in der referenzierten Relation und die im Schema festgelegte Kardinalität der Beziehung wird eingehalten.
Vollständigkeit: Belegung von Attributwerten mit semantisch von NULL verschiedenen Werten.
Genauigkeit: Attribute eines Datenproduktes liegen im optimalen Detaillierungsgrad vor.
Zeitnähe: Attributwerte bzw. Tupel entsprechen aktuellem Stand, d.h. sind nicht veraltet.
Redundanzfreiheit: Keine Duplikate.
Relevanz: Grad der Übereinstimmung des Informationsgehaltes eines Datenprodukts mit den Anforderungen einer Anfrage bzw. Auswertung.
Einheitlichkeit: Grad, zu dem ein Datenprodukt eine einheitliche Repräsentationsstruktur aufweist.
Eindeutigkeit: Eindeutige Interpretierbarkeit eines Datenproduktes.

Data Warehouse – Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

Star Query:
ROLLUP-Operator: Ermöglicht die Berechnung von Teilergebnissen (Subtotals) in SQL-Abfragen.
CUBE-Operator: Erzeugt alle möglichen Kombinationen von Gruppierungen.
GROUPING-Funktion: Unterscheidung zwischen NULL-Werten als Teilsumme und gespeicherten NULL-Werten.
DECODE-Funktion: Funktion DECODE ermöglicht Umwandlung eines Wertes.
Partieller ROLLUP: ROLLUP-Liste muss nicht alle Gruppierungsargumente enthalten.

Data Warehouse – Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

Fensterfunktion:
Rangfunktion:

Data Warehouse – Teil 10: Physische Optimierung

Partitionierung: Logische Zerlegung von Relationen.
- Fragmentierung: Bestimmung der Verteilungseinheiten.
- Allokation: Zuordnung der Fragmente zu Plattenspeichern (Rechnerknoten).
Materialisierte Sichten: Abgespeichertes Ergebnis einer Sicht zur Beschleunigung von Anfragen.
Aggregationsgitter: Graph, der anzeigt, welche Kombinationen von Aggregationsattributen sich (in)direkt auseinander ableiten lassen.
Kompression: Reduzierung des Speicherbedarfs von Daten.
- Lauflängencodierung (Run-Length-Encoding, RLE): Komprimierungsverfahren, bei dem lange Sequenzen von gleichen Werten durch die Angabe des Wertes und der Anzahl der Wiederholungen ersetzt werden.
- Wörterbuchkompression (Symboltabelle): Ersetzt häufig vorkommende Werte durch kürzere Symbole.
Spaltenorientierte Speicherung: Speicherung von Daten spaltenweise statt zeilenweise zur Effizienzsteigerung bei analytischen Abfragen.
Bitmap-Index: Indexstruktur, die für jede Attributausprägung einen Bitvektor speichert, geeignet für Attribute mit geringer Kardinalität.
Mehrkomponenten-Bitmap-Index: Speicherung von n*m möglichen Ausprägungen durch n+m Bitmap-Vektoren.
Bereichscodierter Bitmap-Index: In Bitvektor zu Wert w Bit auf 1 setzen, wenn der Attributwert kleiner oder gleich w ist.
Intervallcodierter Bitmap-Index: Jeder Bitvektor repräsentiert Wertezugehörigkeit zu bestimmtem Intervall.
Data Packs: Zerlegung in Pakete.
Data Pack Nodes (DPN): Metadaten.
Knowledge Grid: DPNs bilden.
Kompressionsfaktor: Verhältnis zwischen unkomprimierter und komprimierter Größe.

Lückentext

Lückentext zur Prüfung – Data Warehouse

Bitte füllen Sie die Lücken im folgenden Text mit den passenden Fachbegriffen aus. Am Ende finden Sie die vollständigen Lösungen. Notieren Sie sich die richtige Zuordnung der Nummern!

Teil 1: Einführung und Grundlagen

Ein __________ [1] dient als zentrales Repository, das integrierte Daten aus verschiedenen Quellen speichert und primär für __________ [2] sowie __________ [3] genutzt wird. Dabei werden interne Datenquellen wie __________ [4] verwendet, während externe Quellen unter anderem aus __________ [5] bestehen. Unterschiedliche Arten von Daten stammen aus __________ [6], die beispielsweise relationale Datenbanken, semistrukturierte Formate (z. B. XML) oder unstrukturierte Texte umfassen. Die zunächst extrahierten und transformierten Daten werden in einer __________ [7] zwischengespeichert, bevor sie im Rahmen des __________ [8] in das Data Warehouse überführt werden. Um Veränderungen in den Quellsystemen zu erkennen, kommt __________ [9] zum Einsatz, während ein __________ [10] Informationen zur Herkunft, Bedeutung, Beziehung und Qualität der Daten verwaltet. Operative Daten werden in einem __________ [11] abgelegt, und die Übertragung der Daten aus den Quellen erfolgt über die __________ [12]. Unerwünschte Datenverunreinigungen werden durch __________ [13] entfernt, ehe sie über die __________ [14] in das DWH geladen werden. In einigen Fällen wird ein __________ [15] verwendet, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt, um __________ [16] zu speichern. Abschließend können für spezifische Geschäftsbereiche __________ [17] realisiert werden, die entweder als __________ [18] (Hub and Spoke Architektur) oder als __________ [19] vorliegen.

Teil 2: Multidimensionales Modell

Im __________ [20] werden Daten zur Analyse in zwei Hauptkomponenten unterteilt: __________ [21] und __________ [22]. Ein __________ [23] visualisiert die Daten in Form eines Würfels, wobei einzelne __________ [24] die konkreten Datenpunkte darstellen. Beim Aufbau von Dimensionen kann es zu einer __________ [25] kommen, bei der auf einer Hierarchieebene mehrere Unterebenen folgen. Zudem existieren __________ [26], bei denen verzweigende Pfade später wieder zusammenlaufen, sowie __________ [27], bei denen Elemente der nächsthöheren Ebene nicht zwingend vorhanden sind. Die Möglichkeit, dass Elemente nicht eindeutig zugeordnet werden können, wird als __________ [28] bezeichnet, und wenn nicht alle Instanzen einer Hierarchieebene in den Verdichtungsprozess einfließen, spricht man von __________ [29]. Zur grafischen Darstellung solcher Modelle wird häufig die Notation __________ [30] genutzt, während der __________ [31] angibt, wie viele Zellen im Modell tatsächlich unbesetzt bleiben.

Teil 3: Anwendungen

Mit __________ [32] versucht man, in großen und komplexen Datenbeständen neue, signifikante Muster oder Trends zu entdecken. Ein spezieller Ansatz hierbei ist die __________ [33], bei der häufig auftretende Zusammenhänge zwischen Attributwerten identifiziert werden. Eine solche Regel, beispielsweise in der Form {Milch, Wurst} → {Bier}, nennt man __________ [34]. Die __________ [35] misst die relative Häufigkeit des Auftretens einer bestimmten Item-Menge in den Transaktionen, während die __________ [36] angibt, wie oft Elemente der rechten Seite in Transaktionen mit der linken Seite vorkommen. Zur Klassifikation der Systeme wird zudem das __________ [37] herangezogen.

Teil 5: Datenbank und Archiv

Zur Modellierung der Datenbankstrukturen im Data Warehouse wird häufig das __________ [38] eingesetzt, bei dem die Dimensionstabellen __________ [39] vorliegen und die Faktentabellen über Fremdschlüssel verfügen. Im Gegensatz dazu minimiert das __________ [40] Datenredundanz durch normalisierte Dimensionstabellen. Wenn mehrere Faktentabellen gemeinsame Dimensionen nutzen, spricht man vom __________ [41]. Um zeitliche Änderungen in den Dimensionen zu handhaben, werden Techniken der __________ [42] verwendet, die historische Daten bewahren, ohne diese zu überschreiben. Zur Reduzierung des Datenvolumens wird häufig ein __________ [43] eingesetzt, in dem alte oder weniger häufig benötigte Daten ausgelagert werden.

Teil 6: ETL-Prozess

Der __________ [44] beschreibt den Prozess, bei dem Daten aus unterschiedlichen Quellen extrahiert, transformiert und anschließend in das Data Warehouse __________ [45]. Die zunächst extrahierten Daten werden in einer __________ [46] zwischengespeichert. Oftmals müssen Informationen aus einzelnen Feldern __________ [47], um sie in ein __________ [48] zu überführen. Im Anschluss werden die Daten durch das __________ [49] vereinheitlicht. Im internationalen Kontext kann das __________ [50] eine besondere Herausforderung darstellen. Um doppelte Datensätze zu vermeiden, kommen Verfahren des __________ [51] zum Einsatz, während es wichtig ist, dass identische Werte in verschiedenen Quellen __________ [52] werden. Häufig erfolgt auch die __________ [53], wenn in der Quelle Einzelwerte vorhanden sind, im DWH jedoch berechnete Werte benötigt werden. Da Daten oft in zu feiner Granularität vorliegen, müssen sie zusätzlich __________ [54] werden. Ein abschließender __________ [55] stellt sicher, dass die Daten zwischen Quelle und Ziel übereinstimmen. Unterstützt wird dieser Prozess durch Operationen wie das __________ [56] und __________ [57]. Weitere Aspekte des ETL-Prozesses umfassen den Umgang mit __________ [58] (Tabellen, die außerhalb der Datenbank gehalten werden) sowie den Einsatz von __________ [59] – bei dem das Laden vor der Transformation erfolgt. Darüber hinaus kommen Integrationstechnologien wie __________ [60], __________ [61], __________ [62] und __________ [63] zum Einsatz.

Teil 7: Datenqualität

Die __________ [64] beschreibt den Grad, in dem ein Datenprodukt die gestellten Anforderungen erfüllt. Zur Sicherung der Qualität wird häufig das __________ [65] eingesetzt, das Maßnahmen wie die Überprüfung der __________ [66] und der __________ [67] beinhaltet. Weitere essenzielle Kriterien sind die __________ [68], __________ [69] und __________ [70], um sicherzustellen, dass die Daten vollständig, genau und zeitnah vorliegen. Auch die __________ [71] wird bewertet, um Dopplungen zu vermeiden, während die __________ [72] und __________ [73] gewährleisten, dass der Informationsgehalt den Anforderungen entspricht und die Daten einheitlich dargestellt werden. Abschließend ist die __________ [74] wichtig, um eine eindeutige Interpretierbarkeit zu gewährleisten.

Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

Mit Hilfe der __________ [75] können Abfragen so erweitert werden, dass auch hierarchische Strukturen berücksichtigt werden. Der __________ [76] ermöglicht es, Teilergebnisse (Subtotals) in SQL-Abfragen zu berechnen, während der __________ [77] alle möglichen Gruppierungskombinationen erzeugt. Um in den Ergebnissen zwischen aggregierten NULL-Werten und echten NULL-Werten zu unterscheiden, kommt die __________ [78] zum Einsatz. Mithilfe der __________ [79] kann ein Wert in einen anderen umgewandelt werden, und ein __________ [80] erlaubt es, Teilergebnisse zu erhalten, ohne alle Gruppierungsargumente explizit anzugeben.

Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

Ergänzend zu den bisherigen Erweiterungen bieten die __________ [81] die Möglichkeit, Berechnungen über einen definierten Datenbereich hinweg durchzuführen, während die __________ [82] dazu dient, Datensätze zu ordnen und zu vergleichen.

Teil 10: Physische Optimierung

Zur Steigerung der Performance wird häufig die __________ [83] eingesetzt, bei der Relationen in logische Einheiten zerlegt werden. Dieser Vorgang umfasst die __________ [84], bei der die Verteilungseinheiten bestimmt werden, sowie die __________ [85], die die Fragmente den entsprechenden Plattenspeichern (Rechnerknoten) zuordnet. Zur Beschleunigung von Abfragen werden __________ [86] verwendet, die das Ergebnis einer Sicht zwischenspeichern. Ein __________ [87] veranschaulicht grafisch, welche Kombinationen von Aggregationsattributen sich direkt oder indirekt ableiten lassen. Zur Reduktion des Speicherbedarfs kommen verschiedene Verfahren der __________ [88] zum Einsatz, beispielsweise die __________ [89], bei der lange Sequenzen gleicher Werte komprimiert werden, oder die __________ [90], die häufig vorkommende Werte durch kürzere Symbole ersetzt. Durch die __________ [91] werden Daten spaltenweise gespeichert, was analytische Abfragen effizienter macht. Weiterhin wird der __________ [92] eingesetzt, der für jede Attributausprägung einen Bitvektor speichert, sowie der __________ [93], der n*m mögliche Ausprägungen durch n+m Bitvektoren abbildet. Mit dem __________ [94] wird in einem Bitvektor für einen bestimmten Schwellenwert das Bit gesetzt, wenn der Attributwert kleiner oder gleich diesem Wert ist, während der __________ [95] jedem Bitvektor ein festgelegtes Werteintervall zuordnet. Daten werden zudem in __________ [96] organisiert, wobei __________ [97] die zugehörigen Metadaten darstellen und ein __________ [98] bei der Bildung dieser Strukturen unterstützt. Abschließend beschreibt der __________ [99] das Verhältnis zwischen unkomprimierter und komprimierter Datengröße.

Lösungen

Data Warehouse (DWH)
Analyse-
Berichtszwecke
ERP- bzw. CRM-Systeme
Web, Demographische Daten, Social Media
heterogene Datenquellen
Staging Area
Integrationsprozess (ETL-Prozess)
Monitoring
Metadaten-Repository
Operational Data Store (ODS)
Extraktionskomponente
Datenbereinigung (Data Cleansing)
Ladekomponente
analyse-orientiertes Schema
historisierte Daten
Data Marts
abhängige Data Marts
unabhängige Data Marts
multidimensionales Modell
Fakten
Dimensionen
(Hyper-)Würfel
Zellen
Mehrfach-Hierarchie
alternative Verdichtungspfade
unbalancierte Hierarchie
anteilige Verrechnung
nicht-vollständige Verdichtung
mUML
Sparsity-Faktor
Data Mining
Assoziationsanalyse
Assoziationsregel
Support
Konfidenz
BI Maturity Model (biMM)
Sternschema
denormalisiert
Schneeflockenschema
Multi Star Schema/Galaxy Schema
langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD)
Archiv
ETL (Extraktion, Transformation, Laden)
geladen
Data Staging Area
Felder separieren oder zusammenfassen
einheitliches Format (Formatieren)
Konvertieren
Matching und Deduplizieren
Codierungen vereinheitlichen
Berechnung abgeleiteter Werte
Daten aggregieren
Abgleich (Reconciliation)
Erweitertes INSERT
MERGE INTO
Externe Tabellen
ELT
EAI
SOA
ESB
EII
(Übersprungene Nummerierung – bitte beachten Sie, dass die folgenden Nummern ab 64 fortgeführt werden.)
Datenqualität
CLIQ-Vorgehensmodell
Schlüsseleindeutigkeit
Referentielle Integrität
Vollständigkeit
Genauigkeit
Zeitnähe
Redundanzfreiheit
Relevanz
Einheitlichkeit
Eindeutigkeit
Star Query
ROLLUP-Operator
CUBE-Operator
GROUPING-Funktion
DECODE-Funktion
Partieller ROLLUP
Fensterfunktion
Rangfunktion
Partitionierung
Fragmentierung
Allokation
Materialisierte Sichten
Aggregationsgitter
Kompression
Lauflängencodierung (Run-Length-Encoding, RLE)
Wörterbuchkompression (Symboltabelle)
Spaltenorientierte Speicherung
Bitmap-Index
Mehrkomponenten-Bitmap-Index
Bereichscodierter Bitmap-Index
Intervallcodierter Bitmap-Index
Data Packs
Data Pack Nodes (DPN)
Knowledge Grid
Kompressionsfaktor

Tiger103 ˚₊‧🐯.𖥔 ݁

Explorer

Begriffe

Fachbegriffe zu Data Warehouse (vollständig mit Bedeutungen)

Data Warehouse – Teil 1: Einführung

Data Warehouse – Teil 2: Multidimensionales Modell

Data Warehouse – Teil 3: Anwendungen

Data Warehouse – Teil 5: Datenbank und Archiv

Data Warehouse – Teil 6: ETL-Prozess

Data Warehouse – Teil 7: Datenqualität

Data Warehouse – Teil 8: SQL-Erweiterungen (I)

Data Warehouse – Teil 9: SQL-Erweiterungen (II)

Data Warehouse – Teil 10: Physische Optimierung

Lückentext

2. Lückentext

Lösungsschlüssel:

3. Lückentext

Lösungsschlüssel:

Begriffe

Data Warehouse – Teil 1: Einführung

Data Warehouse – Teil 2: Multidimensionales Modell

Data Warehouse – Teil 3: Anwendungen

Data Warehouse – Teil 5: Datenbank und Archiv

Data Warehouse – Teil 6: ETL-Prozess

Data Warehouse – Teil 7: Datenqualität

Data Warehouse – Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

Data Warehouse – Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

Data Warehouse – Teil 10: Physische Optimierung

Lückentext

Lückentext zur Prüfung – Data Warehouse

Teil 1: Einführung und Grundlagen

Teil 2: Multidimensionales Modell

Teil 3: Anwendungen

Teil 5: Datenbank und Archiv

Teil 6: ETL-Prozess

Teil 7: Datenqualität

Teil 8: SQL-Erweiterungen zur Datenanalyse (I)

Teil 9: SQL-Erweiterungen zur Datenanalyse (II)

Teil 10: Physische Optimierung

Lösungen

Graph View

Table of Contents

Backlinks