Fachbegriffe zu Data Warehouse (vollständig mit Bedeutungen)
Data Warehouse – Teil 1: Einführung
Begriff | Bedeutung |
---|---|
Data Warehouse (DWH) | Zentrales Repository für integrierte Daten aus verschiedenen Quellen, optimiert für Analyse- und Berichtszwecke. |
OLTP (Online Transaction Processing) | Operative Datenbanken, die für Transaktionsverarbeitung optimiert sind (z. B. schnelle Schreibzugriffe). |
OLAP (Online Analytical Processing) | Data Warehouses, die für komplexe analytische Abfragen optimiert sind (z. B. multidimensionale Aggregationen). |
Datenquellen | Interne Quellen: ERP-, CRM-Systeme. Externe Quellen: Web, demographische Daten, Social Media. |
Heterogene Datenquellen | Verschiedenartige Systeme wie relationale DBs, XML-Dateien, proprietäre Formate, unstrukturierte Texte. |
Staging Area | Zwischenspeicher für extrahierte/transformierte Daten vor dem Laden ins DWH. |
ETL-Prozess | Extrahieren: Daten aus Quellen in den Operational Data Store (ODS) übertragen. Transformieren: Datenbereinigung, Codierungsanpassung, Deduplizierung. Laden: Daten ins DWH transferieren. |
Monitoring | Systematische Erkennung von Datenänderungen in Quellsystemen. |
Metadaten-Repository | Zentrales Verzeichnis mit Informationen zu Datenherkunft, Bedeutung, Beziehungen und Qualität. |
Operational Data Store (ODS) | Kurzfristiger Zwischenspeicher für operative Daten (z. B. für Echtzeitberichte). |
Analyse-orientiertes Schema | Schema im DWH, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt (z. B. Denormalisierung). |
Historisierte Daten | Daten mit Zeitstempel zur Nachverfolgung historischer Zustände. |
Data Mart | Kleines, themenspezifisches DWH für einzelne Abteilungen. |
Data Warehouse – Teil 2: Multidimensionales Modell
Begriff | Bedeutung |
---|---|
Fakt | Kennzahl mit spezifischen Eigenschaften (Disjunktheit, Vollständigkeit, Typverträglichkeit). |
Dimension | Beschreibende Attribute für Fakten (z. B. Zeit, Produkt, Kunde). |
Hierarchien | Alternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung. |
(Hyper-)Würfel | Multidimensionales Datenmodell aus Fakten und Dimensionen. |
Roll-Up/Drill-Down | Aggregieren/Detaillieren entlang Hierarchien (z. B. Monat → Quartal). |
Slice and Dice | Filtern und Segmentieren von Datenteilmengen. |
Sparsity-Faktor | Maß für unbesetzte Zellen im Würfel (1 - Besetzungsgrad). |
Data Warehouse – Teil 3: Anwendungen
Begriff | Bedeutung |
---|---|
Berichtswesen | Generierung standardisierter Auswertungen mit vordefinierten Abfragen. |
OLAP | Interaktive Exploration von Daten mit multidimensionaler Sicht. |
Data Mining | Automatisierte Entdeckung von Mustern in großen Datenbeständen. |
Dashboards/Scorecards | Visuelle Übersicht kritischer Kennzahlen in Echtzeit. |
(Near) Real Time DWH | Zeitnahe Verarbeitung für aktuelle Analysen. |
Data Warehouse – Teil 5: Datenbank und Archiv
Begriff | Bedeutung |
---|---|
Sternschema | Denormalisierte Dimensionstabellen + Faktentabelle mit Fremdschlüsseln. |
Schneeflockenschema | Normalisierte Dimensionen zur Redundanzvermeidung. |
Multi Star/Galaxy Schema | Mehrere Faktentabellen mit gemeinsamen Dimensionen. |
Slowly Changing Dimensions (SCD) | Umgang mit historischen Änderungen in Dimensionen (Typ I-III). |
ROLAP/HOLAP | Relationale vs. hybride OLAP-Speicherung. |
Archiv | Langzeitlagerung nicht mehr aktiver DWH-Daten. |
Data Warehouse – Teil 6: ETL-Prozess
Begriff | Bedeutung |
---|---|
Transformationsschritte | Datenbereinigung, Codierungsanpassung, Matching/Deduplizieren, Aggregation. |
Abgleich (Reconciliation) | Konsistenzprüfung zwischen Quelle und Ziel (z. B. Summenvergleiche). |
Data Warehouse – Teil 7: Datenqualität
Begriff | Bedeutung |
---|---|
Q-Metriken | Vollständigkeit, Genauigkeit, Zeitnähe, referentielle Integrität. |
CLIQ-Vorgehensmodell | Prozess zur Datenbereinigung mit intelligentem Qualitätsmanagement. |
Data Warehouse – Teil 8: SQL-Erweiterungen (I)
Begriff | Bedeutung |
---|---|
ROLLUP-Operator | Berechnung hierarchischer Aggregationen (z. B. Land → Region → Gesamt). |
CUBE-Operator | Alle möglichen Aggregationskombinationen. |
Data Warehouse – Teil 9: SQL-Erweiterungen (II)
Begriff | Bedeutung |
---|---|
Fensterfunktionen | Berechnungen über Zeilenfenster (z. B. gleitender Durchschnitt). |
Data Warehouse – Teil 10: Physische Optimierung
Begriff | Bedeutung |
---|---|
Bitmap-Index | Komprimierte Darstellung von Attributausprägungen. |
Materialisierte Sichten | Vorberechnete Abfrageergebnisse für schnellen Zugriff. |
Partitionierung | Logische Aufteilung von Tabellen (Fragmentierung, Allokation). |
Spaltenorientierte Speicherung | Speicherung nach Spalten (nicht Zeilen) für analytische Abfragen. |
Lückentext
Lückentext 1: Data Warehouse
Ein __________ ist ein zentrales Repository, das Daten aus verschiedenen Quellen integriert und für Analysezwecke optimiert ist. Im Gegensatz zu __________-Systemen, die für Transaktionsverarbeitung optimiert sind, ist ein __________ für analytische Abfragen und Aggregationen ausgelegt.
Daten im Data Warehouse stammen aus unterschiedlichen __________, die sowohl intern als auch extern sein können. Diese Daten werden zunächst in der __________ zwischengespeichert, bevor sie durch den __________-Prozess verarbeitet werden.
Ein wichtiger Bestandteil eines Data Warehouses ist das __________, das Informationen zu Datenherkunft, Struktur und Bedeutung speichert. Daten werden oft in einem __________ organisiert, das gezielt gegen das Prinzip der Datenunabhängigkeit verstößt.
Ein __________ ist eine kleinere, themenspezifische Version eines Data Warehouses, die für spezifische Abteilungen optimiert ist.
Lösungen:
- Data Warehouse
- OLTP
- OLAP
- Datenquellen
- Staging Area
- ETL
- Metadaten-Repository
- Analyse-orientiertes Schema
- Data Mart
Lückentext 2: Multidimensionales Modell
Im multidimensionalen Modell sind __________ die zentralen Kennzahlen, die analysiert werden. Diese können in verschiedene Typen unterteilt werden, darunter __________, die zeitlich aggregierbar sind, und __________, die nicht direkt addiert werden können.
Jede Faktentabelle enthält Verweise auf __________, die beschreibende Attribute wie Zeit, Produkt oder Kunde repräsentieren. Diese sind oft in __________ organisiert, die verschiedene Verdichtungsebenen abbilden.
Das zentrale Konzept des multidimensionalen Modells ist der __________, eine n-dimensionale Darstellung der Daten. Um Analysen durchzuführen, können Benutzer __________ verwenden, um eine detailliertere oder aggregierte Ansicht der Daten zu erhalten.
Lösungen:
- Fakten
- Bewegungszahlen (FLOW)
- Wertangaben (VALUE PER UNIT)
- Dimensionen
- Hierarchien
- (Hyper-)Würfel
- Roll-Up/Drill-Down
Lückentext 3: Anwendungen im Data Warehouse
Eine häufige Anwendung eines Data Warehouses ist das __________, bei dem standardisierte Berichte mit vordefinierten Abfragen erstellt werden. Eine interaktivere Methode zur Datenanalyse ist __________, das eine multidimensionale Sicht auf Daten ermöglicht.
Durch __________ können in großen Datenbeständen automatisch Muster und Zusammenhänge erkannt werden. Wichtige Techniken in diesem Bereich sind __________, bei der ähnliche Datensätze gruppiert werden, sowie __________, bei der neue Daten Objekten zugeordnet werden.
Ein weiteres Konzept ist das __________, das eine visuelle Darstellung von Kennzahlen in Echtzeit bietet. Um zeitnahe Analysen zu ermöglichen, werden Data Warehouses zunehmend als __________ implementiert.
Lösungen:
- Berichtswesen
- OLAP
- Data Mining
- Clusterbildung
- Klassifikation
- Dashboard
- (Near) Real Time DWH
Lückentext 4: SQL-Erweiterungen
Um hierarchische Aggregationen in SQL zu berechnen, wird der __________-Operator verwendet, während der __________-Operator alle möglichen Aggregationskombinationen generiert.
Moderne SQL-Systeme unterstützen __________, die Berechnungen über definierte Zeilenfenster ermöglichen. Hierdurch können komplexe Analysen wie __________, bei dem ein Mittelwert über mehrere Zeilen berechnet wird, effizient durchgeführt werden.
Lösungen:
- ROLLUP
- CUBE
- Fensterfunktionen
- Gleitender Durchschnitt
Lückentext 5: Datenbank und Archiv
Ein __________ ist ein Modell mit einer denormalisierten Faktentabelle, während das __________ zur Vermeidung von Redundanzen auf eine stärkere Normalisierung setzt. Das __________-Schema kombiniert mehrere Faktentabellen mit gemeinsamen Dimensionen.
Um historische Änderungen zu verwalten, werden __________-Techniken genutzt. Dabei werden im __________-Ansatz alte Daten überschrieben, während im __________-Ansatz neue Versionen gespeichert werden.
Für die Speicherung von analytischen Daten werden verschiedene OLAP-Ansätze genutzt, darunter __________ für relationale Speicherung und __________ als Hybridlösung.
Lösungen:
- Sternschema
- Schneeflockenschema
- Multi Star/Galaxy Schema
- Slowly Changing Dimensions (SCD)
- Typ I
- Typ II
- ROLAP
- HOLAP
Lückentext 6: ETL-Prozess
Der __________-Prozess umfasst drei Hauptschritte: Daten aus Quellsystemen werden zuerst __________, anschließend __________ und schließlich ins Data Warehouse __________.
Bei der Transformation können mehrere Schritte erfolgen, darunter __________, um Dubletten zu eliminieren, und __________, um Datenformate zu vereinheitlichen.
Eine wichtige Aufgabe im ETL-Prozess ist die __________, bei der sichergestellt wird, dass die Daten zwischen Quelle und Ziel konsistent bleiben.
Lösungen:
- ETL
- extrahiert
- transformiert
- geladen
- Matching/Deduplizieren
- Codierungsvereinheitlichung
- Abgleich (Reconciliation)
Lückentext 7: Datenqualität
Ein entscheidendes Kriterium für die Datenqualität ist die __________, die sicherstellt, dass keine wichtigen Daten fehlen. Ebenso wichtig ist die __________, die überprüft, ob die Daten dem realen Phänomen entsprechen.
Damit Analysen auf aktuellen Daten basieren, muss die __________ gewährleistet sein. Zudem stellt die __________ sicher, dass Fremdschlüssel immer auf existierende Primärschlüssel verweisen.
Ein systematischer Ansatz zur Datenbereinigung ist das __________-Modell, das intelligente Mechanismen zur Sicherstellung der Datenqualität beinhaltet.
Lösungen:
- Vollständigkeit
- Genauigkeit
- Zeitnähe
- Referentielle Integrität
- CLIQ-Vorgehensmodell
Lückentext 8: Physische Optimierung
Ein __________-Index wird genutzt, um häufig wiederkehrende Attributwerte effizient zu speichern. Um Abfragen schneller zu machen, können __________-Sichten genutzt werden, die bereits berechnete Ergebnisse speichern.
Eine Technik zur Verbesserung der Datenverarbeitung ist die __________, die Tabellen logisch aufteilt, während die __________ ihre physische Speicherung optimiert.
Ein modernes Speicherformat für analytische Abfragen ist die __________-orientierte Speicherung, bei der Daten spaltenweise abgelegt werden.
Lösungen:
- Bitmap
- Materialisierte
- Partitionierung
- Allokation
- Spaltenorientierte
2. Lückentext
Ein Data Warehouse (DWH) ist ein zentrales [________], das Daten aus verschiedenen Quellen integriert und für [________] optimiert ist.
Der Prozess, bei dem Daten aus Quellsystemen extrahiert, transformiert und in das DWH geladen werden, wird als [________] bezeichnet.
Dieser Prozess umfasst drei Hauptschritte: [________], [________] und [________].
Ein [________] ist ein kleineres, themenspezifisches Data Warehouse, das auf die Anforderungen einer bestimmten Abteilung zugeschnitten ist.
Es kann entweder [________] oder [________] sein.
Im multidimensionalen Modell beschreibt eine [________] die Fakten, während ein [________] eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Fakten können in drei Typen unterteilt werden: [________], [________] und [________].
Beim [________] werden Daten entlang einer Hierarchie aggregiert, während beim [________] die Daten detaillierter betrachtet werden.
Ein [________] besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] normalisierte Dimensionstabellen verwendet.
Die [________] ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.
Die [________] beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Die drei Haupttypen sind [________], [________] und [________].
Im Data Warehouse werden [________] gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.
Die [________] beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.
Die [________] stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] eine hybride Speicherung verwendet.
Die [________] in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Zu den Techniken gehören [________], [________] und [________].
Ein [________] ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.
Lösungsschlüssel:
- Repository, Analyse- und Berichtszwecke
- ETL-Prozess, Extraktion, Transformation, Laden
- Data Mart, abhängig, unabhängig
- Dimension, Fakt, Bewegungszahlen (FLOW), Bestandszahlen (STOCK), Wertangaben (VALUE PER UNIT)
- Roll-Up, Drill-Down
- Sternschema, Schneeflockenschema
- Staging Area
- Datenbereinigung
- Bitmap-Index
- Slowly Changing Dimensions (SCD), Typ I, Typ II, Typ III
- historisierte Daten
- OLAP-Würfel
- Sparsity
- Slice and Dice
- Metadaten-Repository
- Referentielle Integrität
- ROLAP, HOLAP
- Fensterfunktionen
- Data Mining, Clusterbildung, Klassifikation, Assoziationsanalyse
- Knowledge Grid
3. Lückentext
Ein Data Warehouse (DWH) ist ein zentrales [________] (Repository) für integrierte Daten aus verschiedenen Quellen, das primär für [________] (Analyse- und Berichtszwecke) verwendet wird.
Der Prozess, bei dem Daten aus verschiedenen Quellen extrahiert, transformiert und in das DWH geladen werden, wird als [________] (ETL-Prozess) bezeichnet.
Ein [________] (Data Mart) ist ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung zugeschnitten ist.
Im multidimensionalen Modell beschreibt eine [________] (Dimension) die Fakten, während ein [________] (Fakt) eine Kennzahl darstellt, die z.B. Umsatz oder Menge sein kann.
Beim [________] (Roll-Up) werden Daten entlang einer Hierarchie aggregiert, während beim [________] (Drill-Down) die Daten detaillierter betrachtet werden.
Ein [________] (Sternschema) besteht aus einer zentralen Faktentabelle und denormalisierten Dimensionstabellen, während ein [________] (Schneeflockenschema) normalisierte Dimensionstabellen verwendet.
Die [________] (Staging Area) ist ein Zwischenspeicher, in dem Daten vor dem Laden ins DWH zwischengespeichert und transformiert werden.
Bei der [________] (Datenbereinigung) werden Fehler in den Daten erkannt und korrigiert, um die Datenqualität zu verbessern.
Ein [________] (Bitmap-Index) ist eine spezielle Indexstruktur, die für die effiziente Speicherung und Abfrage von Attributausprägungen verwendet wird.
Die [________] (Slowly Changing Dimensions, SCD) beschreiben Techniken, um Änderungen in Dimensionstabellen über die Zeit zu verwalten, ohne historische Daten zu verlieren.
Im Data Warehouse werden [________] (historisierte Daten) gespeichert, die einen Zeitbezug haben und historische Zustände abbilden.
Ein [________] (OLAP-Würfel) ist ein multidimensionales Datenmodell, das aus Fakten und Dimensionen besteht.
Die [________] (Sparsity) beschreibt den Anteil der unbesetzten Zellen in einem multidimensionalen Würfel.
Beim [________] (Slice and Dice) werden Teilmengen der Daten ausgewählt und in verschiedenen Perspektiven betrachtet.
Ein [________] (Metadaten-Repository) speichert Informationen über die Herkunft, Bedeutung und Qualität der Daten im DWH.
Die [________] (Referentielle Integrität) stellt sicher, dass jeder Fremdschlüssel in einer Tabelle auf einen gültigen Primärschlüssel verweist.
Ein [________] (ROLAP) speichert multidimensionale Daten in relationalen Datenbanken, während ein [________] (HOLAP) eine hybride Speicherung verwendet.
Die [________] (Fensterfunktionen) in SQL ermöglichen Berechnungen über eine Menge von Zeilen, die in Beziehung zur aktuellen Zeile stehen.
Beim [________] (Data Mining) werden große Datenbestände analysiert, um neue Muster oder Trends zu entdecken.
Ein [________] (Knowledge Grid) ist eine Metadatenstruktur, die zur Optimierung von Data Packs verwendet wird.
Lösungsschlüssel:
- Repository
- ETL-Prozess
- Data Mart
- Dimension, Fakt
- Roll-Up, Drill-Down
- Sternschema, Schneeflockenschema
- Staging Area
- Datenbereinigung
- Bitmap-Index
- Slowly Changing Dimensions (SCD)
- historisierte Daten
- OLAP-Würfel
- Sparsity
- Slice and Dice
- Metadaten-Repository
- Referentielle Integrität
- ROLAP, HOLAP
- Fensterfunktionen
- Data Mining
- Knowledge Grid
Begriffe
Data Warehouse – Teil 1: Einführung
- Data Warehouse (DWH): Ein zentrales Repository für integrierte Daten aus verschiedenen Quellen, das für Analyse- und Berichtszwecke verwendet wird [DWH_01_MotivationArchitektur.pdf].
- OLTP (Online Transaction Processing): Verarbeitung von vielen standardisierten Anfragen.
- OLAP (Online Analytical Processing): Entscheidungsunterstützung mit integrierten Daten.
- ERP- bzw. CRM-Systeme: Beispiele für interne Datenquellen.
- Web, Demographische Daten, Social Media: Beispiele für externe Datenquellen.
- Heterogene Datenquellen: Verschiedenartige Datenquellen wie relationale Datenbanken, semistrukturierte Daten (z. B. XML), proprietäre Dateiformate und unstrukturierte Informationen (z. B. Texte).
- Staging Area: Ein Zwischenspeicher für Daten, die aus verschiedenen Quellen extrahiert und transformiert wurden, bevor sie in das Data Warehouse geladen werden.
- Integrationsprozess (ETL-Prozess): Der Prozess des Extrahierens, Transformierens und Ladens von Daten aus verschiedenen Quellen in das Data Warehouse.
- Monitoring: Systematisches Entdecken von Datenänderungen (neue, geänderte oder gelöschte Datensätze) in Quellsystemen.
- Metadaten-Repository: Ein zentrales Verzeichnis, das Informationen über die Daten im Data Warehouse speichert, einschließlich ihrer Herkunft, Bedeutung, Beziehungen und Qualität.
- Operational Data Store (ODS): Ein Zwischenspeicher für operative Daten, der für Berichte und kurzfristige Analysen verwendet wird.
- Extraktionskomponente: Zuständig für die Übertragung von Daten aus der Quelle in den Zwischenspeicher (Operational Data Store).
- Datenbereinigung (Data Cleansing): Aufspüren und Beseitigung von “Verunreinigungen”, um gewisse Datenqualitätsmerkmale zu erreichen.
- Ladekomponente: Übertragen der Daten aus dem Zwischenspeicher in das DWH.
- Analyse-orientiertes Schema: Im DWH, bewusster Verstoß gegen das Prinzip der Datenunabhängigkeit.
- Historisierte Daten: Daten mit Zeitbezug, die im DWH gespeichert werden.
- Data Mart: Ein kleineres, themenspezifisches Data Warehouse, das auf die Bedürfnisse einer bestimmten Abteilung oder eines bestimmten Geschäftsbereichs zugeschnitten ist.
- Abhängige Data Marts: Hub and Spoke Architektur.
- Unabhängige Data Marts.
Data Warehouse – Teil 2: Multidimensionales Modell
- Multidimensionales Modell: Datenmodell mit Fakten und Dimensionen zur Analyse.
- Fakten: Ein oder mehrere Fakten pro Schema möglich. Beziehungen zwischen Fakten in einem Schema. Berechnungsvorschriften, Typverträglichkeit.
- Dimensionen: Mehrfachhierarchie, alternative Verdichtungspfade, unbalancierte Hierarchien, anteilige Verrechnung, unvollständige Verdichtung.
- (Hyper-)Würfel:
- Zellen:
- Mehrfach-Hierarchie: Auf eine Hierarchieebene können alternativ mehrere weitere folgen.
- Alternative Verdichtungspfade: Verzweigende Pfade einer Mehrfach-Hierarchie können wieder zusammenlaufen.
- Unbalancierte Hierarchie: Bei Zuordnung von Hierarchieelementen zur nächsthöheren bzw. nächstniedrigeren Ebene müssen nicht immer Elemente existieren.
- Anteilige Verrechnung: Bei Zuordnung von Hierarchieelementen zur nächsthöheren Ebene muss ein Element nicht eindeutig einem anderen zugeordnet werden können.
- Nicht-vollständige Verdichtung: Nicht alle Instanzen einer Hierarchie-Ebene nehmen an der Verdichtung teil.
- mUML: Notation zur Erstellung eines multidimensionalen Schemas.
- Sparsity-Faktor: Anzahl der tatsächlich unbesetzten Zellen an, d.h. 1-Besetzungsgrad.
Data Warehouse – Teil 3: Anwendungen
- Data Mining: (Semi-)automatische Analyse eines großen oder komplexen Datenbestandes mit dem Ziel, neue, signifikante Muster oder Trends zu entdecken, die sonst unerkannt geblieben wären.
- Assoziationsanalyse: Entdeckung von Assoziationsregeln, die in einem Datenbestand häufig auftretende Attribut-Wert-Zusammenhänge beschreiben.
- Assoziationsregel: Implikation X → Y mit X, Y Item-Mengen, z.B. {Milch, Wurst} → {Bier}.
- Support: relative Häufigkeit des Auftretens der Item-Menge in Gesamtzahl der Transaktionen.
- Konfidenz: gibt Häufigkeit des Auftretens von Items in Y in Transaktionen, die X enthalten, an.
- BI Maturity Model (biMM): Klassifikation von Systemen.
Data Warehouse – Teil 5: Datenbank und Archiv
- Sternschema: Dimensionstabellen denormalisiert, Faktentabellen mit Fremdschlüsseln zu den Dimensionstabellen.
- Schneeflockenschema: Normalisierte Dimensionstabellen, um Redundanz zu vermeiden.
- Multi Star Schema/Galaxy Schema: Mehrere Faktentabellen teilen Dimensionstabellen.
- Langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD): Techniken, um Änderungen in den Dimensionstabellen im Laufe der Zeit zu handhaben, ohne die historischen Daten zu verlieren.
- Archiv: Auslagern von Daten aus dem DWH, um das wachsende Datenvolumen zu reduzieren.
Data Warehouse – Teil 6: ETL-Prozess
- ETL (Extraktion, Transformation, Laden): Prozess der Datenintegration von den Datenquellen ins DWH.
- Data Staging Area: Zwischenspeicher im ETL-Prozess.
- Felder separieren oder zusammenfassen: Informationen aus einem Feld sollen auf mehrere aufgesplittet werden (Separieren) oder aus mehreren Feldern in eins zusammengefasst werden.
- Einheitliches Format (Formatieren): Daten liegen (in unterschiedlichen Quellen) in verschiedenen Formaten vor, sollen vereinheitlicht werden.
- Konvertieren: Kann insbesondere in internationalem Umfeld kompliziert werden.
- Matching und Deduplizieren: Daten liegen (in unterschiedlichen Quellen) möglicherweise doppelt vor, sollen nur einmal in Zielbereich.
- Codierungen vereinheitlichen: Gleiche Werte werden (in unterschiedlichen Quellen) bzw. im Ziel unterschiedlich codiert.
- Berechnung abgeleiteter Werte: Werte liegen in der Quelle der einzeln vor, im Ziel wird berechneter Wert benötigt.
- Daten aggregieren: Daten liegen in feinerer Granularität vor als benötigt.
- Abgleich (Reconciliation): Abgleich zwischen Quelle und Ziel (z.B. Datenquelle und DWH oder ODS und DWH).
- Erweitertes INSERT: Gleichzeitiges Einfügen in mehrere Tabellen basierend auf Bedingungen.
- MERGE INTO:
- Externe Tabellen: Tabellen, die außerhalb der Datenbank gehalten werden.
- ELT:
- EAI:
- SOA:
- ESB:
- EII:
Data Warehouse – Teil 7: Datenqualität
- Datenqualität: Grad, in dem ein Satz inhärenter Merkmale eines Datenprodukts Anforderungen erfüllt.
- CLIQ-Vorgehensmodell: data CLeansing mit Intelligentem Qualitätsmanagement.
- Schlüsseleindeutigkeit: Eindeutigkeit der Primärschlüssel einer Relation.
- Referentielle Integrität: Zu jedem Fremdschlüssel existiert ein Primärschlüssel in der referenzierten Relation und die im Schema festgelegte Kardinalität der Beziehung wird eingehalten.
- Vollständigkeit: Belegung von Attributwerten mit semantisch von NULL verschiedenen Werten.
- Genauigkeit: Attribute eines Datenproduktes liegen im optimalen Detaillierungsgrad vor.
- Zeitnähe: Attributwerte bzw. Tupel entsprechen aktuellem Stand, d.h. sind nicht veraltet.
- Redundanzfreiheit: Keine Duplikate.
- Relevanz: Grad der Übereinstimmung des Informationsgehaltes eines Datenprodukts mit den Anforderungen einer Anfrage bzw. Auswertung.
- Einheitlichkeit: Grad, zu dem ein Datenprodukt eine einheitliche Repräsentationsstruktur aufweist.
- Eindeutigkeit: Eindeutige Interpretierbarkeit eines Datenproduktes.
Data Warehouse – Teil 8: SQL-Erweiterungen zur Datenanalyse (I)
- Star Query:
- ROLLUP-Operator: Ermöglicht die Berechnung von Teilergebnissen (Subtotals) in SQL-Abfragen.
- CUBE-Operator: Erzeugt alle möglichen Kombinationen von Gruppierungen.
- GROUPING-Funktion: Unterscheidung zwischen NULL-Werten als Teilsumme und gespeicherten NULL-Werten.
- DECODE-Funktion: Funktion DECODE ermöglicht Umwandlung eines Wertes.
- Partieller ROLLUP: ROLLUP-Liste muss nicht alle Gruppierungsargumente enthalten.
Data Warehouse – Teil 9: SQL-Erweiterungen zur Datenanalyse (II)
- Fensterfunktion:
- Rangfunktion:
Data Warehouse – Teil 10: Physische Optimierung
- Partitionierung: Logische Zerlegung von Relationen.
- Fragmentierung: Bestimmung der Verteilungseinheiten.
- Allokation: Zuordnung der Fragmente zu Plattenspeichern (Rechnerknoten).
- Materialisierte Sichten: Abgespeichertes Ergebnis einer Sicht zur Beschleunigung von Anfragen.
- Aggregationsgitter: Graph, der anzeigt, welche Kombinationen von Aggregationsattributen sich (in)direkt auseinander ableiten lassen.
- Kompression: Reduzierung des Speicherbedarfs von Daten.
- Lauflängencodierung (Run-Length-Encoding, RLE): Komprimierungsverfahren, bei dem lange Sequenzen von gleichen Werten durch die Angabe des Wertes und der Anzahl der Wiederholungen ersetzt werden.
- Wörterbuchkompression (Symboltabelle): Ersetzt häufig vorkommende Werte durch kürzere Symbole.
- Spaltenorientierte Speicherung: Speicherung von Daten spaltenweise statt zeilenweise zur Effizienzsteigerung bei analytischen Abfragen.
- Bitmap-Index: Indexstruktur, die für jede Attributausprägung einen Bitvektor speichert, geeignet für Attribute mit geringer Kardinalität.
- Mehrkomponenten-Bitmap-Index: Speicherung von n*m möglichen Ausprägungen durch n+m Bitmap-Vektoren.
- Bereichscodierter Bitmap-Index: In Bitvektor zu Wert w Bit auf 1 setzen, wenn der Attributwert kleiner oder gleich w ist.
- Intervallcodierter Bitmap-Index: Jeder Bitvektor repräsentiert Wertezugehörigkeit zu bestimmtem Intervall.
- Data Packs: Zerlegung in Pakete.
- Data Pack Nodes (DPN): Metadaten.
- Knowledge Grid: DPNs bilden.
- Kompressionsfaktor: Verhältnis zwischen unkomprimierter und komprimierter Größe.
Lückentext
Lückentext zur Prüfung – Data Warehouse
Bitte füllen Sie die Lücken im folgenden Text mit den passenden Fachbegriffen aus. Am Ende finden Sie die vollständigen Lösungen. Notieren Sie sich die richtige Zuordnung der Nummern!
Teil 1: Einführung und Grundlagen
Ein __________ [1] dient als zentrales Repository, das integrierte Daten aus verschiedenen Quellen speichert und primär für __________ [2] sowie __________ [3] genutzt wird. Dabei werden interne Datenquellen wie __________ [4] verwendet, während externe Quellen unter anderem aus __________ [5] bestehen. Unterschiedliche Arten von Daten stammen aus __________ [6], die beispielsweise relationale Datenbanken, semistrukturierte Formate (z. B. XML) oder unstrukturierte Texte umfassen. Die zunächst extrahierten und transformierten Daten werden in einer __________ [7] zwischengespeichert, bevor sie im Rahmen des __________ [8] in das Data Warehouse überführt werden. Um Veränderungen in den Quellsystemen zu erkennen, kommt __________ [9] zum Einsatz, während ein __________ [10] Informationen zur Herkunft, Bedeutung, Beziehung und Qualität der Daten verwaltet. Operative Daten werden in einem __________ [11] abgelegt, und die Übertragung der Daten aus den Quellen erfolgt über die __________ [12]. Unerwünschte Datenverunreinigungen werden durch __________ [13] entfernt, ehe sie über die __________ [14] in das DWH geladen werden. In einigen Fällen wird ein __________ [15] verwendet, das bewusst gegen das Prinzip der Datenunabhängigkeit verstößt, um __________ [16] zu speichern. Abschließend können für spezifische Geschäftsbereiche __________ [17] realisiert werden, die entweder als __________ [18] (Hub and Spoke Architektur) oder als __________ [19] vorliegen.
Teil 2: Multidimensionales Modell
Im __________ [20] werden Daten zur Analyse in zwei Hauptkomponenten unterteilt: __________ [21] und __________ [22]. Ein __________ [23] visualisiert die Daten in Form eines Würfels, wobei einzelne __________ [24] die konkreten Datenpunkte darstellen. Beim Aufbau von Dimensionen kann es zu einer __________ [25] kommen, bei der auf einer Hierarchieebene mehrere Unterebenen folgen. Zudem existieren __________ [26], bei denen verzweigende Pfade später wieder zusammenlaufen, sowie __________ [27], bei denen Elemente der nächsthöheren Ebene nicht zwingend vorhanden sind. Die Möglichkeit, dass Elemente nicht eindeutig zugeordnet werden können, wird als __________ [28] bezeichnet, und wenn nicht alle Instanzen einer Hierarchieebene in den Verdichtungsprozess einfließen, spricht man von __________ [29]. Zur grafischen Darstellung solcher Modelle wird häufig die Notation __________ [30] genutzt, während der __________ [31] angibt, wie viele Zellen im Modell tatsächlich unbesetzt bleiben.
Teil 3: Anwendungen
Mit __________ [32] versucht man, in großen und komplexen Datenbeständen neue, signifikante Muster oder Trends zu entdecken. Ein spezieller Ansatz hierbei ist die __________ [33], bei der häufig auftretende Zusammenhänge zwischen Attributwerten identifiziert werden. Eine solche Regel, beispielsweise in der Form {Milch, Wurst} → {Bier}, nennt man __________ [34]. Die __________ [35] misst die relative Häufigkeit des Auftretens einer bestimmten Item-Menge in den Transaktionen, während die __________ [36] angibt, wie oft Elemente der rechten Seite in Transaktionen mit der linken Seite vorkommen. Zur Klassifikation der Systeme wird zudem das __________ [37] herangezogen.
Teil 5: Datenbank und Archiv
Zur Modellierung der Datenbankstrukturen im Data Warehouse wird häufig das __________ [38] eingesetzt, bei dem die Dimensionstabellen __________ [39] vorliegen und die Faktentabellen über Fremdschlüssel verfügen. Im Gegensatz dazu minimiert das __________ [40] Datenredundanz durch normalisierte Dimensionstabellen. Wenn mehrere Faktentabellen gemeinsame Dimensionen nutzen, spricht man vom __________ [41]. Um zeitliche Änderungen in den Dimensionen zu handhaben, werden Techniken der __________ [42] verwendet, die historische Daten bewahren, ohne diese zu überschreiben. Zur Reduzierung des Datenvolumens wird häufig ein __________ [43] eingesetzt, in dem alte oder weniger häufig benötigte Daten ausgelagert werden.
Teil 6: ETL-Prozess
Der __________ [44] beschreibt den Prozess, bei dem Daten aus unterschiedlichen Quellen extrahiert, transformiert und anschließend in das Data Warehouse __________ [45]. Die zunächst extrahierten Daten werden in einer __________ [46] zwischengespeichert. Oftmals müssen Informationen aus einzelnen Feldern __________ [47], um sie in ein __________ [48] zu überführen. Im Anschluss werden die Daten durch das __________ [49] vereinheitlicht. Im internationalen Kontext kann das __________ [50] eine besondere Herausforderung darstellen. Um doppelte Datensätze zu vermeiden, kommen Verfahren des __________ [51] zum Einsatz, während es wichtig ist, dass identische Werte in verschiedenen Quellen __________ [52] werden. Häufig erfolgt auch die __________ [53], wenn in der Quelle Einzelwerte vorhanden sind, im DWH jedoch berechnete Werte benötigt werden. Da Daten oft in zu feiner Granularität vorliegen, müssen sie zusätzlich __________ [54] werden. Ein abschließender __________ [55] stellt sicher, dass die Daten zwischen Quelle und Ziel übereinstimmen. Unterstützt wird dieser Prozess durch Operationen wie das __________ [56] und __________ [57]. Weitere Aspekte des ETL-Prozesses umfassen den Umgang mit __________ [58] (Tabellen, die außerhalb der Datenbank gehalten werden) sowie den Einsatz von __________ [59] – bei dem das Laden vor der Transformation erfolgt. Darüber hinaus kommen Integrationstechnologien wie __________ [60], __________ [61], __________ [62] und __________ [63] zum Einsatz.
Teil 7: Datenqualität
Die __________ [64] beschreibt den Grad, in dem ein Datenprodukt die gestellten Anforderungen erfüllt. Zur Sicherung der Qualität wird häufig das __________ [65] eingesetzt, das Maßnahmen wie die Überprüfung der __________ [66] und der __________ [67] beinhaltet. Weitere essenzielle Kriterien sind die __________ [68], __________ [69] und __________ [70], um sicherzustellen, dass die Daten vollständig, genau und zeitnah vorliegen. Auch die __________ [71] wird bewertet, um Dopplungen zu vermeiden, während die __________ [72] und __________ [73] gewährleisten, dass der Informationsgehalt den Anforderungen entspricht und die Daten einheitlich dargestellt werden. Abschließend ist die __________ [74] wichtig, um eine eindeutige Interpretierbarkeit zu gewährleisten.
Teil 8: SQL-Erweiterungen zur Datenanalyse (I)
Mit Hilfe der __________ [75] können Abfragen so erweitert werden, dass auch hierarchische Strukturen berücksichtigt werden. Der __________ [76] ermöglicht es, Teilergebnisse (Subtotals) in SQL-Abfragen zu berechnen, während der __________ [77] alle möglichen Gruppierungskombinationen erzeugt. Um in den Ergebnissen zwischen aggregierten NULL-Werten und echten NULL-Werten zu unterscheiden, kommt die __________ [78] zum Einsatz. Mithilfe der __________ [79] kann ein Wert in einen anderen umgewandelt werden, und ein __________ [80] erlaubt es, Teilergebnisse zu erhalten, ohne alle Gruppierungsargumente explizit anzugeben.
Teil 9: SQL-Erweiterungen zur Datenanalyse (II)
Ergänzend zu den bisherigen Erweiterungen bieten die __________ [81] die Möglichkeit, Berechnungen über einen definierten Datenbereich hinweg durchzuführen, während die __________ [82] dazu dient, Datensätze zu ordnen und zu vergleichen.
Teil 10: Physische Optimierung
Zur Steigerung der Performance wird häufig die __________ [83] eingesetzt, bei der Relationen in logische Einheiten zerlegt werden. Dieser Vorgang umfasst die __________ [84], bei der die Verteilungseinheiten bestimmt werden, sowie die __________ [85], die die Fragmente den entsprechenden Plattenspeichern (Rechnerknoten) zuordnet. Zur Beschleunigung von Abfragen werden __________ [86] verwendet, die das Ergebnis einer Sicht zwischenspeichern. Ein __________ [87] veranschaulicht grafisch, welche Kombinationen von Aggregationsattributen sich direkt oder indirekt ableiten lassen. Zur Reduktion des Speicherbedarfs kommen verschiedene Verfahren der __________ [88] zum Einsatz, beispielsweise die __________ [89], bei der lange Sequenzen gleicher Werte komprimiert werden, oder die __________ [90], die häufig vorkommende Werte durch kürzere Symbole ersetzt. Durch die __________ [91] werden Daten spaltenweise gespeichert, was analytische Abfragen effizienter macht. Weiterhin wird der __________ [92] eingesetzt, der für jede Attributausprägung einen Bitvektor speichert, sowie der __________ [93], der n*m mögliche Ausprägungen durch n+m Bitvektoren abbildet. Mit dem __________ [94] wird in einem Bitvektor für einen bestimmten Schwellenwert das Bit gesetzt, wenn der Attributwert kleiner oder gleich diesem Wert ist, während der __________ [95] jedem Bitvektor ein festgelegtes Werteintervall zuordnet. Daten werden zudem in __________ [96] organisiert, wobei __________ [97] die zugehörigen Metadaten darstellen und ein __________ [98] bei der Bildung dieser Strukturen unterstützt. Abschließend beschreibt der __________ [99] das Verhältnis zwischen unkomprimierter und komprimierter Datengröße.
Lösungen
-
Data Warehouse (DWH)
-
Analyse-
-
Berichtszwecke
-
ERP- bzw. CRM-Systeme
-
Web, Demographische Daten, Social Media
-
heterogene Datenquellen
-
Staging Area
-
Integrationsprozess (ETL-Prozess)
-
Monitoring
-
Metadaten-Repository
-
Operational Data Store (ODS)
-
Extraktionskomponente
-
Datenbereinigung (Data Cleansing)
-
Ladekomponente
-
analyse-orientiertes Schema
-
historisierte Daten
-
Data Marts
-
abhängige Data Marts
-
unabhängige Data Marts
-
multidimensionales Modell
-
Fakten
-
Dimensionen
-
(Hyper-)Würfel
-
Zellen
-
Mehrfach-Hierarchie
-
alternative Verdichtungspfade
-
unbalancierte Hierarchie
-
anteilige Verrechnung
-
nicht-vollständige Verdichtung
-
mUML
-
Sparsity-Faktor
-
Data Mining
-
Assoziationsanalyse
-
Assoziationsregel
-
Support
-
Konfidenz
-
BI Maturity Model (biMM)
-
Sternschema
-
denormalisiert
-
Schneeflockenschema
-
Multi Star Schema/Galaxy Schema
-
langsam veränderliche Dimensionen (Slowly Changing Dimensions, SCD)
-
Archiv
-
ETL (Extraktion, Transformation, Laden)
-
geladen
-
Data Staging Area
-
Felder separieren oder zusammenfassen
-
einheitliches Format (Formatieren)
-
Konvertieren
-
Matching und Deduplizieren
-
Codierungen vereinheitlichen
-
Berechnung abgeleiteter Werte
-
Daten aggregieren
-
Abgleich (Reconciliation)
-
Erweitertes INSERT
-
MERGE INTO
-
Externe Tabellen
-
ELT
-
EAI
-
SOA
-
ESB
-
EII
-
(Übersprungene Nummerierung – bitte beachten Sie, dass die folgenden Nummern ab 64 fortgeführt werden.)
-
Datenqualität
-
CLIQ-Vorgehensmodell
-
Schlüsseleindeutigkeit
-
Referentielle Integrität
-
Vollständigkeit
-
Genauigkeit
-
Zeitnähe
-
Redundanzfreiheit
-
Relevanz
-
Einheitlichkeit
-
Eindeutigkeit
-
Star Query
-
ROLLUP-Operator
-
CUBE-Operator
-
GROUPING-Funktion
-
DECODE-Funktion
-
Partieller ROLLUP
-
Fensterfunktion
-
Rangfunktion
-
Partitionierung
-
Fragmentierung
-
Allokation
-
Materialisierte Sichten
-
Aggregationsgitter
-
Kompression
-
Lauflängencodierung (Run-Length-Encoding, RLE)
-
Wörterbuchkompression (Symboltabelle)
-
Spaltenorientierte Speicherung
-
Bitmap-Index
-
Mehrkomponenten-Bitmap-Index
-
Bereichscodierter Bitmap-Index
-
Intervallcodierter Bitmap-Index
-
Data Packs
-
Data Pack Nodes (DPN)
-
Knowledge Grid
-
Kompressionsfaktor