Aggregationsfunktion

Aggregation (auch Konsolidierung oder Verdichtung) bezeichnet, im Zusammenhang mit der Verwaltung großer Datenmengen in einem Data-Warehouse, das Zusammenfassen einer Reihe von Fakten zu einem einzelnen Fakt. Beispielsweise lassen sich aus einer Menge von Zahlen der Mittelwert, das Minimum bzw. Maximum oder die Summe bestimmen. Solche Funktionen, die einer Menge von Zahlen einen einzelnen Wert zuordnen, nennt man Aggregationsfunktionen (oder Zusammenfassungsfunktionen). Das Ergebnis wird dann stellvertretend für die Quelldaten verwendet. Der umgekehrte Weg wird als Verfeinerung bezeichnet.

Aggregation und Verfeinerung sind Operationen des Online Analytical Processing (OLAP). Sie bilden einen Cube auf einen kleineren (Aggregation) oder größeren (Verfeinerung) Cube ab. Die Operationen finden entlang von Klassifikationspfaden statt und verändern somit die Klassifikationsstufen (auch: Konsolidierungsebenen) der einzelnen Dimensionen.

Die entsprechenden Operationen in einem DBMS werden auch als „Roll up“ und „Roll/Drill down“ bezeichnet. Eine einfache Aggregation ist in SQL mittels GROUP BY möglich.

Einige Multidimensionale Datenbanken verwenden eine memory-basierte Analyse. Sie ermöglichen durch die hohe Performance des Speichermediums und der begrenzten Datenmenge Aggregationen zum Zeitpunkt der Abfrage (Berechnung on-the-fly).

Inhaltsverzeichnis

Beispiel

Ein Data-Warehouse enthält als einzelne Fakten Verkäufe nach Datum, Branche und Geschäft. Die Datumsdimension enthält einen Klassifikationspfad mit den Klassifikationsstufen Tag-Monat-Jahr-TOP. Durch Aggregation entlang dieses Pfades lässt sich bei Verwendung der Summenfunktion beispielsweise die Anzahl der Verkäufe nach Jahr, Branche und Geschäft ermitteln. Bei Aggregation auf die oberste Klassifikationsstufe TOP fällt die Datumsdimension zusammen; der Ergebniscube enthält die Gesamtanzahl der Verkäufe aller Zeiten nach Branche und Geschäft. Die Anwendung von Aggregat-Funktionen und ggfs. weiterer arithmetischer Operationen zur Ermittlung einer einzigen Zahl nennt man auch die Ermittlung einer Kennzahl oder eines Key Performance Indicators (KPI).

Aggregatfunktionen

Die bei einer Aggregation verwendeten Funktionen lassen sich unterteilen in

  • Distributive Funktionen: Summe, Anzahl, Maximum, Minimum...
  • Algebraische Funktionen: Mittelwert, Standardabweichung, Top-N...
  • Holistische Funktionen: Median, Rang, Percentile...

Distributive und algebraische Aggregatfunktion können aus einem oder einer festen Menge von Fakten aus tiefer liegenden Klassifikationsstufen berechnet werden, während bei holistischen Aggregatfunktionen auf die Grundgesamtheit aller Fakten zurückgegriffen werden muss.


Aggregierbarkeit

Anforderungen an die Dimensionen

  • Überlappungsfreiheit der Zuordnung von Klassifikationsknoten. Beispiel: die Fachrichtung eines Studenten ist nicht überlappungsfrei, denn man kann nicht ausschließen, dass ein Student für mehrere Fachrichtungen eingeschrieben ist.
  • Vollständigkeit der Zerlegung pro Klassifikationsstufe. Beispiele: Die Postleitzahl vom Hauptwohnsitz eines Einwohners ist nicht vollständig, denn es gibt auch Einwohner, die keinen festen Wohnsitz haben. Sie erfordern die Erweiterung der Dimension um eine null-Ausprägung oder eine 'sonstige'-Ausprägung.
  • Typverträglichkeit von Fakt und Aggregatfunktion. Beispiel: für Durchschnittswerte ist eine nochmalige Durchschnittsbildung auf einer höheren Aggregationsebene nicht möglich.


Datentypen der Fakten

  • voll aggregierbar sind alle Fakten, die einen Fluss eines Gutes in einer bestimmten Zeiteinheit quantitativ beschreiben. Hier sind alle Aggregat-Funktionen sinnvoll einsetzbar. Beispiele: Umsatz, Kosten, Stromverbrauch, Warenausgang.
  • teilaggregierbar sind alle Fakten, bei denen einige Aggregat-Funktionen nicht oder nur eingeschränkt eingesetzt werden können. Das sind 1. alle Fakten vom Typ Stück oder Bestand. Sie beschreiben eine vorhandene Menge zu einem bestimmten Zeitpunkt. Beispiel: Anzahl der Einwohner, Hochwasserpegel, Kontostand. Diese Fakten können nicht über die Zeit-Dimension summiert werden. Über andere Dimensionen, die den Bezug zum selben Zeitpunkt erhalten, können sie schon summiert werden. 2. gibt es noch weitere Gründe, die die Anwendung einiger Aggregat-Funktionen einschränken. Beispiele: Schulnoten, Datums-Angaben, Durchschnittswerte. Hier sind Summierung grundsätzlich nicht sinnvoll oder überhaupt nicht definiert. Die meisten anderen Aggregat-Funktionen können schon angewendet werden.
  • nicht aggregierbar sind alle Fakten, bei denen überhaupt keine Aggregatfunktionen sinnvoll eingesetzt werden können. Beispiel: Warengruppen, Postleitzahlen, Kontonummern, Nachnamen. Wenn für den Datentyp keine Ordnung (Sortierbarkeit) definiert ist, dann sind noch nicht einmal die Funktionen Maximum und Minimum anwendbar.

Dimensionshierarchie und Aggregationspfade

Dimensionen lassen sich oft als Hierarchien gliedern.

Wenn jeder Knoten funktional abhängig ist von seinen Vorgängern, dann kann sich ein linearer Aggregationspfad ergeben. Beispiel:

Tag --- Monat --- Quartal --- Jahr

Es kann vorkommen, dass in einer Dimension unterschiedliche Aggregationspfade möglich sind. Beispiel:

Tag --- Woche --- Jahr
Tag --- Monat --- Jahr

Es gibt zwei verschiedene Aggregationspfade, um vom Tag zum Jahr zu führen. Beide liefern dasselbe Ergebnis. Von der Woche kann man jedoch nicht zum Monat gelangen und auch umgekehrt nicht.


Siehe auch

Literatur

  • Lenz und Shoshani: Summarizability in OLAP and Statistical Databases. SSDBM, 1997

Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Bestandesvariable — Generell werden in Berichtssystemen Kennzahlen in zwei Typen eingeteilt: Flussgrößen und Bestandsgrößen. Bestandsgrößen werden nicht periodenbezogen, sondern zeitpunktbezogen ( Stichtag ) berichtet (Angaben über eine Periode werden auch zu einem… …   Deutsch Wikipedia

  • Bestandsgrösse — Generell werden in Berichtssystemen Kennzahlen in zwei Typen eingeteilt: Flussgrößen und Bestandsgrößen. Bestandsgrößen werden nicht periodenbezogen, sondern zeitpunktbezogen ( Stichtag ) berichtet (Angaben über eine Periode werden auch zu einem… …   Deutsch Wikipedia

  • Flussgrösse — Eine Stromgröße, Flussgröße oder Bewegungsgröße bezeichnet eine zeitraumbezogene Größe in wirtschaftlichen Berichtssystemen. Der Begriff steht im Gegensatz zu dem Begriff Bestandsgröße, der eine zeitpunktbezogene Größe bezeichnet. Stromgrößen… …   Deutsch Wikipedia

  • Flussgröße — Eine Stromgröße, Flussgröße oder Bewegungsgröße bezeichnet eine zeitraumbezogene Größe in wirtschaftlichen Berichtssystemen. Der Begriff steht im Gegensatz zu dem Begriff Bestandsgröße, der eine zeitpunktbezogene Größe bezeichnet. Stromgrößen… …   Deutsch Wikipedia

  • Pivot-Tabelle — Pivot Tabellen (Pivot franz. ‚Dreh , Angelpunkt; auch PivotTable Berichte) bieten eine Möglichkeit, Daten einer Tabelle in verschiedener Art darzustellen und auszuwerten, ohne die Ausgangsdaten bzw. tabelle(n) dabei ändern zu müssen.[1] Eine… …   Deutsch Wikipedia

  • Pivottabelle — Moderne Tabellenkalkulationen besitzen eine spezielle Funktion, mit der eine Menge gleichartiger Datensätze in Gruppen zusammengefasst werden kann und die als Ergebnis eine Tabelle darstellt, die Pivot Tabelle (oder PivotTable Bericht) heißt.… …   Deutsch Wikipedia

  • SQL-92 — SQL (das Kürzel für Structured Query Language; offizielle Aussprache [ɛskjuːˈɛl], häufig auch [ˈsiːkwəl] →SEQUEL), ist eine Datenbanksprache zur Definition, Abfrage und Manipulation von Daten in relationalen Datenbanken. SQL ist von ANSI und ISO… …   Deutsch Wikipedia

  • SQL-99 — SQL (das Kürzel für Structured Query Language; offizielle Aussprache [ɛskjuːˈɛl], häufig auch [ˈsiːkwəl] →SEQUEL), ist eine Datenbanksprache zur Definition, Abfrage und Manipulation von Daten in relationalen Datenbanken. SQL ist von ANSI und ISO… …   Deutsch Wikipedia

  • Stromgrösse — Eine Stromgröße, Flussgröße oder Bewegungsgröße bezeichnet eine zeitraumbezogene Größe in wirtschaftlichen Berichtssystemen. Der Begriff steht im Gegensatz zu dem Begriff Bestandsgröße, der eine zeitpunktbezogene Größe bezeichnet. Stromgrößen… …   Deutsch Wikipedia

  • Stromvariable — Eine Stromgröße, Flussgröße oder Bewegungsgröße bezeichnet eine zeitraumbezogene Größe in wirtschaftlichen Berichtssystemen. Der Begriff steht im Gegensatz zu dem Begriff Bestandsgröße, der eine zeitpunktbezogene Größe bezeichnet. Stromgrößen… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”