Information Warehouse


Information Warehouse

Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Betriebswirtschaft. Ein Data-Warehouse dient der Informationsintegration.

Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde:

  1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
  2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data-Warehouse z. B. für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.

Das Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data-Warehouse geladen zu werden (ETL-Prozess) Prozess kann turnusgemäß durchgeführt werden, so dass im Data-Warehouse nicht nur Daten nach inhaltlichen Aspekten, sondern auch nach dem Aspekt Zeit – also langfristig – vorgehalten werden, was auch Analysen über die Zeit ermöglicht.

In den letzten Jahren hat sich mehr und mehr die Abkehr von turnusmäßiger Beladung hin zum Real-Time-Data-Warehousing vollzogen. Manche Branchen, wie die Telekommunikationsindustrie und der Einzelhandel, hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen.

Inhaltsverzeichnis

Definition

Es gibt derzeit keine einheitliche Definition für den Begriff Data-Warehouse. Weitgehend einig ist man sich in Folgendem:

  • Ein Data-Warehouse ermöglicht eine globale Sicht auf heterogene und verteilte Datenbestände, indem die für die globale Sicht relevanten Daten aus den Datenquellen zu einem gemeinsamen konsistenten Datenbestand zusammengeführt werden.
  • Somit entsteht der Inhalt eines Data-Warehouse durch Kopieren und Aufbereiten von Daten aus unterschiedlichen Quellen.
  • Meist ist ein Data-Warehouse die Basis für die Aggregation von betrieblichen Kennzahlen und Analysen innerhalb mehrdimensionaler Matrizen (OLAP-Cube), dem sogenannten Online Analytical Processing (OLAP).
  • Ein Data-Warehouse ist häufig Ausgangsbasis für Data Mining (auch Datenschürfung).
  • In der Regel arbeiten die Anwendungen mit anwendungsspezifisch erstellten Auszügen aus dem Data-Warehouse, den sogenannten Data-Marts.

Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data-Warehouses sowie im Umfang und Umgang mit den Daten im Data-Warehouse.

  • Das Spektrum der Definitionen beginnt mit der restriktiven Sicht von Inmon:
    „Ein Data-Warehouse ist eine themenorientierte, integrierte, chronologisierte und persistente Sammlung von Daten, um das Management bei seinen Entscheidungsprozessen zu unterstützen.“
    Im Original: „A data warehouse is a subject-oriented, integrated, time-variant, nonvolatile collection of data in support of management’s decision-making process.“ (Lit.: Inmon (1996), S. 33)
    Die Definition nach Inmon kann wie folgt interpretiert werden:
    • subject-oriented (Themenorientierung): Die Auswahl der in das Data-Warehouse zu übernehmenden Daten geschieht nach bestimmten Datenobjekten (Produkt, Kunde, Firma, …), die für die Analysen von Kennzahlen für Entscheidungsprozesse relevant sind, nicht hingegen nach operativen Prozessen
    • integrated (Vereinheitlichung): Im Data-Warehouse werden die in verschiedenen (operativen) Quellsystemen in meist heterogenen Strukturen vorliegenden ausgewählten Daten in vereinheitlichter Form gehalten.
    • time-variant (Zeitorientierung): Analysen über zeitliche Veränderungen und Entwicklungen sollen im Data-Warehouse ermöglicht werden; daher ist die langfristige Speicherung der Daten im Data-Warehouse nötig (Einführung der Dimension „Zeit“).
    • nonvolatile (Beständigkeit): Daten werden dauerhaft (nicht-flüchtig) gespeichert.
  • Die folgende Definitionen von Bauer und Günzel wie auch die von Kimball sind weniger restriktiv, sind aber auf einen speziellen Zweck, die Analysefunktion, ausgerichtet:
    „Ein Data-Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf (beliebige) Daten darstellt, um Analysen zu ermöglichen.“ (Lit.: Bauer)
    „A data warehouse is a copy of transaction data specifically structured for querying and reporting.“ (Lit.: Kimball)
  • Das Spektrum der Definitionen endet bei der Definition von Zeh, die ohne Restriktionen an Umfang und Umgang der Daten sowie ohne Zweckbestimmung ist:
    „Ein Data-Warehouse ist ein physischer Datenbestand, der eine integrierte Sicht auf die zugrundeliegenden Datenquellen ermöglicht.“ (Lit.: Zeh)

Die Einschränkung „physisch“ ist notwendig, um das Data-Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.

Geschichte des Begriffs

Der Data-Warehouse-Begriff wurde Mitte der 1980er Jahre bei IBM geprägt und mit „information warehouse“ bezeichnet. Der Terminus „data warehouse“ wurde erstmals 1988 von Devlin verwendet. In jüngerer Zeit werden Data-Warehouse-Systeme auch als Business-Warehouse-Systeme (z. B. SAP) oder als Business-Intelligence-Systeme (Auswertungsorientierte Sicht) bezeichnet, wodurch die geschäftliche Bedeutung derartiger Systeme betont werden soll. Mittlerweile wird auch die Bezeichnung Datenlager in der deutschen Literatur verwendet.

Betrieb eines Data-Warehouse (Data-Warehousing)

Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data-Warehouses wird auch als Data-Warehousing bezeichnet. Zum Data-Warehousing gehören:

  • Datenbeschaffung, Datenintegration (Staging) und Weiterverarbeitung im ETL-Prozess
  • Datenhaltung, das heißt die langfristige Speicherung der Daten im Data-Warehouse (siehe auch Langzeitarchivierung)
  • Versorgung und Datenhaltung der für die Analyse notwendigen separaten Datenbestände, den Data-Marts
  • Datenauswertung und -analyse.

In den Data Marts werden die Daten häufig als mehrdimensionale Matrizen im sogenannten Sternschema oder in verwandten Datenschemata wie Schneeflocken- und Galaxy-Schema abgelegt. Denkbar sind auch Mischformen wie das Sternflocken- bzw. Starflakeschema, die Vorteile aus den vorgenannten Modellen vereinen.

Data-Warehouse-Anwendungen

Ausschnitt aus dem Data-Warehouse-System
  • Integration von Daten aus unterschiedlich strukturierten und verteilten Datenbeständen, um eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen
  • Ermittlung verborgener Zusammenhänge zwischen Daten durch Data Mining
  • Schnelle und flexible Verfügbarkeit von Berichten, Statistiken und Kennzahlen, um z. B. Zusammenhänge zwischen Markt und Leistungsangebot erkennen zu können
  • Umfassende Information über Geschäftsobjekte und Zusammenhänge
  • Transparenz im Zeitablauf zu Geschäftsprozessen, Kosten und Ressourceneinsatz
  • Informationsbereitstellung z. B. für die Erstellung von Produktkatalogen.

Risiken

Die 59. Konferenz der Datenschutzbeauftragten des Bundes und der Länder vom 14./15. März 2000 weist in ihrer Entschließung zum Thema Data-Warehouse, Data Mining und Datenschutz auf das rechtliche Risiko hin, das mit diesen Verfahren verbunden ist. Insbesondere ist das Grundrecht auf informationelle Selbstbestimmung und für den Schutz der Privatheit in Gefahr. Grund ist die Möglichkeit der genannten Verfahren, personenbezogene Daten über ihre Zweckbindung hinaus zu speichern und zu nutzen, was unter bestimmten Umständen rechtswidrig ist. Als Empfehlung gilt, auf Techniken zu setzen, die eine anonymisierte oder pseudonymisierte Form der ursprünglich personenbezogenen Form der Daten verwenden.

Siehe auch

Literatur

  • Gunnar Auth: Prozessorientierte Organisation des Metadatenmanagements für Data-Warehouse-Systeme, Books on Demand, ISBN 3-8334-1926-1
  • Andreas Bauer, Holger Günzel: Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung, dpunkt, 2008, ISBN 3-89864-540-1
  • Barry Devlin: Data Warehouse. From Architecture to Implementation., Addison-Wesley, ISBN 0-201-96425-2
  • J. Marx Gómez, C. Rautenstrauch, P. Cissek, B. Grahlher: Einführung in SAP Business Information Warehouse. Springer, Berlin, März 2006, ISBN 3-540-31124-6
  • Jan Holthuis: Der Aufbau von Warehouse-Systemen, Konzept – Datenmodellierung – Vorgehen, Deutscher-Universitäts-Verlag, ISBN 3-8244-6959-6
  • William H. Inmon, Richard D. Hackathorn: Using the Data Warehouse, John Wiley & Sons, ISBN 0-471-05966-8
  • Reinhard Jung, Robert Winter: Data Warehousing Strategie, Springer, ISBN 3-540-67308-3
  • H.-G. Kemper, W. Mehanna, C. Unger: Business Intelligence – Grundlagen und praktische Anwendung,Vieweg, ISBN 3-528-05802-1
  • Ralph Kimball, Mary Ross: The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling., John Wiley & Sons, ISBN 0-471-20024-7
  • Wolfgang Lehner: Datenbanktechnologie für Data-Warehouse-Systeme. Konzepte und Methoden., dpunkt, ISBN 3-89864-177-5
  • Markus Lusti: Data Warehousing and Data Mining: Eine Einführung in entscheidungsunterstützende Systeme, Springer, ISBN 3-540-42677-9
  • Eitel von Maur, Robert Winter: Data Warehouse Management: Das St. Galler Konzept zur ganzheitlichen Gestaltung der Informationslogistik. Metadaten, Datenqualität, Datenschutz, Datensicherheit, Springer, ISBN 3-540-00585-4
  • Eitel von Maur, Robert Winter: Vom Data Warehouse zum Corporate Knowledge Center, Physica-Verlag, ISBN 3-7908-1536-5
  • Christian Mehrwald: Datawarehousing mit SAP BW 3.5 – Architektur, Implementierung, Optimierung, dpunkt, 2008, ISBN 3-89864-331-X
  • Heiko D. Schinzer, Carsten Bange, Holger Mertens: Data Warehouse und Data Mining: Marktführende Produkte im Vergleich, Vahlen, ISBN 3-8006-2466-4
  • Reinhard Schütte: Data Warehouse Managementhandbuch: Konzepte, Software, Erfahrungen, Springer, ISBN 3-540-67561-2
  • Alex Schweizer: Data Mining, Data Warehousing. Datenschutzrechtliche Orientierungshilfen für Privatunternehmen., Orell Füssli, ISBN 3-280-02540-0
  • J.-H. Wieken: Der Weg zum Data Warehouse,Addison-Wesley, ISBN 978-3-8273-1560-1
  • Caroline Wilmes, Helmut M. Dietl, Remco van der Velden: Die strategische Ressource „Data Warehouse“: Eine ressourcentheoretisch empirische Analyse, Deutscher Universitätsverlag, ISBN 3-8244-8046-8
  • Katharina Wirtz: Der Data-Warehouse-Rahmenplan: Entwicklung eines konzeptionellen Schemas, Deutscher Universitätsverlag, ISBN 3-8244-7621-5
  • Thomas Zeh: Data Warehousing als Organisationskonzept des Datenmanagements. Eine kritische Betrachtung der Data-Warehouse-Definition von Inmon. In: Informatik. Forschung und Entwicklung., Band 18, Heft 1, Aug. 2003

Weblinks


Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Information-Warehouse — Ein Data Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen in das Data Warehouse geladen und dort vor allem …   Deutsch Wikipedia

  • information warehouse —    A central repository containing a company s current and historical data in a form that can be accessed quickly and easily by users to aid in their business decision making. IBM has a large number of products for building fully automated… …   Dictionary of networking

  • Information Warehouse —    Collection of all databases in an enterprise across all platforms and departments …   IT glossary of terms, acronyms and abbreviations

  • Business Information Warehouse — (kurz BW) bzw. Geschäftsinformationslager ist die Data Warehouse Anwendung (kurz DW) der SAP AG und Teil von SAP NetWeaver. BW besteht unter anderem aus Komponenten zum Datenmanagement (Administrator Workbench), zur Definition von… …   Deutsch Wikipedia

  • SAP Business Information Warehouse — BY SAP AG (SAP BW) is the name of the Business Intelligence, analytical, reporting and Data Warehousing (DW) solution which is one of the major enterprise software applications produced by SAP AG. It was originally named SAP BIW, (Business… …   Wikipedia

  • SAP Business Information Warehouse — (SAP BW) est le nom d une solution d informatique décisionnelle (business intelligence), d analyse et de reporting pour l entreprise, édité par SAP AG. Aujourd hui, son nom a légèrement changé pour devenir SAP Netweaver BI. Il contient un outil… …   Wikipédia en Français

  • Employment Services Information Warehouse — The ESIW or Employment Services Information Warehouse or Warehouse acts as a community driven pilot project funded by Service Canada. It is a free centralized, coordinated and accessible resource for the unemployed in the City of Toronto.… …   Wikipedia

  • Trade Information Warehouse — The Trade Information Warehouse is a service offering of the Depository Trust Clearing Corporation s Deriv/SER, and is described by DTCC as a centralized and secure global infrastructure for processing over the counter (OTC) derivatives over… …   Wikipedia

  • Warehouse 13 — Logo original de la série Titre original Warehouse 13 Autres titres francophones L Entrepôt 13 (Québec) …   Wikipédia en Français

  • Warehouse control system — A warehouse control system (WCS) is a software application that directs the real time activities within warehouses and distribution centers. As the “traffic cop” for the warehouse/distribution center, the WCS is responsible for keeping everything …   Wikipedia