Content-Addressable Storage

Content-Addressable Storage

Content Addressed Storage (CAS) ist ein spezielles Speicherverfahren auf Festplatten, das einen direkten Zugriff auf einzelne Objekte ermöglicht und gleichzeitig die Unveränderbarkeit der gespeicherten Information sicherstellt. Mit dem Content-Addressed-Storage-System wird auf gespeicherte Information nicht über ihre Lage auf dem physikalischen Medium, sondern über den Inhalt der Information zugegriffen. Genutzt wird es üblicherweise für Highspeed-Speicherungen und Abfragen von statischem Inhalt. Dieser „Fixed Content“ (unveränderbarer Inhalt) bezieht sich auf Daten, welche einmal geschrieben und danach nicht mehr verändert werden, z. B. Geschäftsdokumente, Belege, Abrechnungsdaten usw. in elektronischer Form. Mögliche Einsatzgebiete für CAS-Systeme zur elektronischen Archivierung sind Medien, Gesundheits- oder Finanzwesen. Eine unveränderbare Speicherung ist häufig auf Grund von Gesetzen und Verordnungen (z. B. GDPdU, GoBS, HGB u. a.) oder anderen Vorschriften (z. B. GxP, FDA u. a.) gefordert. Man spricht in diesem Zusammenhang auch von revisionssicherer Archivierung.

Inhaltsverzeichnis

Funktionsweise

Das erste kommerziell verfügbare CAS-System, die EMC's Centera Plattform, ist kennzeichnend für eine CAS-Lösung. Sie wurde speziell dazu entwickelt, unveränderbar digitale Daten und Langzeit-Informationen auf schnellen Festplatten aufzubewahren. Hierfür kamen bis dahin nur digital optische Speicherplatten (WORM) zum Einsatz. Die CAS-Technik unterstützt den Online-Zugriff mit gesicherter inhaltlicher Authentizität und einer Skalierbarkeit im Petabyte-Bereich. Das System besteht aus einer Reihe von Netzwerkknoten, die in Speicher- und Zugangsknoten unterschieden werden. Die Zugangsknoten enthalten ein synchronisiertes Verzeichnis von Inhaltsadressen und dem dazugehörigen Speicherknoten, in dem jede Adresse gefunden werden kann. Wenn ein neues Datenelement oder Blob (Binary Large Object) hinzugefügt wird, berechnet die Speichereinheit den Inhalts-Hash und gibt diesen als Inhaltsadresse des Datenelements zurück. Der gebildete Hash-Wert dient zur Überprüfung, dass ein identischer Inhalt nicht ein zweites Mal gespeichert wird. Tritt der gleiche Wert auf, wird die zweite Datei verworfen und auf die erste Originaldatei referenziert. Neue Datensätze werden nach der Prüfung zu einem Speicherknoten weitergeleitet und auf das physikalische Medium geschrieben.

Wenn eine Inhaltsadresse der Einheit im Rahmen eines Zugriffs bereitgestellt wird, wird erst das Verzeichnis für die physikalische Speicherstelle der Inhaltsadresse abgefragt. Diese Information erhält man von einem Speicherknoten. Nun wird der Daten-Hash neu berechnet und verifiziert. Wenn dies abgeschlossen ist, kann die Einheit diese abgefragten Daten dem Client übermitteln. In dem CAS-System repräsentiert jede Inhalts-Adresse eine Anzahl von bestimmten Datensätzen/Blobs, sowie möglichen Metadaten. Immer wenn ein Klient einen zusätzlichen Datensatz/Blob an einen bereits existierenden Inhalts-Block hinzufügt, wird das System die Inhalts-Adresse neu berechnen.

Eine andere typische Implementierung ist iTernity. Das Konzept von iTernity basiert auf Containern, jeder Container wird durch seinen Hashwert adressiert. Jeder Container beinhaltet mehrere unveränderbare Dokumente, so dass der einzelne Container nicht veränderbar ist und die Hashwerte nach dem Erzeugen eines Containers unveränderbar sind.

Neben dem CAS-Verfahren von EMC gibt es noch ähnliche Verfahren anderer Festplattenanbieter, die den gleichen Effekt - Unveränderbarkeit der archivierten Information - mit anderen technologischen Ansätzen erreichen. Hierzu gehören z. B. IBM, NetApp, FAST LTA Hitachi und HP. Eine open source CAS+ Implementierung wurde unter dem Namen Twisted Storage[1] veröffentlicht.

Unterschied zu herkömmlichen Speichertechnologien

Gegenüber dem Content-Addressed-Storage steht unter anderem das Direct Attached Storage - DAS und das Storage Area Network SAN. Bei dieser Speicherverwaltung ist die Position jedes Datenelement auf dem physischen Medium für den späteren Gebrauch aufgenommen. Eine zukünftige Nachfrage nach einem bestimmten Objekt enthält nur die Adresse (zum Beispiel Pfad und Dateinamen) der Daten. Die Speichereinheit kann dann diese Information nutzen, um die Daten auf dem physischen Medium zu lokalisieren und abzurufen. Wenn neue Informationen auf den Datenträger geschrieben werden, werden diese einfach nur auf freiem Speicherplatz abgelegt, ohne auf dessen Inhalt zu achten.

CAS-Lösungen kamen erstmals 2004 auf dem Markt und verdrängen seit dem WORM-Speicher und Jukeboxen als Archivsysteme.

Hash-Funktion

Um eine Zuordnung zwischen Inhalt und Speicherplatz machen zu können kommen Hash-Funktion zum Einsatz. Die Centera setzt dabei auf den 128 Bit langen MD5 Algorithmus, während iTernity den SHA in der 512 Bit Variante verwendet. Da der MD5 Algorithmus seit 2004 als geknackt gilt, verwendet Caringo einen Algorithmus zur dynamischen Hash Aktualisierung, über deren genaue Funktionalität sich der Hersteller jedoch ausschweigt.

Stärken und Schwächen

CAS arbeitet effizient mit einem Datenbestand, der sich selten ändert. Ziel ist, die Suche nach einem bestimmten Dokumenteninhalt zu beschleunigen und sicherzustellen, dass das gefundene Dokument auch identisch mit dem gespeicherten Original ist. Zusätzlich wird gewährleistet, dass ein Datensatz in einem CAS-System entsprechend seinem Inhalt gespeichert wird. Somit kann es nicht vorkommen, dass zwei identische Datensätze auf dem Speichermedium abgelegt werden (nach dem CAS-Allozierungsverfahren hätten zwei identische Dokumente die gleiche Inhalts-Adresse und damit dieselbe Speicherposition).

Traditionelle Plattenspeichersysteme eignen sich für die Speicherung von Daten im Volumen zehn bis hundert Terabyte. Sie sind jedoch nicht in der Lage, größere Mengen an Fixed Content - und das können Hunderte von Terabyte bis Petabyte sein - effizient zu verwalten und zu skalieren. Eine zusätzliche Herausforderung an das Speichersystem ist die Balance zwischen Datensicherung und Kapazitätenplanung einerseits sowie langfristig gesicherte Authentizität andererseits.

Für Daten, die sich häufig ändern, erreicht das CAS-System weniger Effizienz als die herkömmliche, den Speicherort adressierende Technologie. In solchen Fällen müsste das CAS-System für alle geänderten Datensätze deren Adressposition neu errechnen. Das Verwaltungssystem für die gespeicherten Objekte wäre somit dazu gezwungen, permanent seine Informationen, wo sich das Dokument nun befindet, zu erneuern.

Ein wirtschaftlicher Einsatz der CAS-Systeme ist immer dort gegeben, wo sehr große Dokumentenmengen mit hohen Zugriffsraten zusammentreffen und kurze Antwortzeiten gefordert werden. Für kleine Informationsmengen rechnen sich CAS-Systeme häufig nicht. Anders als Datenbanken und Fileserver, bei denen Änderungen konstant durchgeführt werden, liegt der Wert des Fixed Content in der Kombination aus erweiterter Nutzbarkeit, Authentizität und Langlebigkeit.

Fixed Content

Derzeit wird davon ausgegangen, dass 80% aller gespeicherten Daten sich nicht ändern. Da es sich um fertig gestellte Dokumente handelt oder bei einer Änderung eine Kopie des ursprünglichen Dokuments erhalten bleiben muss. Man spricht in diesem Zusammenhang von Fixed Content. Weshalb sich der Einsatz von CAS-Systemen für alle Fixed Content Daten lohnt.

Standard

Mit XAM wollen einige der CAS Hersteller einen Standard für die Ansteuerung von CAS Systemen entwickeln.[2]

Einzelnachweise

  1. http://twistedstorage.sourceforge.net
  2. http://www.snia.org/forums/xam/

Literatur

Siehe auch


Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Content-addressable storage — Content addressable storage, also referred to as associative storage or abbreviated CAS, is a mechanism for storing information that can be retrieved based on its content, not its storage location. It is typically used for high speed storage and… …   Wikipedia

  • Content-addressable storage — …   Википедия

  • Content-addressable memory — (CAM) is a special type of computer memory used in certain very high speed searching applications. It is also known as associative memory, associative storage, or associative array, although the last term is more often used for a programming data …   Wikipedia

  • Content Addressable File Store — The Content Addressable File Store (CAFS) was a hardware device developed by International Computers Limited (ICL) that provided a disk storage with built in search capability. The motivation for the device was the discrepancy between the high… …   Wikipedia

  • Content addressable network — The Content Addressable Network (CAN) is a distributed, decentralized P2P infrastructure that provides hash table functionality on an Internet like scale. CAN was one of the original four distributed hash table proposals, introduced concurrently… …   Wikipedia

  • Content addressable memory — Mémoire adressable par contenu Pour les articles homonymes, voir CAM. La mémoire adressable par contenu (CAM, en anglais Content Addressable Memory) est un type de mémoire informatique spécial utilisé dans certaines applications de recherche à… …   Wikipédia en Français

  • Computer data storage — 1 GB of SDRAM mounted in a personal computer. An example of primary storage …   Wikipedia

  • associative storage — noun (computing) A storage device in which information is identified by content rather than by address • • • Main Entry: ↑associate * * * associative memory or associative storage, a computer memory whose data locations are made accessible by its …   Useful english dictionary

  • Extensible Storage Engine — For JET Red storage engine of Microsoft Access, see Microsoft Jet Database Engine. For the teacher s term, Exceptional education. Extensible Storage Engine (ESE), also known as JET Blue, is an Indexed Sequential Access Method (ISAM) data storage… …   Wikipedia

  • EMC Corporation — Infobox Company company name = EMC Corporation company company type = Public (nyse|EMC) company slogan = Where Information Lives foundation = 1979 location city = Hopkinton, Massachusetts location country = USA locations = >100 key people =… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”