Duplikaterkennung

Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen oder bei der Datenbereinigung notwendig.

Duplikate können beispielsweise durch Eingabe- und Übertragungsfehler, wegen verschiedener Schreibweisen und Abkürzungen oder aufgrund unterschiedlicher Datenschemata entstehen. Beispielsweise können in eine Adressdatenbank aus unterschiedlichen Quellen Adressen aufgenommen werden, wobei ein und dieselbe Adresse mit Variationen mehrfach aufgenommen werden kann. Mittels Duplikaterkennung sollen nun diese Duplikate herausgefunden und die eigentlichen Adressen als Objekte identifiziert werden.

Es sind zwei Arten von Duplikaten zu unterscheiden: identische Duplikate, bei denen alle Werte identisch sind, und nichtidentische Duplikate, bei denen sich ein bis mehrere Werte unterscheiden. Die Erkennung und Bereinigung ist im ersten Fall trivial, die überzähligen Duplikate können ohne Informationsverlust einfach gelöscht werden. Schwieriger und komplexer ist der zweite Fall, da die Duplikate nicht über einen einfachen Ist-Gleich-Vergleich wie im ersten Fall identifiziert werden können. Aus diesem Grund müssen Heuristiken angewandt werden. Im zweiten Fall können die überzähligen Datensätze nicht einfach gelöscht werden, sie müssen vorher konsolidiert und die Werte zusammengefasst werden.

Inhaltsverzeichnis

1 Der Prozess zur Erkennung und Konsolidierung von Duplikaten
2 Beispiele
3 Literatur
4 Siehe auch

Der Prozess zur Erkennung und Konsolidierung von Duplikaten

Der Prozess zur Erkennung und Konsolidierung von Duplikaten kann in folgenden vier Schritten erfolgen (Apel, 2009, S. 164):

Vorverarbeitung der Daten
Partitionierung der Daten
Erkennung von Duplikaten und
Konsolidierung zu einem Datensatz.

Zur Erkennung von Duplikaten werden verschiedene Ähnlichkeitsmaße angewandt, beispielsweise die Levenshtein-Distanz oder die Typewriterdistanz. Da in der Regel aus Kostengründen nicht jeder Datensatz mit jedem anderen verglichen werden kann, gibt es Verfahren wie die sortierte Nachbarschaft (englisch Sorted Neighborhood), bei der nur potenziell ähnliche Datensätze daraufhin überprüft werden, ob sie Duplikate sind.

Es gibt phonetische Algorithmen, die Wörtern nach ihrem Sprachklang eine Zeichenfolge zuordnen, den phonetischen Code, um eine Ähnlichkeitssuche zu implementieren, zum Beispiel Soundex und Kölner Phonetik.

Beispiele

Bei den folgenden Einträgen aus einer Liste von Namen kann es sich möglicherweise um Duplikate handeln:

Max Müller

Max Mueller

M. Müller

Max Muller

Bei einer Bibliothek können Dubletten auftreten, wenn mehrere Bibliothekskataloge zusammengeführt werden.

Literatur

Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi: Datenqualität erfolgreich steuern – Praxislösungen für BI-Projekte. 2009, Hanser Fachbuch, ISBN 978-3-446-42056-4.

Siehe auch

Deduplizierung

Kategorie:

Datenbanktheorie

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Data Fusion — Datenfusion (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen … Deutsch Wikipedia
Datenfusion — (engl. data fusion) bezeichnet die Zusammenführung und Vervollständigung lückenhafter Datensätze zur Datenbereinigung. Während bei der Duplikaterkennung die Datensätze weitgehend vollständig sind und nur kleine Abweichungen aufweisen, müssen bei… … Deutsch Wikipedia
Data Cleaning — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… … Deutsch Wikipedia
Data Cleansing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… … Deutsch Wikipedia
Data scrubbing — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… … Deutsch Wikipedia
Datenbereinigung — Zur Datenbereinigung (engl. data cleaning oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… … Deutsch Wikipedia
Datenfehler — Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten… … Deutsch Wikipedia
Datenintegration — Unter Informationsintegration versteht man das Zusammenführen von Informationen aus verschiedenen Datenbeständen (Datenquellen) mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur. Dabei sollen vor… … Deutsch Wikipedia
Dublettenbereinigung — Unter Duplikaterkennung oder Objektidentifizierung versteht man verschiedene automatische Verfahren, mit denen sich Datensätze identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim… … Deutsch Wikipedia
Edit-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Duplikaterkennung

Inhaltsverzeichnis

Der Prozess zur Erkennung und Konsolidierung von Duplikaten

Beispiele

Literatur

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Duplikaterkennung

Inhaltsverzeichnis

Der Prozess zur Erkennung und Konsolidierung von Duplikaten

Beispiele

Literatur

Siehe auch

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link