Custom cover image
Custom cover image

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten / von Uwe Draisbach

By: Resource type: Ressourcentyp: Buch (Online)Book (Online)Language: German Series: SpringerLink BücherPublisher: Wiesbaden : Vieweg+Teubner Verlag, 2012Description: Online-Ressource (XIV, 91S. 28 Abb., 6 Abb. in Farbe, digital)ISBN:
  • 9783834882899
Subject(s): Additional physical formats: 9783834817723 | Buchausg. u.d.T.: Partitionierung zur effizienten Duplikaterkennung in relationalen Daten. Wiesbaden : Springer Vieweg, 2012. XII, 91 S.DDC classification:
  • 004
  • 005.74
  • 500
RVK: RVK: ST 270LOC classification:
  • QA76.9.D3
DOI: DOI: 10.1007/978-3-8348-8289-9Online resources:
Contents:
Geleitwort; Vorwort; Inhaltsverzeichnis; Abbildungsverzeichnis; Tabellenverzeichnis; 1 Gegenstand der Arbeit; 1.1 Thematischer Überblick; 1.2 Aufbau der Arbeit; 2 Duplikaterkennung; 2.1 Einleitung; 2.2 Entstehung und Auswirkungen von Duplikaten; 2.3 Ablauf der Duplikaterkennung; 2.4 Ähnlichkeitsmessung; 2.5 Beurteilung der Qualität der Duplikaterkennung; 2.6 Zusammenfassung; 3 Blocking-Verfahren; 4 Windowing-Verfahren; 4.1 Sorted-Neighborhood-Methode; 4.2 Multi-Pass Sorted-Neighborhood; 4.3 Union-/Find-Methode; 4.4 Inkrementelle Duplikaterkennung
5 Vergleich Blockingund Sorted-Neighborhood-Methode5.1 Theoretischer Vergleich; 5.2 Praktischer Vergleich; 5.3 Zusammenfassung für die Entwicklung eines verallgemeinerten Verfahrens; 6 Verallgemeinertes Verfahren; 6.1 Untersuchung der optimalen Partitionsüberschneidung; 6.2 Beschreibung des Algorithmus; 6.3 Analyse des Algorithmus; 6.4 Bewertung des verallgemeinerten Verfahrens; 7 Zusammenfassung; Anhang; Vollständige Attributliste der Testdatensätze; Literaturverzeichnis;
Summary: Duplikaterkennung -- Blocking-Verfahren -- Windowing-Verfahren -- Vergleich Blocking- und Sorted-Neighborhood-Methode -- Verallgemeinertes Verfahren.Summary: Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern. Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.PPN: PPN: 1651392013Package identifier: Produktsigel: ZDB-2-SEB | ZDB-2-STI
No physical items for this record